會上,天翼云科技有限公司大數(shù)據(jù)產(chǎn)品線產(chǎn)品管理專家王海發(fā)表了題為《天翼云大數(shù)據(jù)平臺:AI賦能的SRE自治實踐》的演講,向與會嘉賓展示了天翼云在大數(shù)據(jù)平臺智能化運維領(lǐng)域的前沿探索與落地成果。

在AI技術(shù)迅猛發(fā)展的背景下,如何保障大規(guī)模、高復(fù)雜度的大數(shù)據(jù)平臺的極致穩(wěn)定與高效運行,成為行業(yè)共同面臨的嚴(yán)峻挑戰(zhàn)。傳統(tǒng)的運維模式已難以滿足企業(yè)高效管理需求,智能化、自動化、自治化成為SRE(站點可靠性工程)演進(jìn)的必然方向。天翼云依托在智能運維領(lǐng)域的創(chuàng)新理念、技術(shù)突破與落地實踐,為行業(yè)升級帶來了新思路。

理念層面,從“被動響應(yīng)”向“主動治理”。針對超大規(guī)模大數(shù)據(jù)平臺在監(jiān)控、告警、故障定位、資源優(yōu)化等方面的痛點,以及AI技術(shù)帶來的變革潛力,天翼云圍繞對大數(shù)據(jù)PaaS平臺運營體系從“被動響應(yīng)”向“主動治理”躍遷的目標(biāo),進(jìn)一步明確建立數(shù)據(jù)驅(qū)動、閉環(huán)管控、業(yè)務(wù)對齊的立體化運營能力,實現(xiàn)“監(jiān)、管、控”三位一體,推動平臺從“可用”到“可信”再到“智能”的持續(xù)演進(jìn)。

技術(shù)層面,構(gòu)建AI驅(qū)動的SRE自治引擎。天翼云大數(shù)據(jù)團(tuán)隊借助三層AI引擎架構(gòu)構(gòu)建“感知-決策-執(zhí)行”閉環(huán),實現(xiàn)從“人治”到“自治”的躍遷。 智能感知層(集群的“神經(jīng)末梢”):天翼云利用先進(jìn)的AI算法實現(xiàn)對大數(shù)據(jù)平臺的海量監(jiān)控指標(biāo)進(jìn)行實時異常檢測,顯著提升告警準(zhǔn)確率,減少誤報漏報。智能診斷層(故障的“超級大腦”):基于知識圖譜與因果推理的根因定位技術(shù),嘗試在復(fù)雜分布式環(huán)境中快速、精準(zhǔn)地找到問題源頭,將平均故障定位時間(MTTD)大幅縮短。智能執(zhí)行層(自治的“機(jī)械手臂”):天翼云通過翼MR Doctor產(chǎn)品在容量規(guī)劃、風(fēng)險預(yù)警中的應(yīng)用,以及AI驅(qū)動的自動化修復(fù)工作流通過鏈路編排能力,劃分接入層、檢索層、生成層到反饋層四層體系,實現(xiàn)從“人工響應(yīng)”到“系統(tǒng)自愈”的關(guān)鍵跨越。

實踐層面,實現(xiàn)“自治閉環(huán)”的落地。天翼云大數(shù)據(jù)產(chǎn)品將AI能力深度融入運維流程,構(gòu)建起涵蓋“感知-診斷-決策-執(zhí)行-反饋”的完整自治閉環(huán)體系,并結(jié)合詳細(xì)的運管智能告警案例,在平臺架構(gòu)設(shè)計、模型迭代優(yōu)化、人機(jī)協(xié)同機(jī)制等方面積累了豐富經(jīng)驗。

數(shù)字經(jīng)濟(jì)發(fā)展對算力與運維的敏捷性、穩(wěn)定性提出更高要求,天翼云持續(xù)探索AIOps與SRE深度融合,聚焦可觀測性、主動風(fēng)險防御、跨域協(xié)同等關(guān)鍵領(lǐng)域,圍繞健康度評分、日志解析、智能RAG知識庫、跨域根因分析、自適應(yīng)防御和參數(shù)自動優(yōu)化等多方面構(gòu)建智能化運維能力,實現(xiàn)以點帶面的效果延展,進(jìn)一步打造大數(shù)據(jù)SRE智能自治新范式,為千行百業(yè)提供更智能、更可靠的數(shù)字底座,助力數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展。

分享到

xiesc

相關(guān)推薦