錢江晚報(bào)·小時(shí)新聞?dòng)浾?張?jiān)粕?/strong>
家里WIFI如果發(fā)生故障,檢查下路由器基本就能發(fā)現(xiàn)原因。但對(duì)于擁有復(fù)雜架構(gòu)的云計(jì)算平臺(tái)來說,要找出故障原因極為復(fù)雜和耗時(shí)。阿里打造出根因分析通用框架,利用AI快速定位故障根因,已應(yīng)用于部分云計(jì)算產(chǎn)品,節(jié)省時(shí)間超過一半,準(zhǔn)確率超過80%。該框架也在近期舉辦的ICASSP’22 AIOps Challenge網(wǎng)絡(luò)智能運(yùn)維國際競賽中獲得冠軍。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)是信號(hào)處理領(lǐng)域規(guī)模最大的國際學(xué)術(shù)會(huì)議。其中,ICASSP’22 AIOps Challenge網(wǎng)絡(luò)智能運(yùn)維競賽由香港中文大學(xué)(深圳)等機(jī)構(gòu)主辦,希望用機(jī)器學(xué)習(xí)等方式來自動(dòng)找出網(wǎng)絡(luò)故障的根本原因,此次共有382支隊(duì)伍參賽。由阿里達(dá)摩院決策智能實(shí)驗(yàn)室和阿里云計(jì)算平臺(tái)組成的團(tuán)隊(duì)獲得冠軍,并受主辦方之邀將其中主要算法以論文的形式發(fā)表在ICASSP上。
所謂根因分析(Root Cause Analysis),是指找到故障的根本原因,這是智能運(yùn)維AIOps的重要研究方向。以云計(jì)算平臺(tái)為例,其穩(wěn)定性至關(guān)重要,但由于架構(gòu)復(fù)雜,模塊眾多,一旦出現(xiàn)故障,如果純靠人工來排查費(fèi)時(shí)費(fèi)力,已難以滿足需求。因此,基于機(jī)器學(xué)習(xí)等智能方式的根因分析應(yīng)運(yùn)而生。
不過,根因分析的技術(shù)門檻頗高,挑戰(zhàn)重重。首先是運(yùn)維數(shù)據(jù)往往來源于不同系統(tǒng),形式多樣,需要大海撈針找出關(guān)鍵信息。其次是容易被表象迷惑,大型系統(tǒng)中,故障傳播的鏈路往往很長,根本原因可能隱藏在深層次節(jié)點(diǎn)中。此外還存在標(biāo)注樣本數(shù)據(jù)少,異常少見等問題。
阿里打造的根因分析通用框架,解決了上述難題。針對(duì)多源異構(gòu)的海量數(shù)據(jù),以時(shí)序分析技術(shù)來提取關(guān)鍵信息;針對(duì)標(biāo)注樣本少,利用時(shí)間序列相似性等多種方法來進(jìn)行數(shù)據(jù)增強(qiáng);針對(duì)故障傳播鏈路長,運(yùn)用結(jié)合了專家經(jīng)驗(yàn)和因果圖的圖算法來找出根本原因。
該框架構(gòu)建了豐富的算法工具箱和兵器庫,已應(yīng)用于阿里云實(shí)時(shí)計(jì)算、通用計(jì)算等多個(gè)重要產(chǎn)品中,如Blink/Flink、MaxCompute、Dataworks等,幫助運(yùn)維人員及時(shí)發(fā)現(xiàn)異常,快速定位問題根因,準(zhǔn)確率達(dá)80%以上,相較之前能節(jié)省時(shí)間一半以上。比如實(shí)時(shí)計(jì)算平臺(tái)的熱點(diǎn)機(jī)器問題,會(huì)導(dǎo)致負(fù)載過高、作業(yè)緩慢,其原因鏈條較長,可能出自硬件故障,也可能是作業(yè)本身,人工排查較為耗時(shí),而使用該框架能夠快速定位根因。此外,它還能幫助發(fā)現(xiàn)較為隱蔽的異常,比如部分機(jī)器下線會(huì)導(dǎo)致資源不足,迫使一些客戶等待排隊(duì),這些在常規(guī)集群整體作業(yè)中難以發(fā)現(xiàn)。
此外,基于該框架的一篇論文之前還被國際頂會(huì)CIKM2021收錄,研究人員受邀作30分鐘的在線演講(Oral Presentation)。
本文為錢江晚報(bào)原創(chuàng)作品,未經(jīng)許可,禁止轉(zhuǎn)載、復(fù)制、摘編、改寫及進(jìn)行網(wǎng)絡(luò)傳播等一切作品版權(quán)使用行為,否則本報(bào)將循司法途徑追究侵權(quán)人的法律責(zé)任。
關(guān)鍵詞: 自動(dòng)找出復(fù)雜故障根本原因 阿里AI獲智能運(yùn)維國際競賽冠軍