本文篇幅較長行拢,分為上,中诞吱,下舟奠,三個部分進行連載。內容分別為:AIOps 背景/所應具備技術能力分析(上)房维,AIOps?常見的誤解(中)沼瘫,挑戰(zhàn)及建議(下)平痰。
前言
我大概是 5粤策,6 年前開始接觸 ITOA 這個領域的,首次接觸后旭寿,發(fā)現(xiàn)領域有著巨大的潛力暴浦,一直尋找在這個領域做點事情的機會溅话。大約三年前在這個領域創(chuàng)業(yè),積極尋求 Product Market Fit歌焦。這幾年下來飞几,經過與行業(yè)內的專家交流,研讀報告独撇,閱讀論文屑墨,客戶訪談躁锁,親自動手對相應的運維場景解析,行業(yè)產品的試用調研卵史,以及結合著中國運維市場現(xiàn)狀战转,撰寫了此文。本人才疏學淺以躯,不學無術槐秧,歡迎拍磚。
我們第一部分主要講到了AIOps 的背景以及所需要的能力忧设,我們這部分主要講誤解刁标。
對 AIOps 誤解:
AIOps 等于可以減少人力資源的投入
AIOps 不等于無人值守;
AIOps 不等于 NoOps;
AIOps 不等于可以減少人專家的參與;
AIOps 可以降低人力成本;
AIOps 在現(xiàn)階段不等于可以省錢;
AI 的確是一個非常性感的詞匯,大家認為只要實現(xiàn)了智能化址晕,就能夠輕輕松松膀懈,不需要人的干預,這當然是一個非常理想的狀況谨垃,但是启搂,在短時間內,這個不能實現(xiàn)刘陶。這個的實現(xiàn)難度胳赌,個人認為,與自動無人駕駛易核,能實現(xiàn)第五等級是同樣的難度匈织,也就說,可能起碼需要10年左右的時間牡直,甚至可能更長時間。
AIOps 平臺本質上還是一個工具纳决,在構建后碰逸,仍然需要人的參與,而且在目前的探索發(fā)展的投入階段阔加,有大量的工需要去做饵史,需要運維專家,大數(shù)據(jù)工程師胜榔,算法科學家胳喷,業(yè)務專家,暫時看不到能削減人力成本的可能性夭织,而且相關的投入可能需要多年的時間吭露。
在平臺建立后,在持續(xù)改進的情況下尊惰,仍然需要專家或者分析師讲竿,從不同的維度泥兰,從不同的業(yè)務口徑,組合合適的可視化技術题禀,機器學習技術鞋诗,大數(shù)據(jù)分析技術,制定分析場景迈嘹,平臺才能夠為IT運維削彬,業(yè)務分析產生持續(xù)的洞察,提供商業(yè)價值秀仲。
所以融痛,AIOps 不能取代人,在現(xiàn)階段不可能減少人力投入啄育,但在未來可能能促進部分運維人員轉型為通曉業(yè)務酌心,掌握運維知識的數(shù)據(jù)分析師。
算法和智能化是AIOps最重要的事情
算法很重要挑豌,但是我個人認為安券,在此階段,大部分企業(yè)不應該以算法為第一著眼點氓英。
這個應該是比較有爭議侯勉,或者,或者說大家認知不太一致的部分铝阐。以下這張圖是?Gartnert 在 AIOps 還在叫 ITOA 時候址貌,給定義的四個階段:
Data ingestion, indexing, storage and access;
Visualization and basic statistical summary;
Pattern discovery and anomaly detection;
True causal path discovery;
Gartner 在報告中強調,掌握后面階段的前提是擁有前一階段的能力徘键,如果不擁有充分的前一階段能力练对,將會影響 ITOA 的落地效果。因此這四個階段必須一個步一腳印吹害,第三以及第四部時螟凭,才顯著地引入了機器算法,或者 AI 的必要它呀。
大家都知道螺男,所謂的機器學習算法,統(tǒng)計算法纵穿,深度學習算法這些 AI 的分類下隧,其實是高度依賴于數(shù)據(jù)的。沒有多種數(shù)據(jù)源谓媒,數(shù)據(jù)的采集淆院,數(shù)據(jù)存儲,數(shù)據(jù)統(tǒng)計篙耗,數(shù)據(jù)可視化迫筑,一切都只是空中樓梯宪赶。
來源: Gartner Report “Organizations Must Sequentially Implement the Four Phases of ITOA to Maximize Investment ” 2015.2.18
因此,AIOps 的平臺的建設首先應該是著眼點應該是大數(shù)據(jù)脯燃,然后才是算法搂妻,從而實現(xiàn)持續(xù)洞察和改進的目標。
一定要上深度學習才叫 AIOps
我們可以先看看 AI , Machine Learning , Deep Learning 的關系辕棚,他們的關系大概如下圖欲主。
學術界有不少學者,在探索部分深度學習算法智能運維中的應用逝嚎,如猶他州大學的《DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning》 中利用 Long Short-Term Memory (LSTM)來實現(xiàn)日志模式的發(fā)現(xiàn)扁瓢,從而實現(xiàn)異常檢測。但是补君,其實智能運維所需要的大部分算法引几,決策樹學習(decision tree learning)、聚類(clustering)挽铁、SVM(Support Vector Machine)和貝葉斯網絡(Bayesian networks)等等算法伟桅,均是屬于傳統(tǒng)的機器學習范疇的,因此 我們不應該將深度學習與 AIOps 掛上必然的聯(lián)系叽掘。
甚至于楣铁,我們不用拘泥于概念,從解決問題的角度出發(fā)更扁,在特定的場景盖腕,利用傳統(tǒng)的規(guī)則集,設定一些規(guī)則浓镜,降低了運維人員的工作強度溃列,提高了效率,也能叫智能運維膛薛。甚至在Gartner 的報告中哭廉,對AIOps 落地的第一步,是統(tǒng)計分析相叁,可視化,而不是任何的機器學習算法辽幌。
它適合現(xiàn)階段所有有規(guī)模的用戶
這個比較好理解增淹,就目前來看,AIOps 只適合大型的客戶乌企,原因如下:
中小型的客戶缺乏多種數(shù)據(jù)源;
中小型客戶業(yè)務需求沒有那么復雜;
很多算法虑润,其實是為了大規(guī)模運維的時候才用的上的,在規(guī)模小的時候加酵,難以產生效果;
運維自動化是智能運維的前提
我看到過不少的文章拳喻,將運維分成了四個階段哭当,將自動化運維放在智能運維的前一個階段,把智能冗澈,又或者在智能運維這個體系里頭钦勘,硬是塞了很多自動化運維,批量操作亚亲,批量規(guī)劃的功能在里頭彻采,我覺得都是不對的。自動化運維更像是手捌归,智能運維更像是眼鏡及大腦肛响,有了更全面數(shù)據(jù),更充滿的分析后惜索,大腦能更好的指揮手進行操作特笋。
因此,企業(yè)應該將自動化運維和智能化運維看成了兩個有關聯(lián)的體系巾兆,但是不應該混一談猎物,造成更多的誤解。
OneAPM?全新推出新一代 AIOps 平臺 I2臼寄,歡迎您隨時聯(lián)系我們霸奕,即刻開啟貴公司的智能運維之旅。點擊進入AIOps 官網了解更多信息吉拳。
來源:http://blog.oneapm.com/apm-tech/817.html