AI人工智能技術(shù)近幾年發(fā)展得如火如荼,而隨著深度學(xué)習(xí)技術(shù)的成熟伐蒂,AI也正在逐步從尖端技術(shù)慢慢變得普及,AI目前已經(jīng)可以實(shí)現(xiàn)很多功能了肛鹏,如語音識別逸邦、自然語言理解、數(shù)據(jù)挖掘在扰、計(jì)算機(jī)視覺等缕减。除此之外,現(xiàn)在又多了一個落地應(yīng)用——這是一座尚未開采的金礦——AIOps芒珠。
2016年桥狡,Gartner定義了一個新名詞——AIOps,即基于算法的IT運(yùn)維(Algorithmic IT Operations)皱卓,這可能和你的第一反應(yīng)Artifical Intelligence Operations有所偏差裹芝,不過本質(zhì)上意義是一樣的。Algorithmic IT Operations源自業(yè)界之前所說的ITOA(IT Operations and Analytics)娜汁,算法的效率提升了 AIOps 的價(jià)值嫂易,通過持續(xù)學(xué)習(xí),智能運(yùn)維將把運(yùn)維人員從紛繁復(fù)雜的告警和噪音中解放出來掐禁,運(yùn)維插上了機(jī)器學(xué)習(xí)和算法的虎翼炬搭,將變得更自動化蜈漓、智能化。Gartner 的報(bào)告宣稱宫盔,到 2020 年融虽,將近 50% 的企業(yè)將會在他們的業(yè)務(wù)和 IT 運(yùn)維方面采用 AIOps,遠(yuǎn)遠(yuǎn)高于今天的 10%灼芭。
智能運(yùn)維的必要性相信不必多言有额,如今的IT基礎(chǔ)架構(gòu)相比于前五年,前十年彼绷,規(guī)模和復(fù)雜度都呈倍數(shù)增長巍佑,服務(wù)數(shù)量更是呈指數(shù)增長,早期的運(yùn)維方式已經(jīng)無法負(fù)荷愈加沉重的工作量寄悯,而人工智能的發(fā)展給運(yùn)維帶來了契機(jī)萤衰,AIOPS應(yīng)運(yùn)而生。
IT 運(yùn)維發(fā)展歷程
1. 人工運(yùn)維時(shí)代
初期階段IT基礎(chǔ)設(shè)施通常處在小規(guī)模狀態(tài)猜旬。幾臺至幾十臺機(jī)器的規(guī)模脆栋,足以滿足業(yè)務(wù)需求。早期一般企業(yè)采用的都是人工運(yùn)維洒擦,決策分析幾乎完全由人工完成椿争。
2.自動化運(yùn)維時(shí)代
隨著云時(shí)代到來,IT基礎(chǔ)設(shè)施迅速發(fā)展成幾百上千臺服務(wù)器熟嫩,更多的業(yè)務(wù)系統(tǒng)上線秦踪,因此,各類孤島式的運(yùn)維管理工具也開始上線掸茅,提升運(yùn)維效率椅邓。
3. DevOps時(shí)代
DevOps是一組過程、方法與系統(tǒng)的統(tǒng)稱昧狮,企業(yè)希望將原本笨重的開發(fā)與運(yùn)維之間的工作移交過程變得流暢無礙希坚,便可借助DevOps來完成,DevOps的目標(biāo)是流程的自動化——讓代碼完成過去手工的工作陵且,從而大大節(jié)省成本裁僧。
4. AIOps時(shí)代
AIOps智能運(yùn)維,用機(jī)器學(xué)習(xí)方法做決策分析慕购,算法的效率提升了 AIOps 的價(jià)值聊疲,通過持續(xù)學(xué)習(xí),智能運(yùn)維將把運(yùn)維人員從紛繁復(fù)雜的告警和噪音中解放出來沪悲。
AIOps智能運(yùn)維如何做好?
清華計(jì)算機(jī)系副教授获洲,智能運(yùn)維算法專家裴丹教授為我們提出了如下見解。
機(jī)器學(xué)習(xí)本身有很多成熟的算法和系統(tǒng)殿如,及其大量的優(yōu)秀的開源工具贡珊。如何成功的將機(jī)器學(xué)習(xí)應(yīng)用到運(yùn)維之中最爬?還需要以下三個方面的支持:
1.?? ?數(shù)據(jù)。互聯(lián)網(wǎng)應(yīng)用本身具有海量的日志门岔。需要做優(yōu)化存儲爱致。 數(shù)據(jù)不夠還需要自主生成。
2.?? ?標(biāo)注的數(shù)據(jù)寒随。日常運(yùn)維工作會產(chǎn)生標(biāo)注的數(shù)據(jù)糠悯。 比如出了一次事件后,運(yùn)維工程師會記錄下過程妻往, 這個過程會反饋到系統(tǒng)之中互艾, 反過來提升運(yùn)維水平。
3.?? ?應(yīng)用讯泣。運(yùn)維工程師是智能運(yùn)維系統(tǒng)的用戶纫普。用戶使用過程發(fā)現(xiàn)的問題可以對智能系統(tǒng)的優(yōu)化起正向反饋?zhàn)饔谩?/p>
AIOps落地誰家?
Google | 數(shù)據(jù)中心人工智能模型
早在2014年好渠,人工智能就在IT運(yùn)維領(lǐng)域有所應(yīng)用昨稼,在Google,人工智能是提高各個大型數(shù)據(jù)中心效率的重要工具晦墙。
Google使用“類神經(jīng)網(wǎng)絡(luò)”技術(shù)分析其眾多數(shù)據(jù)中心的工作情況,并根據(jù)所得數(shù)據(jù)進(jìn)行維護(hù)肴茄。這個“類神經(jīng)網(wǎng)絡(luò)”的核心部分其實(shí)是一些算法晌畅,可以識別模型(patterns),并根據(jù)相應(yīng)模型做出判斷寡痰,即Google使用這些算法管理數(shù)據(jù)中心抗楔。它們無法超越人腦,但在某些情況下卻更快拦坠,更全面连躏。
從具體來看,每隔幾秒贞滨,Google就會收集數(shù)據(jù)中心所有的處理信息入热,從設(shè)備耗能多少,到硬件冷卻到室溫需要多少水無一不包括晓铆。Google數(shù)據(jù)中心青年工程師Jim Gao就是使用這些數(shù)據(jù)構(gòu)造人工智能模型勺良,在不同條件下預(yù)測數(shù)據(jù)中心效率。如果數(shù)據(jù)中心的效率低于模型預(yù)測骄噪,公司就會收到相關(guān)信息尚困。這個模型,同樣可以幫助Google決定何時(shí)管理數(shù)據(jù)中心的設(shè)備链蕊,比如何時(shí)清理熱交換器事甜,提高設(shè)備冷卻性能谬泌。這樣一來,這個模型具有辨別功能逻谦,解放了Google的工程師們掌实,也大大提高數(shù)據(jù)中心的運(yùn)維效率。
百度 | 基于日志 trace 的智能故障定位系統(tǒng)
結(jié)合機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步跨跨,百度實(shí)現(xiàn)了一套基于日志 trace 的智能故障定位系統(tǒng)及其背后的一套技術(shù)方案潮峦,最終能夠?qū)崿F(xiàn) WQPS/sec 的 PV 根因定位能力,并能夠根據(jù)根因做統(tǒng)計(jì)上的多維度匯聚勇婴,該系統(tǒng)應(yīng)用于百度核心搜索系統(tǒng)忱嘹,極大的提升了重大異常問題定位效率。
阿里 | 機(jī)器學(xué)習(xí)在大規(guī)模服務(wù)器治理復(fù)雜場景的實(shí)踐
我們今天面臨的問題耕渴,云拘悦、支付和交易的程序通過虛擬化打散在百萬級的服務(wù)器上, 面對如此龐大的基礎(chǔ)設(shè)施橱脸, 傳統(tǒng)的運(yùn)維方法受到了極大地挑戰(zhàn)础米。海量告警無法及時(shí)處理、臟數(shù)據(jù)影響定位添诉、批量問題如何提煉屁桑。
在無高質(zhì)量樣本的情況下,通過關(guān)聯(lián)分析和異常檢測算法栏赴,構(gòu)建算法閉環(huán)蘑斧。自動迭代,讓批量問題的預(yù)測精度不斷提高须眷。打通故障定位和裝機(jī)系統(tǒng)竖瘾,提供從發(fā)現(xiàn) ->定位 ->跟蹤 ->修復(fù)的一站式解決方案。
各個行業(yè)的企業(yè)正在采用AIOps——銀行花颗、娛樂捕传、交通、零售扩劝,甚至政府庸论。從運(yùn)維的發(fā)展角度看, AIOps 是必然趨勢棒呛,將為企業(yè)帶來最直接最深遠(yuǎn)的價(jià)值葡公。