機(jī)器學(xué)習(xí)技術(shù)在監(jiān)控工具中的應(yīng)用已經(jīng)成為 IT 運維與 DevOps 團(tuán)隊的一大熱點話題循未。盡管相關(guān)的使用案例很多,對 IT 團(tuán)隊而已真正的「殺手級應(yīng)用」是機(jī)器學(xué)習(xí)如何提高實時事件管理能力们镜,從而幫助較大規(guī)模的企業(yè)提高服務(wù)質(zhì)量。對此乘综,關(guān)鍵在于在用戶發(fā)現(xiàn)問題之前提早探測異常憎账,進(jìn)而減少生產(chǎn)事故與中斷的負(fù)面影響。
那么卡辰,在IT運維管理的環(huán)境下胞皱,機(jī)器學(xué)習(xí)到底是什么?
網(wǎng)上有不少關(guān)于機(jī)器學(xué)習(xí)的宏觀定義:對于某給定的任務(wù)T九妈,在合理的性能度量方案P的前提下反砌,某計算機(jī)程序可以自主學(xué)習(xí)任務(wù)T的經(jīng)驗E;隨著提供合適萌朱、優(yōu)質(zhì)宴树、大量的經(jīng)驗E,該程序?qū)τ谌蝿?wù)T的性能逐步提高晶疼。更通俗的來講酒贬,即:隨著任務(wù)的不斷執(zhí)行又憨,經(jīng)驗的積累會帶來計算機(jī)性能的提升。
如果在IT運維管理的前提下锭吨,也許這樣的定義更加準(zhǔn)確:機(jī)器學(xué)習(xí)是分析數(shù)據(jù)蠢莺,反復(fù)地向數(shù)據(jù)學(xué)習(xí),進(jìn)而在不參考明確模型的情況下零如,找出隱藏觀點的一類方法躏将。
在 IT 運維管理的語境中,機(jī)器學(xué)習(xí)的首要替代方案是為 IT 運維管理建立行為模型考蕾,了解這一點非常重要祸憋。行為模型方法要求了解基礎(chǔ)架構(gòu)的所有組件,才能理解出現(xiàn)中斷或服務(wù)質(zhì)量下降的可能原因肖卧。更確切地說蚯窥,你要試著判斷哪些事件和告警模式與你希望監(jiān)控的條件相匹配。
事實上喜命,大多數(shù) IT 運維管理工具都屬于這一類別沟沙。不論是過時的遺留事件管理器,還是使用「聚合及查詢」方法進(jìn)行 IT 運維的現(xiàn)代工具壁榕∶希總之,你都要對這些工具進(jìn)行一定的配置牌里,讓它們留意你預(yù)先就知道需要搜尋的東西颊咬。
而另一方面,機(jī)器學(xué)習(xí)則使用數(shù)據(jù)本身來尋找值得留意的特征牡辽,這些特征可能在事先完全無法預(yù)知喳篇。例如,非監(jiān)督式機(jī)器學(xué)習(xí)态辛,可用于分析事件流或日志消息麸澜,從而找出異常的消息集群。之后奏黑,這些異炒栋睿可以與某項運維結(jié)果相聯(lián)系,從而捕獲潛在中斷的原因與癥狀熟史。
然而馁害,監(jiān)督式機(jī)器學(xué)習(xí)可用于記錄用戶針對給定告警及告警集群的活動,并相應(yīng)地做出算法上的調(diào)整蹂匹。本質(zhì)上碘菜,機(jī)器學(xué)習(xí)利用數(shù)據(jù)不斷地創(chuàng)建并更新行為模型,而不是使用靜態(tài)的行為模型尋找特定的結(jié)果。
在 IT 數(shù)字化轉(zhuǎn)型的今天忍啸,隨之而來的規(guī)模復(fù)雜度仰坦、變更速度以及軟件抽象化等挑戰(zhàn)成為了機(jī)器學(xué)習(xí)應(yīng)用于 IT 運維管理的理由。
如果基礎(chǔ)架構(gòu)處于不斷變化的狀態(tài)吊骤,根本無法建立起固定的行為模型缎岗。如果你想了解來自應(yīng)用與基礎(chǔ)架構(gòu)的大量數(shù)據(jù)的意義静尼,使用基于規(guī)則的方法無疑是死路一條白粉。在新的軟件時代,你必須利用機(jī)器學(xué)習(xí)進(jìn)行實時的數(shù)據(jù)分析鼠渺,這是保證服務(wù)質(zhì)量的必備條件鸭巴。無可否認(rèn),IT 領(lǐng)域正變得越發(fā)混雜拦盹、虛擬化以及流動化鹃祖,只有使用機(jī)器學(xué)習(xí)技術(shù),才能坦然應(yīng)對這些變化普舆。
現(xiàn)代 IT 環(huán)境下恬口,不斷變化的基礎(chǔ)架構(gòu)會產(chǎn)生大量的事件數(shù)據(jù)需要處理。在 OneAlert沼侣,機(jī)器學(xué)習(xí)主要用于「消除噪音」祖能。例如,面對每秒鐘成千上萬的告警事件蛾洛,如何在消除噪音的同時保留有價值的信息事件养铸?
目前 OneAlert 產(chǎn)品對告警事件的壓縮率已經(jīng)高達(dá)80%≡欤基于時間片的告警信息壓縮已經(jīng)趨于成熟钞螟,基于告警屬性相似度的聚類模型能夠?qū)⒏婢瘔嚎s率達(dá)到 95%。而基于機(jī)器學(xué)習(xí)的人工智能壓縮更是能夠?qū)⒏婢瘔嚎s到 99%(我們敬請期待;寻)
OneAlert 是北京藍(lán)海訊通科技有限公司旗下產(chǎn)品鳞滨,是國內(nèi)首個 SaaS 模式的云告警平臺,集成國內(nèi)外主流監(jiān)控/支撐系統(tǒng)蟆淀,實現(xiàn)一個平臺上集中處理所有 IT 事件拯啦,提升 IT 可靠性。想了解更多信息扳碍,請訪問 OneAlert 官網(wǎng) 提岔,歡迎免費注冊體驗 。
本文轉(zhuǎn)自 OneAPM 官方博客