IT運維分析(IT Operations Analytics敞曹,ITOA)指實現(xiàn)基于海量IT運營數(shù)據(jù)的演繹、歸納推理祖能,并支撐IT運營數(shù)據(jù)采集、存儲蛾洛、展現(xiàn)的相關技術及服務养铸。其利用數(shù)學算法或創(chuàng)新方法,從海量IT監(jiān)控管理系統(tǒng)采集的原始數(shù)據(jù)中挖掘有用的信息。ITOA是通過分析海量钞螟、低價值密度的IT系統(tǒng)的可用性和性能數(shù)據(jù)兔甘,發(fā)現(xiàn)復雜的數(shù)據(jù)模式,從而輔助優(yōu)化企業(yè)IT運營過程的系統(tǒng)鳞滨,其需要具備的核心能力如下裂明。
(1)風險根源定位分析:通過融合分析來自基礎設施、應用太援、用戶的監(jiān)控數(shù)據(jù),定位產(chǎn)生風險或對系統(tǒng)健康造成潛在威脅的根源所在扳碍。
(2)性能可用性預測分析:基于歷史數(shù)據(jù)預測未來系統(tǒng)性能和可用性的變化趨勢提岔,以及關聯(lián)分析對系統(tǒng)可能產(chǎn)生的影響。
(3)問題識別與派發(fā):圍繞當前問題笋敞,從歷史記錄中查找解決方案和適合解決問題的團隊或人碱蒙,提高處理問題的效率。
(4)影響范圍推理分析:當發(fā)現(xiàn)多個風險可能對系統(tǒng)造成影響時夯巷,基于從數(shù)據(jù)中發(fā)現(xiàn)的模式推理找出可能影響更大赛惩、優(yōu)先級更高的風險,指導相關人員及時趁餐、高效處理這些問題喷兼,降低損失。
(5)多源數(shù)據(jù)融合互補:對IT基礎設施和應用采集的數(shù)據(jù)進行關聯(lián)后雷、融合季惯,補全網(wǎng)絡、應用臀突、服務拓撲結構勉抓,完善探查管理類工具信息視圖。
(6)動態(tài)風險告警閾值管理:自動發(fā)現(xiàn)監(jiān)控指標的正常運行范圍候学,在用戶負載變化或系統(tǒng)配置變更后藕筋,能夠自動從歷史數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,調整異常告警區(qū)間的限定閾值范圍梳码。
對于ITOA技術隐圾,Gartner在Data Growth Demands a Single,Architected IT Operations Analytics Platform報告中總結了六種:①日志分析技術;②非結構化文本數(shù)據(jù)索引边翁、查詢和推理技術翎承;③拓撲分析技術;④多維數(shù)據(jù)庫查詢分析技術符匾;⑤復雜運維事件處理技術叨咖;⑥數(shù)據(jù)統(tǒng)計分析、模式發(fā)現(xiàn)與識別技術。具備這些技術的ITOA才能滿足基礎設施和應用層的監(jiān)控需求甸各,實現(xiàn)由多源異構探針采集的時間序列指標垛贤、日志、代碼鏈路趣倾、網(wǎng)絡包和用戶數(shù)字軌跡數(shù)據(jù)的聚合聘惦、關聯(lián)和分析。目前儒恋,市場上的ITOA產(chǎn)品提供商主要有Splunk善绎、Elastic、Dynatrace和RealSight APM等诫尽。