隨著企業(yè)數(shù)字化轉(zhuǎn)型的深化值依,許多行業(yè)都卷入了數(shù)據(jù)爆炸的洪流之中肯骇。健康大數(shù)據(jù)窥浪、金融大數(shù)據(jù)祖很、政務(wù)大數(shù)據(jù)等等…而運維從業(yè)者這一群體,與數(shù)據(jù)的關(guān)聯(lián)更加緊密漾脂。
當(dāng)下APM產(chǎn)品逐步普及假颇,運維伙伴可以輕易將所需關(guān)注的數(shù)據(jù)進行可視化的展現(xiàn),對業(yè)務(wù)的變化可以做到一目了然骨稿。但同時笨鸡,也給自己套上了“緊箍咒”,監(jiān)控平臺的“紅色標(biāo)識”坦冠,郵箱形耗、短信收到的告警提示,緊牽著運維伙伴的神經(jīng)辙浑。
問題也隨之而來激涤,如何最佳的配置“告警”,是每一個運維伙伴工作中面臨的棘手問題例衍。
1
業(yè)務(wù)越來越復(fù)雜昔期,越早的發(fā)現(xiàn)局部小問題,才能更好的保障業(yè)務(wù)的運行佛玄。如何實現(xiàn)精細(xì)化的告警?
“可用性”是判斷應(yīng)用健康狀況的一項重要指標(biāo)。但這一項指標(biāo)告警可能存在一些遺漏及誤報累澡,比如在金融行業(yè)常見的前置應(yīng)用到核心應(yīng)用這一架構(gòu)中梦抢,當(dāng)核心應(yīng)用的“成功率”、“響應(yīng)率”等指標(biāo)正常時愧哟,是否即可判定應(yīng)用正常奥吩?
實際情況中,核心應(yīng)用通常承載許多程序模塊蕊梧,當(dāng)其中某一程序模塊出現(xiàn)問題時霞赫,而整體的指標(biāo)在正常的范圍時鹏浅,“可用性”告警可能就失效了庞瘸。
這一場景下,“過濾器”即可發(fā)揮出價值凫海。
“過濾器”可通過一組搜索條件甘改,在已歸類好的交易里將我們關(guān)注的某種特征的交易篩選出來旅东,例如IP端口、不同交易渠道十艾、不同交易類型等維度抵代,再結(jié)合運算,做單獨的分析忘嫉,即可實現(xiàn)更加精準(zhǔn)的告警配置荤牍。
舉例來說案腺,在配置高危事件告警時,可通過監(jiān)控關(guān)鍵交易及關(guān)鍵節(jié)點的性能指標(biāo)康吵,對交易中出現(xiàn)的關(guān)鍵錯誤碼的重點識別來實現(xiàn)對高危事件的告警救湖。當(dāng)然,這僅是“過濾器”應(yīng)用的冰山一隅涎才,在面對更加復(fù)雜的場景時鞋既,“過濾器”有更大的發(fā)揮空間。
2
隨著業(yè)務(wù)的增長耍铜、告警的精細(xì)化要求邑闺,監(jiān)控的需求越來越大,傳統(tǒng)的配置方法顯然無法滿足棕兼,如何應(yīng)對陡舅?
當(dāng)需要對數(shù)據(jù)按照維度進行過濾時,當(dāng)一個維度下的值成千上萬時伴挚,當(dāng)一些值只在離散的時間段內(nèi)出現(xiàn)靶衍,動態(tài)增減,人工難以及時響應(yīng)調(diào)整時茎芋,想實現(xiàn)對其全面的監(jiān)控便會十分的困難颅眶。潛在的巨大工作量更是難以承受。
此時田弥,“聚合維度告警”挺身而出涛酗。通過聚合維度告警,在設(shè)置告警對象時偷厦,不必再人工對要監(jiān)控的所有值逐個的指定商叹,只需告訴監(jiān)控系統(tǒng)所關(guān)注的維度,該維度下所有值均會按照告警條件進行監(jiān)控只泼,并且可以通過例外值的獨立設(shè)置剖笙,確保監(jiān)控的精準(zhǔn)與可靠。
3
業(yè)務(wù)在變请唱,監(jiān)控需求也在變弥咪,告警能不能更加智能?
絕大多數(shù)的監(jiān)控系統(tǒng)都是通過閾值來實現(xiàn)告警的籍滴,閾值是固定的酪夷,而業(yè)務(wù)卻是不斷變化的,隨之而來的問題便是告警的泛濫孽惰,隱患不言而喻晚岭。
近年,很多企業(yè)也開始嘗試“去閾值”勋功,動態(tài)基線的科學(xué)性自然成為了舉足輕重的大事坦报。
在即將發(fā)布的EZSonar4.1版本中库说,華青融天優(yōu)化了原有的“動態(tài)基線告警”算法。優(yōu)化后的AI算法基于模型多周期因素綜合考慮片择,管理員不需要再額外配置其他參數(shù)潜的,在指定需要監(jiān)控的指標(biāo)后,便可以自動地實現(xiàn)學(xué)習(xí)和監(jiān)控字管。
運維之路啰挪,艱苦漫長,告警的持續(xù)改進也不能一蹴而就嘲叔,運維伙伴需要不斷的優(yōu)化亡呵、不斷的總結(jié)。
華青融天亦身先士卒硫戈,通過不斷的更新锰什、迭代產(chǎn)品,助力運維伙伴丁逝。