很難說,生活在這個(gè)數(shù)據(jù)大爆炸的時(shí)代對運(yùn)維同學(xué)是福還是禍州胳。靈活的監(jiān)控系統(tǒng)记焊、開放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來,但是栓撞,過多的數(shù)據(jù)容易產(chǎn)生干擾遍膜,反而不利于具體信息提取和操作。
關(guān)于監(jiān)控哪些指標(biāo)瓤湘,以及為什么要從系統(tǒng)化的角度出發(fā)瓢颅,我們進(jìn)行過深入的思考。本文中弛说,我們想與大家分享一些具體的指標(biāo)和準(zhǔn)則挽懦,進(jìn)一步幫助團(tuán)隊(duì)衡量并提高運(yùn)維性能。以下整理了4個(gè)關(guān)鍵性運(yùn)維指標(biāo):
告警事件數(shù)量
如果團(tuán)隊(duì)中的事件數(shù)量呈現(xiàn)上升趨勢剃浇,那么很有可能是哪里出了問題:要么是基礎(chǔ)設(shè)施有故障巾兆,要么是監(jiān)控工具配置錯(cuò)誤需要調(diào)整猎物。
隨著公司的發(fā)展虎囚,組織結(jié)構(gòu)會調(diào)整,同時(shí)業(yè)務(wù)產(chǎn)品也會不斷升級蔫磨,配套監(jiān)控也會同步上線淘讥,告警事件數(shù)量會急劇增加〉倘纾「我們浪費(fèi)了大量時(shí)間來關(guān)閉冗余報(bào)警蒲列≈吓螅」--相信很多同學(xué)都會有類似的體會。告警事件數(shù)量是可控的:
- 告警數(shù)量可統(tǒng)計(jì)蝗岖,如這周告警數(shù)量是多少侥猩,與新發(fā)布的產(chǎn)品系統(tǒng)有沒有關(guān)系,發(fā)生哪些問題抵赢?
- 告警數(shù)量是可操作的欺劳,意味著每一個(gè)告警都是有意義并且是需要處理和操作的,如果僅僅是瞅一眼的數(shù)據(jù)铅鲤,請不要通過告警方式划提。例如100+機(jī)器時(shí),每臺機(jī)器的「CPU 使用率高」告警是沒有啥用的邢享,你知道機(jī)器 CPU 使用率高后鹏往,你能做什么操作呢?你可能直接忽略掉骇塘,當(dāng)數(shù)量大到你把需要處理的告警也忽略掉時(shí)伊履,告警就失去了意義。類似指標(biāo)完全可以通過周報(bào)/日報(bào)進(jìn)行數(shù)據(jù)的性能分析绪爸,而不是告警湾碎。
平均解決事件( MTTR )
解決時(shí)間是衡量業(yè)務(wù)準(zhǔn)備的最佳標(biāo)準(zhǔn)。當(dāng)事件發(fā)生時(shí)奠货,你的團(tuán)隊(duì)需要多長時(shí)間才能解決介褥?
宕機(jī)不僅會影響你的收入,還會傷害客戶用戶體驗(yàn)和忠誠度递惋,所以確保團(tuán)隊(duì)對所有事件可以快速響應(yīng)極為關(guān)鍵柔滔。
- 全球500強(qiáng)企業(yè)平均每周出現(xiàn)嚴(yán)重故障時(shí)間長達(dá)1.6小時(shí)。
- 平均每小時(shí)折合損失$96,000萍虽。
當(dāng)然睛廊,跟蹤解決時(shí)間固然重要,但對其進(jìn)行規(guī)范往往很難杉编,企業(yè)可以根據(jù)環(huán)境的復(fù)雜性超全、團(tuán)隊(duì)和基礎(chǔ)設(shè)施的責(zé)任制、行業(yè)及其他因素邓馒,進(jìn)一步觀測 MTTR 的差異嘶朱。但是,規(guī)范化的操作手冊光酣、自動化的基礎(chǔ)設(shè)施管理疏遏、可靠的告警升級策略都有助于減少事件,和提升 MTTR。
優(yōu)秀的團(tuán)隊(duì)減少事件數(shù)量财异,并及時(shí)解決( MTTR )倘零,所以平均解決事件需要和上面告警數(shù)量一樣,需要記錄和統(tǒng)計(jì)分析戳寸,目前大多監(jiān)控工具往往不具備類似能力呈驶,如果沒有精力或者資源自行開發(fā)的話,我們就建議使用第三方平臺OneAlert 疫鹊。
有關(guān)如何減少事件數(shù)量俐东,避免告警疲勞的事情,后續(xù)將會有獨(dú)立文章進(jìn)行發(fā)布订晌。
平均響應(yīng)時(shí)間( MTTA )
如果說平均解決時(shí)間是結(jié)果虏辫,那么平均響應(yīng)時(shí)間就是重要的過程指標(biāo),這一點(diǎn)往往被大多團(tuán)隊(duì)忽略掉锈拨∑鲎可以理解為告警越快發(fā)現(xiàn),越快有人響應(yīng)奕枢,就能夠越快的解決(更好的MTTR)娄昆。
提升 MTTA 的核心是找對人、找到人缝彬。上圖中如果02:01能夠及時(shí)通知到位就可以節(jié)省至少4個(gè)小時(shí)時(shí)間萌焰。
說起來簡單,實(shí)際上找對人有些工作(只1人運(yùn)維的請忽略)谷浅,一般是從職責(zé)責(zé)任制扒俯、協(xié)調(diào)機(jī)制、工作進(jìn)程透明一疯、工作量和時(shí)間可衡量等幾點(diǎn)進(jìn)行撼玄,后面針對「有序分派」再補(bǔ)充一篇。
除了以上機(jī)制墩邀,還有一點(diǎn)掌猛,就是需要記錄誰什么時(shí)候確認(rèn)響應(yīng)告警,并做了哪些處理眉睹,能夠持續(xù)跟蹤荔茬,以及統(tǒng)計(jì)分析。
響應(yīng)時(shí)間非常重要竹海,因?yàn)樗軒椭懔私饽男﹫F(tuán)隊(duì)和個(gè)人處于隨叫隨到的狀態(tài)慕蔚。快速響應(yīng)時(shí)間是一個(gè)戰(zhàn)備文化的代表站削,你會發(fā)現(xiàn)具備快響應(yīng)觀念和工具的團(tuán)隊(duì)往往可以更快地修復(fù)事件坊萝。
如果使用像 OneAlert 的事件管理系統(tǒng)孵稽,[升級超時(shí)]有助于推進(jìn)響應(yīng)目標(biāo)许起。例如十偶,如果你希望所有事件都應(yīng)該在5分鐘內(nèi)回復(fù),可以將超時(shí)設(shè)置為5分鐘园细,從而確保下一個(gè)接收人會收到提醒惦积。再根據(jù)團(tuán)隊(duì)的整體表現(xiàn),來決定是否需要調(diào)整目標(biāo)猛频,然后再跟蹤升級事件的數(shù)量狮崩。
升級
對于大多數(shù)使用事件管理工具的組織而言,告警升級是一種異陈寡埃現(xiàn)象睦柴,該跡象表明首次應(yīng)該響應(yīng)的時(shí)候,無法及時(shí)應(yīng)對事件毡熏,或許相關(guān)工具和人員技能失效坦敌。升級策略是事件管理的必須,各個(gè)團(tuán)隊(duì)?wèi)?yīng)努力推動升級痢法,實(shí)現(xiàn)升級事件數(shù)量的下降狱窘。
優(yōu)秀的運(yùn)維團(tuán)隊(duì)需要建立起有效的一線、二線财搁、甚至三線響應(yīng)機(jī)制蘸炸,告警及時(shí)通知到一線,如果一線沒有及時(shí)處理尖奔,可以自動升級至二線運(yùn)維搭儒,保障每一個(gè)重要事件能夠得到及時(shí)響應(yīng)和處理。
有些情況下提茁,升級是標(biāo)準(zhǔn)作業(yè)實(shí)踐的一部分仗嗦。例如,你可能有一個(gè) NOC甘凭,一線支持團(tuán)隊(duì)或者自動修復(fù)工具稀拐,可根據(jù)內(nèi)容來升級或分診輸入事件。這種情況下丹弱,一線更多像一個(gè)路由轉(zhuǎn)發(fā)器德撬,可以通過人工+工具自動化方式實(shí)現(xiàn)。
示例分析
這是某個(gè)團(tuán)隊(duì)一個(gè)月的告警數(shù)據(jù)剖析:
告警數(shù)量在11-18前相對穩(wěn)健躲胳,平均在3-5個(gè)告警蜓洪。第3周告警突飛猛進(jìn),原因是新的業(yè)務(wù)上線坯苹,引發(fā)突增隆檀。經(jīng)過周回顧,優(yōu)化監(jiān)控策略,在第4周經(jīng)過初步優(yōu)化恐仑,告警數(shù)量有所降低泉坐,運(yùn)維團(tuán)隊(duì)工作初見成效,還需要繼續(xù)優(yōu)化裳仆。
告警響應(yīng)時(shí)間 MTTA 腕让,基本上都能夠比較好的響應(yīng),基本在5分鐘內(nèi)響應(yīng)歧斟。說明整個(gè)團(tuán)隊(duì)的響應(yīng)及時(shí)率是不錯(cuò)的纯丸。同時(shí)也看到在第3、4周六的時(shí)候静袖,明顯的響應(yīng)時(shí)間延遲較大觉鼻,說明一個(gè)問題,周末的支撐工作有提升空間队橙。
恢復(fù)時(shí)間 MTTR 滑凉,基本保持在20分鐘左右,說明恢復(fù)比較及時(shí)喘帚,但是也有可能存在事件無需關(guān)注畅姊,自動恢復(fù)。后者需要針對事件的類型吹由、根源進(jìn)一步分析若未,后續(xù)文章再剖析。
升級倾鲫,目前該團(tuán)隊(duì)基本上是5分鐘升級粗合,所以會看到在大部分問題能在5分鐘內(nèi)響應(yīng)完成。
小結(jié)
致力減少告警數(shù)量乌昔、及時(shí)響應(yīng) MTTA 隙疚、如果不能及時(shí)響應(yīng),能夠升級處理磕道,最終提升解決時(shí)間 MTTR供屉,4個(gè)核心關(guān)鍵指標(biāo)是運(yùn)維支撐工作非常關(guān)鍵的指標(biāo)。
運(yùn)維是結(jié)合管理流程溺蕉、工具伶丐、人員三方面的綜合化工作,OneAlert 期望構(gòu)建一個(gè)告警平臺疯特,能夠幫助運(yùn)維同學(xué)更有效率的完成支撐工作哗魂。
OneAlert 是北京藍(lán)海訊通科技股份有限公司旗下產(chǎn)品,中國首個(gè) SaaS 模式的云告警平臺漓雅,集成國內(nèi)外主流監(jiān)控/支撐系統(tǒng)录别,實(shí)現(xiàn)一個(gè)平臺上集中處理所有IT事件朽色,提升IT可靠性。想了解更多信息组题,請?jiān)L問 OneAlert 官網(wǎng) 葫男。