運(yùn)維不容錯(cuò)過的4個(gè)關(guān)鍵指標(biāo)刊殉!

很難說,生活在這個(gè)數(shù)據(jù)大爆炸的時(shí)代對運(yùn)維同學(xué)是福還是禍州胳。靈活的監(jiān)控系統(tǒng)记焊、開放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來,但是栓撞,過多的數(shù)據(jù)容易產(chǎn)生干擾遍膜,反而不利于具體信息提取和操作。

關(guān)于監(jiān)控哪些指標(biāo)瓤湘,以及為什么要從系統(tǒng)化的角度出發(fā)瓢颅,我們進(jìn)行過深入的思考。本文中弛说,我們想與大家分享一些具體的指標(biāo)和準(zhǔn)則挽懦,進(jìn)一步幫助團(tuán)隊(duì)衡量并提高運(yùn)維性能。以下整理了4個(gè)關(guān)鍵性運(yùn)維指標(biāo):

告警事件數(shù)量

如果團(tuán)隊(duì)中的事件數(shù)量呈現(xiàn)上升趨勢剃浇,那么很有可能是哪里出了問題:要么是基礎(chǔ)設(shè)施有故障巾兆,要么是監(jiān)控工具配置錯(cuò)誤需要調(diào)整猎物。

隨著公司的發(fā)展虎囚,組織結(jié)構(gòu)會調(diào)整,同時(shí)業(yè)務(wù)產(chǎn)品也會不斷升級蔫磨,配套監(jiān)控也會同步上線淘讥,告警事件數(shù)量會急劇增加〉倘纾「我們浪費(fèi)了大量時(shí)間來關(guān)閉冗余報(bào)警蒲列≈吓螅」--相信很多同學(xué)都會有類似的體會。告警事件數(shù)量是可控的:

  • 告警數(shù)量可統(tǒng)計(jì)蝗岖,如這周告警數(shù)量是多少侥猩,與新發(fā)布的產(chǎn)品系統(tǒng)有沒有關(guān)系,發(fā)生哪些問題抵赢?
  • 告警數(shù)量是可操作的欺劳,意味著每一個(gè)告警都是有意義并且是需要處理和操作的,如果僅僅是瞅一眼的數(shù)據(jù)铅鲤,請不要通過告警方式划提。例如100+機(jī)器時(shí),每臺機(jī)器的「CPU 使用率高」告警是沒有啥用的邢享,你知道機(jī)器 CPU 使用率高后鹏往,你能做什么操作呢?你可能直接忽略掉骇塘,當(dāng)數(shù)量大到你把需要處理的告警也忽略掉時(shí)伊履,告警就失去了意義。類似指標(biāo)完全可以通過周報(bào)/日報(bào)進(jìn)行數(shù)據(jù)的性能分析绪爸,而不是告警湾碎。

平均解決事件( MTTR )

解決時(shí)間是衡量業(yè)務(wù)準(zhǔn)備的最佳標(biāo)準(zhǔn)。當(dāng)事件發(fā)生時(shí)奠货,你的團(tuán)隊(duì)需要多長時(shí)間才能解決介褥?
宕機(jī)不僅會影響你的收入,還會傷害客戶用戶體驗(yàn)和忠誠度递惋,所以確保團(tuán)隊(duì)對所有事件可以快速響應(yīng)極為關(guān)鍵柔滔。

  • 全球500強(qiáng)企業(yè)平均每周出現(xiàn)嚴(yán)重故障時(shí)間長達(dá)1.6小時(shí)。
  • 平均每小時(shí)折合損失$96,000萍虽。

當(dāng)然睛廊,跟蹤解決時(shí)間固然重要,但對其進(jìn)行規(guī)范往往很難杉编,企業(yè)可以根據(jù)環(huán)境的復(fù)雜性超全、團(tuán)隊(duì)和基礎(chǔ)設(shè)施的責(zé)任制、行業(yè)及其他因素邓馒,進(jìn)一步觀測 MTTR 的差異嘶朱。但是,規(guī)范化的操作手冊光酣、自動化的基礎(chǔ)設(shè)施管理疏遏、可靠的告警升級策略都有助于減少事件,和提升 MTTR。

優(yōu)秀的團(tuán)隊(duì)減少事件數(shù)量财异,并及時(shí)解決( MTTR )倘零,所以平均解決事件需要和上面告警數(shù)量一樣,需要記錄和統(tǒng)計(jì)分析戳寸,目前大多監(jiān)控工具往往不具備類似能力呈驶,如果沒有精力或者資源自行開發(fā)的話,我們就建議使用第三方平臺OneAlert 疫鹊。

有關(guān)如何減少事件數(shù)量俐东,避免告警疲勞的事情,后續(xù)將會有獨(dú)立文章進(jìn)行發(fā)布订晌。

平均響應(yīng)時(shí)間( MTTA )

如果說平均解決時(shí)間是結(jié)果虏辫,那么平均響應(yīng)時(shí)間就是重要的過程指標(biāo),這一點(diǎn)往往被大多團(tuán)隊(duì)忽略掉锈拨∑鲎可以理解為告警越快發(fā)現(xiàn),越快有人響應(yīng)奕枢,就能夠越快的解決(更好的MTTR)娄昆。

運(yùn)維不容錯(cuò)過的4個(gè)關(guān)鍵指標(biāo)

提升 MTTA 的核心是找對人、找到人缝彬。上圖中如果02:01能夠及時(shí)通知到位就可以節(jié)省至少4個(gè)小時(shí)時(shí)間萌焰。

說起來簡單,實(shí)際上找對人有些工作(只1人運(yùn)維的請忽略)谷浅,一般是從職責(zé)責(zé)任制扒俯、協(xié)調(diào)機(jī)制、工作進(jìn)程透明一疯、工作量和時(shí)間可衡量等幾點(diǎn)進(jìn)行撼玄,后面針對「有序分派」再補(bǔ)充一篇。

除了以上機(jī)制墩邀,還有一點(diǎn)掌猛,就是需要記錄誰什么時(shí)候確認(rèn)響應(yīng)告警,并做了哪些處理眉睹,能夠持續(xù)跟蹤荔茬,以及統(tǒng)計(jì)分析。

響應(yīng)時(shí)間非常重要竹海,因?yàn)樗軒椭懔私饽男﹫F(tuán)隊(duì)和個(gè)人處于隨叫隨到的狀態(tài)慕蔚。快速響應(yīng)時(shí)間是一個(gè)戰(zhàn)備文化的代表站削,你會發(fā)現(xiàn)具備快響應(yīng)觀念和工具的團(tuán)隊(duì)往往可以更快地修復(fù)事件坊萝。

如果使用像 OneAlert 的事件管理系統(tǒng)孵稽,[升級超時(shí)]有助于推進(jìn)響應(yīng)目標(biāo)许起。例如十偶,如果你希望所有事件都應(yīng)該在5分鐘內(nèi)回復(fù),可以將超時(shí)設(shè)置為5分鐘园细,從而確保下一個(gè)接收人會收到提醒惦积。再根據(jù)團(tuán)隊(duì)的整體表現(xiàn),來決定是否需要調(diào)整目標(biāo)猛频,然后再跟蹤升級事件的數(shù)量狮崩。

升級

對于大多數(shù)使用事件管理工具的組織而言,告警升級是一種異陈寡埃現(xiàn)象睦柴,該跡象表明首次應(yīng)該響應(yīng)的時(shí)候,無法及時(shí)應(yīng)對事件毡熏,或許相關(guān)工具和人員技能失效坦敌。升級策略是事件管理的必須,各個(gè)團(tuán)隊(duì)?wèi)?yīng)努力推動升級痢法,實(shí)現(xiàn)升級事件數(shù)量的下降狱窘。

優(yōu)秀的運(yùn)維團(tuán)隊(duì)需要建立起有效的一線、二線财搁、甚至三線響應(yīng)機(jī)制蘸炸,告警及時(shí)通知到一線,如果一線沒有及時(shí)處理尖奔,可以自動升級至二線運(yùn)維搭儒,保障每一個(gè)重要事件能夠得到及時(shí)響應(yīng)和處理。

有些情況下提茁,升級是標(biāo)準(zhǔn)作業(yè)實(shí)踐的一部分仗嗦。例如,你可能有一個(gè) NOC甘凭,一線支持團(tuán)隊(duì)或者自動修復(fù)工具稀拐,可根據(jù)內(nèi)容來升級或分診輸入事件。這種情況下丹弱,一線更多像一個(gè)路由轉(zhuǎn)發(fā)器德撬,可以通過人工+工具自動化方式實(shí)現(xiàn)。

示例分析

運(yùn)維不容錯(cuò)過的4個(gè)關(guān)鍵指標(biāo)

這是某個(gè)團(tuán)隊(duì)一個(gè)月的告警數(shù)據(jù)剖析:

  • 告警數(shù)量在11-18前相對穩(wěn)健躲胳,平均在3-5個(gè)告警蜓洪。第3周告警突飛猛進(jìn),原因是新的業(yè)務(wù)上線坯苹,引發(fā)突增隆檀。經(jīng)過周回顧,優(yōu)化監(jiān)控策略,在第4周經(jīng)過初步優(yōu)化恐仑,告警數(shù)量有所降低泉坐,運(yùn)維團(tuán)隊(duì)工作初見成效,還需要繼續(xù)優(yōu)化裳仆。

  • 告警響應(yīng)時(shí)間 MTTA 腕让,基本上都能夠比較好的響應(yīng),基本在5分鐘內(nèi)響應(yīng)歧斟。說明整個(gè)團(tuán)隊(duì)的響應(yīng)及時(shí)率是不錯(cuò)的纯丸。同時(shí)也看到在第3、4周六的時(shí)候静袖,明顯的響應(yīng)時(shí)間延遲較大觉鼻,說明一個(gè)問題,周末的支撐工作有提升空間队橙。

  • 恢復(fù)時(shí)間 MTTR 滑凉,基本保持在20分鐘左右,說明恢復(fù)比較及時(shí)喘帚,但是也有可能存在事件無需關(guān)注畅姊,自動恢復(fù)。后者需要針對事件的類型吹由、根源進(jìn)一步分析若未,后續(xù)文章再剖析。

  • 升級倾鲫,目前該團(tuán)隊(duì)基本上是5分鐘升級粗合,所以會看到在大部分問題能在5分鐘內(nèi)響應(yīng)完成。

小結(jié)

致力減少告警數(shù)量乌昔、及時(shí)響應(yīng) MTTA 隙疚、如果不能及時(shí)響應(yīng),能夠升級處理磕道,最終提升解決時(shí)間 MTTR供屉,4個(gè)核心關(guān)鍵指標(biāo)是運(yùn)維支撐工作非常關(guān)鍵的指標(biāo)。

運(yùn)維是結(jié)合管理流程溺蕉、工具伶丐、人員三方面的綜合化工作,OneAlert 期望構(gòu)建一個(gè)告警平臺疯特,能夠幫助運(yùn)維同學(xué)更有效率的完成支撐工作哗魂。

OneAlert 是北京藍(lán)海訊通科技股份有限公司旗下產(chǎn)品,中國首個(gè) SaaS 模式的云告警平臺漓雅,集成國內(nèi)外主流監(jiān)控/支撐系統(tǒng)录别,實(shí)現(xiàn)一個(gè)平臺上集中處理所有IT事件朽色,提升IT可靠性。想了解更多信息组题,請?jiān)L問 OneAlert 官網(wǎng) 葫男。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市往踢,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌徘层,老刑警劉巖峻呕,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異趣效,居然都是意外死亡瘦癌,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進(jìn)店門跷敬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來讯私,“玉大人,你說我怎么就攤上這事西傀〗锟埽” “怎么了?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵拥褂,是天一觀的道長娘锁。 經(jīng)常有香客問我,道長饺鹃,這世上最難降的妖魔是什么莫秆? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮悔详,結(jié)果婚禮上镊屎,老公的妹妹穿的比我還像新娘。我一直安慰自己茄螃,他們只是感情好缝驳,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著归苍,像睡著了一般党巾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上霜医,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天齿拂,我揣著相機(jī)與錄音,去河邊找鬼肴敛。 笑死署海,一個(gè)胖子當(dāng)著我的面吹牛吗购,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播砸狞,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼捻勉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了刀森?” 一聲冷哼從身側(cè)響起踱启,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎研底,沒想到半個(gè)月后埠偿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡榜晦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年冠蒋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乾胶。...
    茶點(diǎn)故事閱讀 39,841評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡抖剿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出识窿,到底是詐尸還是另有隱情斩郎,我是刑警寧澤,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布喻频,位于F島的核電站孽拷,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏半抱。R本人自食惡果不足惜脓恕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望窿侈。 院中可真熱鬧炼幔,春花似錦、人聲如沸史简。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽圆兵。三九已至跺讯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間殉农,已是汗流浹背刀脏。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留超凳,地道東北人愈污。 一個(gè)月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓耀态,卻偏偏與公主長得像,于是被迫代替她去往敵國和親暂雹。 傳聞我的和親對象是個(gè)殘疾皇子首装,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容