互聯(lián)網(wǎng)時代 IT 相關(guān)的衍生產(chǎn)品有很多,監(jiān)控工具為其中的佼佼者。很多監(jiān)控工具對于確保網(wǎng)站和應用的平穩(wěn)運行做了非常多的工作棚菊,但是显押,對于告警產(chǎn)生到通知用戶的過程扳肛,還有很大的改進空間。
在合理評估告警嚴重程度的基礎(chǔ)上乘碑,確保通知合適的運維汪挖息,對于快速有效解決事件至關(guān)重要。但是我們對告警等級的重要性以及如何設(shè)置告警等級來提高團隊效率兽肤,還缺少必要的認識套腹。針對該問題绪抛,以下幾條快速指南可以供大家參考。
什么是告警等級电禀?有什么重要性幢码?
簡單來說,告警等級是表征事件嚴重性的指標之一尖飞,取決于事件對用戶體驗以及網(wǎng)站或應用整體性能造成的負面影響的大小症副。
例如,導致網(wǎng)站崩潰的事件政基,被認為負面影響極大贞铣,告警等級也就較高;而一個Ping的問題有時不會很明顯沮明,被認為負面影響略小辕坝,告警等級也就較低。
告警等級的重要性體現(xiàn)在以下方面:
有助于減少和控制告警噪聲的數(shù)量荐健。
使得錯誤處理流程更為順暢酱畅。
使你解決問題更有效率。
總而言之江场,根據(jù)告警等級不同圣贸,可以優(yōu)先處理重要事件,避免干擾到不在職責范圍內(nèi)的無關(guān)人員扛稽。
怎樣創(chuàng)建合適的團隊告警等級規(guī)則吁峻?
確定告警等級的重要性,相信大家已經(jīng)了解了在张,但如何創(chuàng)建一個適合整個團隊事件嚴重程度的評估方法用含,是監(jiān)控工具開發(fā)人員的棘手問題。
一般來說帮匾,評估告警等級過程需考慮以下3個方面:
1.嚴重性等級結(jié)構(gòu)
2.團隊結(jié)構(gòu)
3.通信結(jié)構(gòu)
1)嚴重性等級結(jié)構(gòu)
嚴重性等級的主要目的是確保合適的人員能夠知道問題啄骇,并按照嚴重程度來處理問題。一般來說瘟斜,設(shè)置嚴重程度等級結(jié)構(gòu)的最簡單方法是根據(jù)商業(yè)價值來確定網(wǎng)站或應用的最關(guān)鍵部分缸夹。并且在團隊中,并沒有所謂的正確或錯誤的方式來判定嚴重性等級螺句。要知道虽惭,重要的是了解團隊如何劃分具體的事件,并確保每個人都達成共識蛇尚。
2)團隊結(jié)構(gòu)
清晰地認識團隊結(jié)構(gòu)并對告警進行有序分派芽唇,將提高整個團隊的執(zhí)行效率。為了更有序和有效的分派告警取劫,我們應該注意幾個問題:
告警處理需要涉及哪些人匆笤?
處理事件時研侣,每個人的責任是什么?
告警要求在哪個環(huán)節(jié)通知哪些人炮捧?
3)通信結(jié)構(gòu)
如果你不知道告警在團隊結(jié)構(gòu)內(nèi)應該如何通信庶诡,那么建立通信結(jié)構(gòu)將是創(chuàng)建嚴重性等級過程中最為困難的一環(huán)。
你可以這樣考慮:
嚴重性等級結(jié)構(gòu):這個問題有多嚴重咆课?
團隊結(jié)構(gòu):這是誰的責任末誓?
通信結(jié)構(gòu):如果問題發(fā)生,如何以及何時聯(lián)系團隊成員傀蚌?
創(chuàng)建通信結(jié)構(gòu)能將不同事件與團隊中的不同角色聯(lián)系起來基显,并根據(jù)時間緊迫度與錯誤頻率添加更明確的操作蘸吓。這樣善炫,可以確保通過恰當?shù)那缆?lián)系到合適的人員,且符合當前的情況库继。如果一個響應者不在線上箩艺,可通過告警升級機制確保團隊中的其他成員得到通知。
根據(jù)團隊結(jié)構(gòu)宪萄,選擇合適的通知渠道與閾值配置艺谆,意味著問題解決能更加高效,且不會牽涉到無關(guān)人員拜英。
RIIL是國內(nèi)領(lǐng)先的IT綜合管理解決方案静汤,通過IT資源綜合監(jiān)控、運維流程管理居凶、3D數(shù)據(jù)中心管理三大模塊幫助客戶實現(xiàn)IT部門人財物的全面管理虫给,提升IT服務(wù)質(zhì)量以及運維管理績效