互聯(lián)網(wǎng)時(shí)代 IT 相關(guān)的衍生產(chǎn)品有很多烹笔,監(jiān)控工具為其中的佼佼者。很多監(jiān)控工具對(duì)于確保網(wǎng)站和應(yīng)用的平穩(wěn)運(yùn)行做了非常多的工作抛丽,但是谤职,對(duì)于告警產(chǎn)生到通知用戶的過程,還有很大的改進(jìn)空間亿鲜。
在合理評(píng)估告警嚴(yán)重程度的基礎(chǔ)上允蜈,確保通知合適的運(yùn)維汪,對(duì)于快速有效解決事件至關(guān)重要。但是我們對(duì)告警等級(jí)的重要性以及如何設(shè)置告警等級(jí)來提高團(tuán)隊(duì)效率饶套,還缺少必要的認(rèn)識(shí)漩蟆。針對(duì)該問題,以下幾條快速指南可以供大家參考妓蛮。
什么是告警等級(jí)爆安?有什么重要性?
簡單來說仔引,告警等級(jí)是表征事件嚴(yán)重性的指標(biāo)之一扔仓,取決于事件對(duì)用戶體驗(yàn)以及網(wǎng)站或應(yīng)用整體性能造成的負(fù)面影響的大小。
例如咖耘,導(dǎo)致網(wǎng)站崩潰的事件翘簇,被認(rèn)為負(fù)面影響極大,告警等級(jí)也就較高儿倒;而一個(gè)Ping的問題有時(shí)不會(huì)很明顯版保,被認(rèn)為負(fù)面影響略小,告警等級(jí)也就較低夫否。
告警等級(jí)的重要性體現(xiàn)在以下方面:
- 有助于減少和控制告警噪聲的數(shù)量彻犁。
- 使得錯(cuò)誤處理流程更為順暢。
- 使你解決問題更有效率凰慈。
總而言之汞幢,根據(jù)告警等級(jí)不同,可以優(yōu)先處理重要事件微谓,避免干擾到不在職責(zé)范圍內(nèi)的無關(guān)人員森篷。
怎樣創(chuàng)建合適的團(tuán)隊(duì)告警等級(jí)規(guī)則?
確定告警等級(jí)的重要性豺型,相信大家已經(jīng)了解了仲智,但如何創(chuàng)建一個(gè)適合整個(gè)團(tuán)隊(duì)事件嚴(yán)重程度的評(píng)估方法,是監(jiān)控工具開發(fā)人員的棘手問題姻氨。
一般來說钓辆,評(píng)估告警等級(jí)過程需考慮以下3個(gè)方面:
1.嚴(yán)重性等級(jí)結(jié)構(gòu)
2.團(tuán)隊(duì)結(jié)構(gòu)
3.通信結(jié)構(gòu)
1)嚴(yán)重性等級(jí)結(jié)構(gòu)
嚴(yán)重性等級(jí)的主要目的是確保合適的人員能夠知道問題,并按照嚴(yán)重程度來處理問題肴焊。一般來說前联,設(shè)置嚴(yán)重程度等級(jí)結(jié)構(gòu)的最簡單方法是根據(jù)商業(yè)價(jià)值來確定網(wǎng)站或應(yīng)用的最關(guān)鍵部分。并且在團(tuán)隊(duì)中抖韩,并沒有所謂的正確或錯(cuò)誤的方式來判定嚴(yán)重性等級(jí)蛀恩。要知道疫铜,重要的是了解團(tuán)隊(duì)如何劃分具體的事件茂浮,并確保每個(gè)人都達(dá)成共識(shí)。
2)團(tuán)隊(duì)結(jié)構(gòu)
清晰地認(rèn)識(shí)團(tuán)隊(duì)結(jié)構(gòu)并對(duì)告警進(jìn)行有序分派,將提高整個(gè)團(tuán)隊(duì)的執(zhí)行效率席揽。為了更有序和有效的分派告警顽馋,我們應(yīng)該注意幾個(gè)問題:
- 告警處理需要涉及哪些人?
- 處理事件時(shí)幌羞,每個(gè)人的責(zé)任是什么寸谜?
- 告警要求在哪個(gè)環(huán)節(jié)通知哪些人?
3)通信結(jié)構(gòu)
如果你不知道告警在團(tuán)隊(duì)結(jié)構(gòu)內(nèi)應(yīng)該如何通信属桦,那么建立通信結(jié)構(gòu)將是創(chuàng)建嚴(yán)重性等級(jí)過程中最為困難的一環(huán)熊痴。
你可以這樣考慮:
- 嚴(yán)重性等級(jí)結(jié)構(gòu):這個(gè)問題有多嚴(yán)重?
- 團(tuán)隊(duì)結(jié)構(gòu):這是誰的責(zé)任聂宾?
- 通信結(jié)構(gòu):如果問題發(fā)生果善,如何以及何時(shí)聯(lián)系團(tuán)隊(duì)成員?
創(chuàng)建通信結(jié)構(gòu)能將不同事件與團(tuán)隊(duì)中的不同角色聯(lián)系起來系谐,并根據(jù)時(shí)間緊迫度與錯(cuò)誤頻率添加更明確的操作巾陕。這樣,可以確保通過恰當(dāng)?shù)那缆?lián)系到合適的人員纪他,且符合當(dāng)前的情況鄙煤。如果一個(gè)響應(yīng)者不在線上,可通過告警升級(jí)機(jī)制確保團(tuán)隊(duì)中的其他成員得到通知茶袒。
根據(jù)團(tuán)隊(duì)結(jié)構(gòu)梯刚,選擇合適的通知渠道與閾值配置,意味著問題解決能更加高效薪寓,且不會(huì)牽涉到無關(guān)人員乾巧。如 OneAlert 云告警平臺(tái)允許成員自行設(shè)置通知方式與閾值配置,如下圖所示预愤,如果告警在30分鐘(用戶自行設(shè)置)后沟于,一線成員無響應(yīng),將自動(dòng)升級(jí)為通知二級(jí)成員植康。用戶可以根據(jù)團(tuán)隊(duì)結(jié)構(gòu)的不同旷太,設(shè)置不同層次的通知策略。
希望這篇文章對(duì)你有所幫助供璧!
OneAlert 是應(yīng)用性能管理領(lǐng)軍企業(yè) OneAPM 公司旗下產(chǎn)品,也是國內(nèi)首個(gè) SaaS 模式的云告警平臺(tái)冻记,集成國內(nèi)外主流監(jiān)控/支撐系統(tǒng)睡毒,實(shí)現(xiàn)一個(gè)平臺(tái)上集中處理所有 IT 事件,提升 IT 可靠性冗栗。想了解更多信息演顾,請(qǐng)?jiān)L問 OneAlert 官網(wǎng) 供搀。
本文轉(zhuǎn)自 OneAPM 官方博客