暢談一下告警

一、為什么要告警

一個(gè)業(yè)務(wù)系統(tǒng)維護(hù)了很長(zhǎng)時(shí)間了系冗,指不定什么時(shí)候會(huì)出現(xiàn)問(wèn)題奕扣。不過(guò)有些系統(tǒng)也是依賴(lài)微信、支付寶平臺(tái)的掌敬,大平臺(tái)都有自身的監(jiān)控和告警能力幫忙分析和定位商戶(hù)系統(tǒng)問(wèn)題惯豆,但并不是所有場(chǎng)景都能涵蓋到。所以個(gè)人負(fù)責(zé)的業(yè)務(wù)模塊需要制定合理的告警機(jī)制奔害,系統(tǒng)發(fā)生故障要第一時(shí)間知道楷兽,而不是被通知。

二华临、告警指標(biāo)

常見(jiàn)的指標(biāo)有請(qǐng)求量芯杀、失敗量、平均耗時(shí)等雅潭,其他指標(biāo)可以根據(jù)業(yè)務(wù)自身的特點(diǎn)來(lái)提取上報(bào)揭厚。

?三、告警閾值

告警的目的是出問(wèn)題了扶供,能夠馬上主動(dòng)發(fā)現(xiàn)問(wèn)題筛圆,簡(jiǎn)單的問(wèn)題甚至可以在被投訴和其他人發(fā)現(xiàn)前就能修復(fù)了

如果一個(gè)系統(tǒng)上報(bào)的指標(biāo)多了椿浓,經(jīng)常會(huì)發(fā)生沒(méi)有設(shè)置告警閾值的情況太援。

尤其是對(duì)于后來(lái)新增的監(jiān)控指標(biāo)漾岳,尤其要注意是否設(shè)置監(jiān)控閾值。

可以針對(duì)請(qǐng)求量粉寞、失敗量尼荆,失敗率,平均耗時(shí)唧垦,耗時(shí)中位數(shù)設(shè)置合理的閾值捅儒,觸發(fā)閾值后發(fā)送告警通知。

四振亮、告警處理

我們要明確告警的目的巧还,告警是為了及時(shí)發(fā)現(xiàn)問(wèn)題,然后快速處理并恢復(fù)業(yè)務(wù)系統(tǒng)坊秸。告警信息要明確麸祷,不要誤告警。對(duì)于簡(jiǎn)單且能快速處理的問(wèn)題褒搔,可以允許間斷的發(fā)送告警阶牍;而對(duì)于相對(duì)復(fù)雜并且很長(zhǎng)時(shí)間才能解決的問(wèn)題,持續(xù)的告警就沒(méi)有意義星瘾,這時(shí)需要屏蔽告警走孽,問(wèn)題修復(fù)之后再重新恢復(fù)告警機(jī)制。因此告警模塊的靈活性配置是很重要的琳状,根據(jù)業(yè)務(wù)場(chǎng)景可以配置不通的策略磕瓷,另外也要支持屏蔽和恢復(fù)能力。

五念逞、告警收斂

復(fù)雜的業(yè)務(wù)系統(tǒng)往往都是多實(shí)例部署的困食,如果每個(gè)實(shí)例都發(fā)生問(wèn)題然后開(kāi)始發(fā)送告警信息,那么技術(shù)人員會(huì)收到很多條無(wú)意義的信息翎承,不利于告警信息分析硕盹。這時(shí)就要考慮對(duì)告警信息進(jìn)行收集分析了,保證每個(gè)業(yè)務(wù)場(chǎng)景的告警信息同一時(shí)間內(nèi)只是發(fā)送一次审洞。及時(shí)多實(shí)例告警信息做了收集分析莱睁,故障沒(méi)有及時(shí)處理待讳,告警信息會(huì)持續(xù)發(fā)送芒澜,這是就要固定周期內(nèi)發(fā)送告警信息,甚至可以通過(guò)配置進(jìn)行屏蔽掉创淡。告警一定要在系統(tǒng)故障的時(shí)候及時(shí)發(fā)出來(lái)痴晦,避免無(wú)意義的發(fā)送,否則技術(shù)人員會(huì)產(chǎn)生抵觸心里琳彩,甚至手機(jī)端直接屏蔽誊酌。

六部凑、合理閾值

告警模塊要支持不同的業(yè)務(wù)場(chǎng)景設(shè)置不同的告警閾值,如果是一個(gè)固定的閾值可能會(huì)引入一系列的誤告警碧浊。靈活的配置涂邀,配置中心的引入是少不了了。設(shè)置閾值時(shí)箱锐,要考慮同一個(gè)業(yè)務(wù)場(chǎng)景不同的時(shí)間段是不是需要設(shè)置不同的閾值比勉,不同的業(yè)務(wù)場(chǎng)景需要設(shè)置不同的閾值。比如某個(gè)特殊業(yè)務(wù)場(chǎng)景驹止,晚上的請(qǐng)求量比白天的請(qǐng)求量多浩聋;比如有的業(yè)務(wù)場(chǎng)景接口平均響應(yīng)時(shí)間比其他的都長(zhǎng);比如某些業(yè)務(wù)場(chǎng)景在某個(gè)時(shí)間段不進(jìn)行告警分析臊恋。

七衣洁、告警設(shè)計(jì)

成功量和失敗量的統(tǒng)計(jì)可以通過(guò)內(nèi)存變量(AtomicLong)進(jìn)行統(tǒng)計(jì),或者使用RxJava提供的window操作符會(huì)在時(shí)間間隔內(nèi)緩存統(tǒng)計(jì)結(jié)果抖仅,類(lèi)似于buffer緩存一個(gè)list集合坊夫,區(qū)別在于window將這個(gè)結(jié)果集合封裝成了observable。

使用RxJava可以很方便統(tǒng)計(jì)一個(gè)窗口內(nèi)服務(wù)的成功量撤卢、失敗量践樱、延遲分布情況。

像常用的中間件(redis凸丸、kafka拷邢、rocketmq、es)相關(guān)操作都可以通過(guò)切面利用RxJava統(tǒng)計(jì)健康和延遲情況屎慢,然后匯總到告警模塊進(jìn)行分析并觸發(fā)預(yù)警瞭稼。

八、總結(jié)

希望本文章的告警設(shè)計(jì)思路可以給讀者帶來(lái)啟發(fā)腻惠。一個(gè)優(yōu)秀的告警系統(tǒng)环肘,可以減少人力監(jiān)控,也是自動(dòng)化運(yùn)維的一種手段集灌。對(duì)于技術(shù)人員來(lái)說(shuō)悔雹,自己寫(xiě)的業(yè)務(wù)代碼出現(xiàn)問(wèn)題一定要自己第一時(shí)間知道,而不是被人通知欣喧。如果現(xiàn)有的告警能力不能滿(mǎn)足你的要求腌零,一定要從長(zhǎng)遠(yuǎn)的角度出發(fā),制定告警方案唆阿,而不是把大部分精力都放在日志查詢(xún)上益涧。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市驯鳖,隨后出現(xiàn)的幾起案子闲询,更是在濱河造成了極大的恐慌久免,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,888評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扭弧,死亡現(xiàn)場(chǎng)離奇詭異阎姥,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)鸽捻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)丁寄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人泊愧,你說(shuō)我怎么就攤上這事伊磺。” “怎么了删咱?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,386評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵屑埋,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我痰滋,道長(zhǎng)摘能,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,726評(píng)論 1 297
  • 正文 為了忘掉前任敲街,我火速辦了婚禮团搞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘多艇。我一直安慰自己逻恐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布峻黍。 她就那樣靜靜地躺著复隆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪姆涩。 梳的紋絲不亂的頭發(fā)上挽拂,一...
    開(kāi)封第一講書(shū)人閱讀 52,337評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音骨饿,去河邊找鬼亏栈。 笑死,一個(gè)胖子當(dāng)著我的面吹牛宏赘,可吹牛的內(nèi)容都是我干的绒北。 我是一名探鬼主播,決...
    沈念sama閱讀 40,902評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼置鼻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼镇饮!你這毒婦竟也來(lái)了蜓竹?” 一聲冷哼從身側(cè)響起箕母,我...
    開(kāi)封第一講書(shū)人閱讀 39,807評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤储藐,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后嘶是,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體钙勃,經(jīng)...
    沈念sama閱讀 46,349評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評(píng)論 3 340
  • 正文 我和宋清朗相戀三年聂喇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辖源。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,567評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡希太,死狀恐怖克饶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情誊辉,我是刑警寧澤矾湃,帶...
    沈念sama閱讀 36,242評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站堕澄,受9級(jí)特大地震影響邀跃,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蛙紫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評(píng)論 3 334
  • 文/蒙蒙 一拍屑、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧坑傅,春花似錦僵驰、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,420評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至枉证,卻和暖如春矮男,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背室谚。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,531評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工毡鉴, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人秒赤。 一個(gè)月前我還...
    沈念sama閱讀 48,995評(píng)論 3 377
  • 正文 我出身青樓猪瞬,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親入篮。 傳聞我的和親對(duì)象是個(gè)殘疾皇子陈瘦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容