Zabbix是大家喜聞樂見的監(jiān)控工具,可很多朋友也飽受告警設(shè)置及報警風(fēng)暴之苦存哲。我曾經(jīng)有過幾十萬臺服務(wù)器的運(yùn)維經(jīng)驗条辟,在這些方面也有較多經(jīng)驗,本文側(cè)重分析Zabbix告警的相關(guān)問題宏胯,并給出一種快速解決方案:
郵件報警配置復(fù)雜羽嫡,多了沒人看;
短信報警流程復(fù)雜肩袍,短信容易被延遲或漏發(fā)杭棵;
電話報警配置太麻煩,需要二次開發(fā)氛赐;
報警風(fēng)暴令人苦惱不堪魂爪。
1、什么是Zabbix艰管?
Zabbix是一個開源滓侍、高度集成的監(jiān)控解決方案。以圖形化展示和操作界面牲芋,提供了針對各種IT系統(tǒng)的系統(tǒng)參數(shù)撩笆、網(wǎng)絡(luò)參數(shù)的分布式監(jiān)控及告警,讓系統(tǒng)管理員能夠快速感知缸浦、定位夕冲、解決IT系統(tǒng)問題。
雖然只支持普通的報警方式裂逐。
2歹鱼、為什么需要Zabbix?
首先卜高,業(yè)務(wù)規(guī)模稍微大一些的公司弥姻,都需要監(jiān)控南片。 當(dāng)公司從一個幾人、十幾人的小公司庭敦,發(fā)展成一個幾百上千人規(guī)模的中疼进、大型公司,公司的業(yè)務(wù)規(guī)模也處于不斷增長螺捐,服務(wù)器從幾臺發(fā)展到幾百幾千臺颠悬。這個時候矮燎,IT系統(tǒng)出現(xiàn)故障的幾率就會大大的增大定血,影響程度也更加嚴(yán)重。
可能只是幾分鐘的宕機(jī)诞外,就會給公司帶來幾十萬澜沟、幾百萬的損失。
如果這個時候峡谊,領(lǐng)導(dǎo)問“為何某個服務(wù)不可用茫虽、為何系統(tǒng)會出現(xiàn)故障”,而你卻不能及時確定故障的根源并提供解決方案時既们,工作一定會受到領(lǐng)導(dǎo)的質(zhì)疑和挑戰(zhàn)濒析。
而監(jiān)控系統(tǒng),就是為了解決這些問題啥纸。
它能夠讓運(yùn)維人員快速知曉系統(tǒng)的運(yùn)行狀況号杏,并在出現(xiàn)問題時甚至在出現(xiàn)問題前,及時感知到問題的存在斯棒,通過提前處理或?qū)嵤╊A(yù)案盾致,解決或避免問題的出現(xiàn),并且盡快進(jìn)行處理荣暮。
其次庭惜,無論是在安裝還是在使用上,Zabbix都是一款遠(yuǎn)勝其他同類產(chǎn)品的監(jiān)控工具:
安裝與配置非常簡單穗酥,學(xué)習(xí)成本低护赊;
支持多語言(包括中文);
免費(fèi)開源砾跃,維護(hù)志愿者眾多百揭;
具有node、proxy兩種模式蜓席,非常適合構(gòu)建分布式監(jiān)控系統(tǒng)器一;
企業(yè)實現(xiàn)自動化運(yùn)維的必然之選:能自動發(fā)現(xiàn)服務(wù)器和網(wǎng)絡(luò)設(shè)備、自動注冊主機(jī)厨内、自動添加模板及分組祈秕;
支持多種監(jiān)控方式渺贤,適應(yīng)復(fù)雜企業(yè)IT環(huán)境。
3请毛、 Zabbix 真的那么受關(guān)注志鞍?
根據(jù)“百度指數(shù)”中Zabbix、Falcon和Nagios最近半年的指數(shù)趨勢(下圖)方仿,Zabbix的受關(guān)注程度固棚,一直處于非常穩(wěn)定并且長期持續(xù)的狀態(tài)。
4仙蚜、 Zabbix告警配置很煩人此洲?
隨機(jī)選擇今年1月份的一周(1.04-1.10),如下圖委粉。
從這個數(shù)據(jù)來看呜师,確實,Zabbix報警依然困擾著大家(當(dāng)然贾节,Zabbix相關(guān)中文文檔的翻譯需求汁汗,也是類似)。
而這些栗涂,也正是企業(yè)選用Zabbix作為監(jiān)控工具時知牌,可能遇到的問題:
Zabbix的告警配置相當(dāng)復(fù)雜,并且沒有詳盡的中文翻譯資料斤程,以幫助解決這個問題角寸。
5、如何解決Zabbix告警配置的問題暖释?
Zabbix監(jiān)控再好袭厂,也必須能在最快的時間將故障信息推送給對應(yīng)的人,才能真正將監(jiān)控的價值最大化球匕。
但可惜的是纹磺,Zabbix的報警機(jī)制過于復(fù)雜,難以與公司的實際場景結(jié)合亮曹,達(dá)成“優(yōu)化整個團(tuán)隊的故障監(jiān)控和處理效率”的目的橄杨。
告警通道配置太繁瑣
郵件報警:如需配置郵件報警,就得在Zabbix里配置郵件調(diào)用接口照卦。并且Zabbix郵件報警經(jīng)常發(fā)生延遲(Zabbix自身延遲+郵件服務(wù)商延遲)式矫,更悲催的是,報警郵件往往沒人看役耕。
僅憑這一點(diǎn)采转,想要“解放運(yùn)維人員、不再24小時盯著監(jiān)控大屏幕”,就已基本夢碎故慈。
短信報警:如需配置短信報警板熊,就需要向短信服務(wù)商購買短信服務(wù)。
簽訂合同察绷、定期購買短信數(shù)量干签、設(shè)定短信模板、在Zabbix配置短信調(diào)用接口拆撼; 經(jīng)常從短信服務(wù)商那邊索取回執(zhí)報告并作對比容劳,以避免被“糊弄”; 需配置多個短信服務(wù)商闸度,以避免某個短信服務(wù)商短信延遲或漏發(fā)竭贩。
電話報警:電話報警,是為了保證在深夜筋岛,把運(yùn)維人員弄醒娶视,及時解決緊急故障晒哄。比起短信睁宰,電話的提醒效果肯定更好。但電話報警更加繁瑣寝凌,而且往往需要二次開發(fā)柒傻。
配置短信的痛還沒消,你真的還要再找一次虐较木?
微信報警:配置微信報警红符,需要申請開通微信的相關(guān)服務(wù),然后排期進(jìn)行針對性開發(fā)伐债。
首先预侯,微信的訂閱號、服務(wù)號峰锁、企業(yè)號萎馅,其消息推送限制、消息內(nèi)容限制虹蒋、認(rèn)證前后的人數(shù)限制都是不同的 糜芳,真的能分的那么清楚?
其次魄衅,如果發(fā)生報警風(fēng)暴峭竣,確定你的小心臟接受得了微信里突然多出來的成百上千條報警提示?
2)告警風(fēng)暴的痛晃虫,Zabbix不夠懂皆撩!
Zabbix的報警配置很復(fù)雜,并且沒有中文文檔可供參考哲银;
Zabbix的報警合并機(jī)制不夠高效扛吞,不符合實際運(yùn)維場景沮榜。
可是,大部分運(yùn)維人員只能硬著頭皮上喻粹,配一個User組蟆融、一個Trigger就了事。
無論是郵件報警守呜、短信報警或微信報警型酥,都會存在告警風(fēng)暴的問題:如果發(fā)現(xiàn)類似斷網(wǎng)等大面積故障,而且沒有告警保護(hù)和收斂機(jī)制的話查乒。
郵件被充爆弥喉、手機(jī)收件箱被報警短信爆滿、手機(jī)連續(xù)響1個小時玛迄。
批量刪除由境?那也要拖滾動條拖個幾十秒啊蓖议!這種痛虏杰,復(fù)雜的Zabbix,真的不夠懂勒虾。
其實纺阔,大家的要求很簡單:只是想要一個足夠友好、簡單易懂修然、支持自定義又有默認(rèn)設(shè)置的人性化報警機(jī)制笛钝。
3)只想團(tuán)隊高效協(xié)作,別老是全體出動愕宋!
可否實現(xiàn)一個報警升級機(jī)制玻靡?而不是一旦產(chǎn)生報警,立即全員通知中贝。我們真的沒有那么閑岸谀怼:
短信和電話,真的也是要付費(fèi)的雄妥。 普通最蕾、通知級別的報警,讓剛來的運(yùn)維小白看看可否老厌? 嚴(yán)重級別和災(zāi)難級別的報警瘟则,先發(fā)給一級,一級響應(yīng)不及再升級枝秤,而不是直接“捅給”老大好不醋拧?
靈犀,負(fù)責(zé)解決您的這些問題!
靈犀(linkedsee)旨在成為客戶一站式混合IT運(yùn)營管理專家丹壕,核心成員來自原百度系統(tǒng)部庆械。創(chuàng)始人@朱品燕同學(xué)曾致力于百度多年,其離職網(wǎng)文《IT狗菌赖,離開百度缭乘,你還是什么?》曾一度引起轟動琉用。
靈犀堕绩,負(fù)責(zé)解決您的這些問題!
快速高效接入:10分鐘內(nèi)完成接入邑时,瞬間擁有四大通道奴紧、多個主備服務(wù)商。 消滅告警風(fēng)暴:默認(rèn)恢復(fù)自動合并晶丘、相同報警自動合并黍氮,支持自定義合并。 專人客服值守:普通級別專人輪流值班浅浮,嚴(yán)重級別輪循升級通知沫浆、處理。
不僅僅這樣脑题,靈犀還可:
完美對接工單系統(tǒng)件缸,讓Zabbix告警不再石沉大海铜靶、無人跟進(jìn)叔遂。
支持Open-falcon及其他自定義監(jiān)控。
想看看靈犀的真容争剿?
靈活的告警觸發(fā)策略設(shè)定已艰。
豐富的事件處理及統(tǒng)計功能。
方便的監(jiān)控值班功能蚕苇。
看到這里哩掺,是不是有些心動,迫不及待的想試試呢涩笤。點(diǎn)擊 靈犀注冊嚼吞,立即體驗。