概覽
通過此文檔睬愤,你能夠配置簡單的Grafana8告警淆九。
背景
Grafana8以后,alert功能更新配猫。新告警設(shè)置與老告警設(shè)置完全不同队寇。我們這里暫定新告警名為統(tǒng)一告警。
在開始配置之前章姓,需要先對齊一下信息。
監(jiān)控架構(gòu)圖
整體監(jiān)控平臺以prometheus為核心進(jìn)行設(shè)計(jì)识埋。
不支持在 Docs 外粘貼 block
告警級別分類
告警級別很重要凡伊,故障應(yīng)急策略會(huì)根據(jù)告警級別而定。
不支持在 Docs 外粘貼 block
告警配置
告警頁面常用名詞解釋:
三大組件關(guān)系圖:
為了方便理解窒舟,將配置告警使用的對象系忙,簡稱為三大組件。
他們分別是:Alert rules , contact points,notification polices
不支持在 Docs 外粘貼 block
設(shè)置Prometheus告警
第一步:contact points
創(chuàng)建告警通道
一個(gè)contact points可以設(shè)置多個(gè)發(fā)送告警通道
第二步:Notification policies
創(chuàng)建告警通道匹配規(guī)則
- 使用label匹配alert rules
- 選擇contact point
- 設(shè)置Override general timings (可選)
- Group wait: 調(diào)節(jié)告警敏感度
- Group interval:這里設(shè)置多個(gè)alert rules匹配1個(gè)contact point惠豺,所以此參數(shù)設(shè)置較低银还。
- Repeat interval:建議對齊"告警策略"中的"故障狀態(tài)更新時(shí)間"參數(shù)設(shè)置
第三步:Alert rules
配置告警策略
這里使用CPU告警舉例
- 找到CPU的監(jiān)控panel
- 編輯panel進(jìn)入alert頁簽,創(chuàng)建alert rule
- 設(shè)置報(bào)警規(guī)則
設(shè)置所有IP地址是10.11開頭的主機(jī)洁墙,CPU使用率最新的參數(shù)超過80%閾值蛹疯,30s檢查一次,持續(xù)1分鐘都超過告警閾值热监,則觸發(fā)告警捺弦。為了匹配告警通道,標(biāo)簽設(shè)置Contact_point=alert-test-group-ms-teams
注意:告警內(nèi)容要清晰的告知需要做什么孝扛,因半夜2點(diǎn)多當(dāng)你收到告警時(shí)列吼,你很難保證在迷糊的狀態(tài)快速的做出正確的判斷。
上圖的配置會(huì)將此報(bào)警綁定到下圖的告警通道
Microsoft Teams設(shè)置webhook
- 創(chuàng)建群組
- 給群組增加通道
- 給通道增加連接器
- 選擇Add Incoming Webhook
- 創(chuàng)建后復(fù)制webhook地址苦始,填寫到Grafana中寞钥。
注意:webhook地址需要單獨(dú)保存,創(chuàng)建后無法再次查看陌选。
參考文檔:
https://grafana.com/docs/grafana/latest/alerting/unified-alerting/
https://docs.microsoft.com/zh-cn/outlook/actionable-messages/send-via-connectors