通過前面幾篇文章我們搭建好了監(jiān)控環(huán)境并且監(jiān)控了服務(wù)器卸耘、數(shù)據(jù)庫扭勉、應(yīng)用,運(yùn)維人員可以實(shí)時(shí)了解當(dāng)前被監(jiān)控對象的運(yùn)行情況忠聚,但是他們不可能時(shí)時(shí)坐在電腦邊上盯著DashBoard,這就需要一個告警功能两蟀,當(dāng)服務(wù)器或應(yīng)用指標(biāo)異常時(shí)發(fā)送告警,通過郵件或者短信的形式告訴運(yùn)維人員及時(shí)處理战虏。
今天我們就來聊聊 基于Prometheus和Grafana的監(jiān)控平臺的異常告警功能党涕。
告警方式
Grafana
新版本的Grafana已經(jīng)提供了告警配置,直接在dashboard監(jiān)控panel中設(shè)置告警即可膛堤,但是我用過后發(fā)現(xiàn)其實(shí)并不靈活,不支持變量绿渣,而且好多下載的圖表無法使用告警燕耿,所以我們不選擇使用Grafana告警中符,而使用Alertmanager誉帅。
Alertmanager
相比于Grafana的圖形化界面蚜锨,Alertmanager需要依靠配置文件實(shí)現(xiàn),配置稍顯繁瑣踏志,但是勝在功能強(qiáng)大靈活胀瞪。接下來我們就一步一步實(shí)現(xiàn)告警通知。
告警類型
Alertmanager告警主要使用以下兩種:
- 郵件接收器 email_config
- Webhook接收器 webhook_config圆雁,會用post形式向配置的url地址發(fā)送如下格式的參數(shù)帆谍。
{
"version": "2",
"status": "<resolved|firing>",
"alerts": [{
"labels": < object > ,
"annotations": < object > ,
"startsAt": "<rfc3339>",
"endsAt": "<rfc3339>"
}]
}
這次主要使用郵件的方式進(jìn)行告警。
實(shí)現(xiàn)步驟
- 下載
從GitHub上下載最新版本的Alertmanager,將其上傳解壓到服務(wù)器上汛蝙。
tar -zxvf alertmanager-0.19.0.linux-amd64.tar.gz
- 配置Alertmanager
vi alertmanager.yml
global:
resolve_timeout: 5m
smtp_smarthost: 'mail.163.com:25' #郵箱發(fā)送端口
smtp_from: 'xxx@163.com'
smtp_auth_username: 'xxx@163.com' #郵箱賬號
smtp_auth_password: 'xxxxxx' #郵箱密碼
smtp_require_tls: false
route:
group_by: ['alertname']
group_wait: 10s # 最初即第一次等待多久時(shí)間發(fā)送一組警報(bào)的通知
group_interval: 10s # 在發(fā)送新警報(bào)前的等待時(shí)間
repeat_interval: 1h # 發(fā)送重復(fù)警報(bào)的周期 對于email配置中,此項(xiàng)不可以設(shè)置過低坚洽,否則將會由于郵件發(fā)送太多頻繁,被smtp服務(wù)器拒絕
receiver: 'email'
receivers:
- name: 'email'
email_configs:
- to: 'xxx@xxx.com'
修改完成后可以使用./amtool check-config alertmanager.yml
校驗(yàn)文件是否正確鞍盗。
校驗(yàn)正確啟動alertmanager跳昼。`nohup ./alertmanager &`。(第一次啟動可以不使用nohup靜默啟動鹅颊,方便后面查看日志)
我們只定義了一個路由,那就意味著所有由Prometheus產(chǎn)生的告警在發(fā)送到Alertmanager之后都會通過名為`email`的receiver接收历帚。實(shí)際上杠娱,對于不同級別的告警,會有不同的處理方式摊求,因此在route中,我們還可以定義更多的子Route睹栖。具體配置規(guī)則大家可以去百度進(jìn)一步了解茧痕。
-
配置Prometheus
在Prometheus安裝目錄下建立rules文件夾,放置所有的告警規(guī)則文件踪旷。alerting: alertmanagers: - static_configs: - targets: ['192.168.249.131:9093'] rule_files: - rules/*.yml
在rules文件夾下建立告警規(guī)則文件service_down.yml
,當(dāng)服務(wù)器下線時(shí)發(fā)送郵件。
groups:
- name: ServiceStatus
rules:
- alert: ServiceStatusAlert
expr: up == 0
for: 2m
labels:
team: node
annotations:
summary: "Instance {{ $labels.instance }} has bean down"
description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes."
value: "{{ $value }}"
**配置詳解**
alert:告警規(guī)則的名稱舀患。
expr:基于PromQL表達(dá)式告警觸發(fā)條件气破,用于計(jì)算是否有時(shí)間序列滿足該條件。
for:評估等待時(shí)間低匙,可選參數(shù)。用于表示只有當(dāng)觸發(fā)條件持續(xù)一段時(shí)間后才發(fā)送告警努咐。在等待期間新產(chǎn)生告警的狀態(tài)為PENDING,等待期后為FIRING渗稍。
labels:自定義標(biāo)簽,允許用戶指定要附加到告警上的一組附加標(biāo)簽报强。
annotations:用于指定一組附加信息拱燃,比如用于描述告警詳細(xì)信息的文字等,annotations的內(nèi)容在告警產(chǎn)生時(shí)會一同作為參數(shù)發(fā)送到Alertmanager碗誉。
配置完成后重啟Prometheus,訪問Prometheus查看告警配置弄跌。
- 測試
關(guān)閉node_exporter,過2分鐘就可以收到告警郵件啦尝苇,截圖如下:
Alertmanager的告警內(nèi)容支持使用模板配置,可以使用好看的模板進(jìn)行渲染淳玩,感興趣的可以試試非竿!
The More
CPU使用率(單位為percent)
(avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
內(nèi)存已使用(單位為bytes)
node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes
內(nèi)存使用量(單位為bytes/sec)
node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes
內(nèi)存使用率(單位為percent)
((node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes)/node_memory_MemTotal_bytes) * 100
server1的內(nèi)存使用率(單位為percent)
((node_memory_MemTotal_bytes{instance="server1"} - node_memory_MemAvailable_bytes{instance="server1"})/node_memory_MemTotal_bytes{instance="server1"}) * 100
server2的磁盤使用率(單位為percent)
((node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"} - node_filesystem_free_bytes{fstype=~"xfs|ext4",instance="server2"}) / node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"}) * 100
uptime時(shí)間(單位為seconds)
time() - node_boot_time
server1的uptime時(shí)間(單位為seconds)
time() - node_boot_time_seconds{instance="server1"}
網(wǎng)絡(luò)流出量(單位為bytes/sec)
irate(node_network_transmit_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
server1的網(wǎng)絡(luò)流出量(單位為bytes/sec)
irate(node_network_transmit_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
網(wǎng)絡(luò)流入量(單位為bytes/sec)
irate(node_network_receive_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
server1的網(wǎng)絡(luò)流入量(單位為bytes/sec)
irate(node_network_receive_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
磁盤讀取速度(單位為bytes/sec)
irate(node_disk_read_bytes_total{device=~"sd.*"}[5m])
歡迎關(guān)注我的個人公眾號:JAVA日知錄