【實(shí)踐】1.Docker環(huán)境部署Prometheus+Grafana監(jiān)控系統(tǒng)

一档插、Prometheus簡(jiǎn)介

Prometheus是由SoundCloud開(kāi)發(fā)的開(kāi)源監(jiān)控報(bào)警系統(tǒng)和時(shí)序列數(shù)據(jù)庫(kù)(TSDB)慢蜓。

圖片

Prometheus使用Go語(yǔ)言開(kāi)發(fā)，是Google BorgMon監(jiān)控系統(tǒng)的開(kāi)源版本郭膛。2016年由Google發(fā)起Linux基金會(huì)旗下的原生云基金會(huì)(Cloud Native Computing Foundation), 將Prometheus納入其下第二大開(kāi)源項(xiàng)目晨抡。Prometheus目前在開(kāi)源社區(qū)相當(dāng)活躍。Prometheus和Heapster(Heapster是K8S的一個(gè)子項(xiàng)目则剃，用于獲取集群的性能數(shù)據(jù)耘柱。)相比功能更完善、更全面棍现。Prometheus性能也足夠支撐上萬(wàn)臺(tái)規(guī)模的集群调煎。

1.系統(tǒng)架構(gòu)圖

圖片

2.基本原理

Prometheus的基本原理是通過(guò)HTTP協(xié)議周期性抓取被監(jiān)控組件的狀態(tài)，任意組件只要提供對(duì)應(yīng)的HTTP接口就可以接入監(jiān)控己肮。不需要任何SDK或者其他的集成過(guò)程士袄。這樣做非常適合做虛擬化環(huán)境監(jiān)控系統(tǒng)悲关，比如VM、Docker娄柳、Kubernetes等坚洽。輸出被監(jiān)控組件信息的HTTP接口被叫做exporter 。目前互聯(lián)網(wǎng)公司常用的組件大部分都有exporter可以直接使用西土，比如Varnish、Haproxy鞍盗、Nginx需了、MySQL、Linux系統(tǒng)信息(包括磁盤(pán)般甲、內(nèi)存肋乍、CPU、網(wǎng)絡(luò)等等)敷存。

其大概的工作流程是：

Prometheus server 定期從配置好的 jobs 或者 exporters 中拉 metrics墓造，或者接收來(lái)自 Pushgateway 發(fā)過(guò)來(lái)的 metrics，或者從其他的 Prometheus server 中拉 metrics锚烦。
Prometheus server 在本地存儲(chǔ)收集到的 metrics觅闽，并運(yùn)行已定義好的 alert.rules，記錄新的時(shí)間序列或者向 Alertmanager 推送警報(bào)涮俄。
Alertmanager 根據(jù)配置文件蛉拙，對(duì)接收到的警報(bào)進(jìn)行處理，發(fā)出告警彻亲。
在Grafana圖形界面中孕锄，可視化查看采集數(shù)據(jù)。

3.Prometheus的特性

多維度數(shù)據(jù)模型苞尝。
靈活的查詢語(yǔ)言畸肆。
不依賴分布式存儲(chǔ)，單個(gè)服務(wù)器節(jié)點(diǎn)是自主的宙址。
通過(guò)基于HTTP的pull方式采集時(shí)序數(shù)據(jù)轴脐。
可以通過(guò)中間網(wǎng)關(guān)進(jìn)行時(shí)序列數(shù)據(jù)推送。
通過(guò)服務(wù)發(fā)現(xiàn)或者靜態(tài)配置來(lái)發(fā)現(xiàn)目標(biāo)服務(wù)對(duì)象曼氛。
支持多種多樣的圖表和界面展示豁辉，比如Grafana等。

4.Prometheus的組件

Prometheus Server 主要負(fù)責(zé)數(shù)據(jù)采集和存儲(chǔ)舀患，提供PromQL查詢語(yǔ)言的支持徽级。
Alertmanager 警告管理器，用來(lái)進(jìn)行報(bào)警聊浅。
Push Gateway 支持臨時(shí)性Job主動(dòng)推送指標(biāo)的中間網(wǎng)關(guān)餐抢。
Exporters 輸出被監(jiān)控組件信息的HTTP接口现使。
Grafana 監(jiān)控?cái)?shù)據(jù)展示W(wǎng)eb UI。

5.服務(wù)發(fā)現(xiàn)

由于 Prometheus 是通過(guò) Pull 的方式主動(dòng)獲取監(jiān)控?cái)?shù)據(jù)旷痕，也就是每隔幾秒鐘去各個(gè)target采集一次metric碳锈。所以需要手工指定監(jiān)控節(jié)點(diǎn)的列表，當(dāng)監(jiān)控的節(jié)點(diǎn)增多之后欺抗，每次增加節(jié)點(diǎn)都需要更改配置文件售碳，盡管可以使用接口去熱更新配置文件，但仍然非常麻煩绞呈，這個(gè)時(shí)候就需要通過(guò)服務(wù)發(fā)現(xiàn)（service discovery贸人，SD）機(jī)制去解決。

Prometheus 支持多種服務(wù)發(fā)現(xiàn)機(jī)制佃声，可以自動(dòng)獲取要收集的 targets艺智，包含的服務(wù)發(fā)現(xiàn)機(jī)制包括：azure、consul圾亏、dns十拣、ec2、openstack志鹃、file夭问、gce、kubernetes弄跌、marathon甲喝、triton、zookeeper（nerve铛只、serverset）埠胖，配置方法可以參考手冊(cè)的配置頁(yè)面〈就妫可以說(shuō) SD 機(jī)制是非常豐富的直撤，但目前由于開(kāi)發(fā)資源有限，已經(jīng)不再開(kāi)發(fā)新的 SD 機(jī)制蜕着，只對(duì)基于文件的 SD 機(jī)制進(jìn)行維護(hù)谋竖。針對(duì)我們現(xiàn)有的系統(tǒng)情況，我們選擇了靜態(tài)配置方式承匣。

二蓖乘、部署PrometheusServer

1. 使用官方鏡像運(yùn)行

由于Prometheus官方鏡像沒(méi)有開(kāi)啟熱加載功能，而且時(shí)區(qū)相差八小時(shí)韧骗，所以我們選擇了自己制作鏡像嘉抒，當(dāng)然你也可以使用官方的鏡像，提前創(chuàng)建Prometheus配置文件prometheus.yml和Prometheus規(guī)則文件rules.yml袍暴，然后通過(guò)如下命令掛載到官方鏡像中運(yùn)行：

$ docker run -d -p 9090:9090 --name=prometheus \
 -v  /root/prometheus/conf/:/etc/prometheus/  \
prom/prometheus

使用官方鏡像部署可以參考我的這篇文章：Docker部署Prometheus實(shí)現(xiàn)微信郵件報(bào)警些侍。

2. 制作鏡像

現(xiàn)在我們創(chuàng)建自己的Prometheus鏡像隶症，當(dāng)然你也可以直接使用我制作的鏡像

$ docker pull zhanganmin2017/prometheus:v2.9.0

首先去Prometheus下載二進(jìn)制文件安裝包解壓到package目錄下，我的Dockerfile目錄結(jié)構(gòu)如下：

$ tree prometheus-2.9.0/
prometheus-2.9.0/
├── conf
│   ├── CentOS7-Base-163.repo
│   ├── container-entrypoint
│   ├── epel-7.repo
│   ├── prometheus-start.conf
│   ├── prometheus-start.sh
│   ├── prometheus.yml
│   ├── rules
│   │   └── service_down.yml
│   └── supervisord.conf
├── Dockerfile
└── package
    ├── console_libraries
    ├── consoles
    ├── LICENSE
    ├── NOTICE
    ├── prometheus
    ├── prometheus.yml
    └── promtool
5 directories, 26 files

分別創(chuàng)建圖中的目錄岗宣，可以看到conf目錄中有一些名為supervisord的文件蚂会，這是因?yàn)樵谌萜髦械倪M(jìn)程我們選擇使用supervisor進(jìn)行管理，當(dāng)然如果不想使用的化可以進(jìn)行相應(yīng)的修改耗式。

制作prometheus-start.sh啟動(dòng)腳本胁住，Supervisor啟動(dòng)Prometheus會(huì)調(diào)用該腳本

#!/bin/bash
/bin/prometheus \
 --config.file=/data/prometheus/prometheus.yml \
 --storage.tsdb.path=/data/prometheus/data \
 --web.console.libraries=/data/prometheus/console_libraries \
 --web.enable-lifecycle \
 --web.console.templates=/data/prometheus/consoles

制作Prometheus-start.conf啟動(dòng)文件,Supervisord的配置文件

[program:prometheus]
command=sh /etc/supervisord.d/prometheus-start.sh   ; 程序啟動(dòng)命令
autostart=false     ; 在supervisord啟動(dòng)的時(shí)候不自動(dòng)啟動(dòng)
startsecs=10        ; 啟動(dòng)10秒后沒(méi)有異常退出，就表示進(jìn)程正常啟動(dòng)了刊咳，默認(rèn)1秒
autorestart=false   ; 關(guān)閉程序退出后自動(dòng)重啟措嵌，可選值：[unexpected,true,false]，默認(rèn)為unexpected,表示進(jìn)程意外殺死才重啟
startretries=0      ; 啟動(dòng)失敗自動(dòng)重試次數(shù)芦缰，默認(rèn)是3
user=root            ; 用哪個(gè)用戶啟動(dòng)進(jìn)程，默認(rèn)是root
redirect_stderr=true            ; 把stderr重定向到stdout枫慷，默認(rèn)false
stdout_logfile_maxbytes=20MB  ; stdout 日志文件大小让蕾，默認(rèn)是50MB
stdout_logfile_backups=30        ; stdout 日志文件備份數(shù)，默認(rèn)是10; 
# stdout 日志文件或听，需要注意當(dāng)指定目錄不存在時(shí)無(wú)法正常啟動(dòng)探孝，所以需要手動(dòng)創(chuàng)建目錄(supervisord 會(huì)自動(dòng)創(chuàng)建日志文件)
stdout_logfile=/data/prometheus/prometheus.log
stopasgroup=true
killasgroup=true

制作supervisord.conf啟動(dòng)文件

[unix_http_server]
file=/var/run/supervisor.sock   ; (the path to the socket file)
chmod=0700                       ; sockef file mode (default 0700)

[supervisord]
logfile=/var/log/supervisor/supervisord.log ; (main log file;default $CWD/supervisord.log)
pidfile=/var/run/supervisord.pid ; (supervisord pidfile;default supervisord.pid)
childlogdir=/var/log/supervisor            ; ('AUTO' child log dir, default $TEMP)
user=root
minfds=10240
minprocs=200

[rpcinterface:supervisor]
supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface

[supervisorctl]
serverurl=unix:///var/run/supervisor.sock ; use a unix:// URL  for a unix socket

[program:sshd]
command=/usr/sbin/sshd -D
autostart=true
autorestart=true
stdout_logfile=/var/log/supervisor/ssh_out.log
stderr_logfile=/var/log/supervisor/ssh_err.log

[include]
files = /etc/supervisord.d/*.conf

制作container-entrypoint守護(hù)文件，容器啟動(dòng)后執(zhí)行的腳本

#!/bin/sh
set -x
if [ ! -d "/data/prometheus" ];then
    mkdir -p /data/prometheus/data
fi
mv /usr/local/src/* /data/prometheus/
exec /usr/bin/supervisord -n
exit

在conf目錄下新建Prometheus.yml配置文件誉裆，這個(gè)是Prometheus配置監(jiān)控主機(jī)的文件

global:
  scrape_interval:   60s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 60s # Evaluate rules every 15 seconds. The default is every 1 minute.
alerting:
  alertmanagers:
  - static_configs:
    - targets: [ '192.168.133.110:9093']

rule_files:
  - "rules/host_sys.yml"

scrape_configs:
  - job_name: 'Host'
    static_configs:
      - targets: ['10.1.250.36:9100']
        labels:
          appname: 'DEV01_250.36'
  - job_name: 'prometheus'
    static_configs:
      - targets: [ '10.1.133.210:9090']
        labels:
          appname: 'Prometheus'

在conf目錄下新建rules目錄顿颅，編寫(xiě)service_down.yml規(guī)則文件，這個(gè)也可以等到容器創(chuàng)建后再編寫(xiě)足丢，這里我們就直接寫(xiě)好添加到鏡像中

groups:
- name: servicedown
  rules:
  - alert: InstanceDown
    expr: up == 0
    for: 1m
    labels:
      name: instance
      severity: Critical
    annotations:
      summary: " {{ $labels.appname }}"
      description: " 服務(wù)停止運(yùn)行 "
      value: "{{ $value }}"

制作dockerfile 鏡像文件

FROM docker.io/centos:7
MAINTAINER from zhanmin@1an.com
# install repo
RUN  rm -rf  /etc/yum.repos.d/*.repo
ADD  conf/CentOS7-Base-163.repo /etc/yum.repos.d/
ADD  conf/epel-7.repo           /etc/yum.repos.d/
# yum install
RUN yum install -q -y  openssh-server openssh-clients  net-tools \
  vim  supervisor && yum clean all
# install sshd
RUN  ssh-keygen -q -N "" -t rsa -f /etc/ssh/ssh_host_rsa_key \
  &&  ssh-keygen -q -N "" -t ecdsa -f /etc/ssh/ssh_host_ecdsa_key \
  &&  ssh-keygen -q -N "" -t ed25519 -f /etc/ssh/ssh_host_ed25519_key \
  &&  sed -i 's/#UseDNS yes/UseDNS no/g' /etc/ssh/sshd_config
# UTF-8 and CST +0800
ENV  LANG=zh_CN.UTF-8 
RUN  echo "export LANG=zh_CN.UTF-8" >> /etc/profile.d/lang.sh \
    &&  ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime \
    && localedef -c -f UTF-8 -i zh_CN zh_CN.utf8
# install Prometheus
COPY  package/prometheus                            /bin/prometheus
COPY  package/promtool                              /bin/promtool
COPY  package/console_libraries/                    /usr/local/src/console_libraries/
COPY  package/consoles/                             /usr/local/src/consoles/
COPY  conf/prometheus.yml               /usr/local/src/prometheus.yml   
COPY  conf/rules/                                   /usr/local/src/rules/
# create user
RUN  echo "root:123456" | chpasswd 
# supervisord
ADD  conf/supervisord.conf                               /etc/supervisord.conf
ADD  conf/prometheus-start.conf                          /etc/supervisord.d/prometheus-start.conf
ADD  conf/container-entrypoint                         /container-entrypoint
ADD  conf/prometheus-start.sh                         /etc/supervisord.d/prometheus-start.sh
RUN  chmod +x /container-entrypoint
# cmd
CMD  ["/container-entrypoint"]

Dockerfile中安裝了supervisor進(jìn)程管理工具和SSH服務(wù)粱腻，指定了字符集和時(shí)區(qū)。

生成鏡像并運(yùn)行容器服務(wù)

$ docker build -t zhanganmin2017/prometheus:v2.9.0 .
$ docker run -itd  -h prometheus139-210 -m 8g  --cpuset-cpus=28-31  --name=prometheus139-210 --network trust139  --ip=10.1.133.28  -v /data/works/prometheus139-210:/data  192.168.166.229/1an/prometheus:v2.9.0
$ docker exec -it  prometheus139-210  /bin/bash
$ supervisorctl  start  prometheus首先去Prometheus

訪問(wèn)prometheus Web頁(yè)面 IP:9090

圖片

三斩跌、部署監(jiān)控組件Exporter

Prometheus 是使用 Pull 的方式來(lái)獲取指標(biāo)數(shù)據(jù)的绍些，要讓 Prometheus 從目標(biāo)處獲得數(shù)據(jù)，首先必須在目標(biāo)上安裝指標(biāo)收集的程序耀鸦，并暴露出 HTTP 接口供 Prometheus 查詢柬批，這個(gè)指標(biāo)收集程序被稱為 Exporter ，不同的指標(biāo)需要不同的 Exporter 來(lái)收集袖订，目前已經(jīng)有大量的 Exporter 可供使用氮帐，幾乎囊括了我們常用的各種系統(tǒng)和軟件，官網(wǎng)列出了一份常用Exporter的清單洛姑，各個(gè) Exporter 都遵循一份端口約定上沐，避免端口沖突，即從 9100 開(kāi)始依次遞增吏口，這里是完整的 Exporter端口列表奄容。另外值得注意的是冰更，有些軟件和系統(tǒng)無(wú)需安裝 Exporter，這是因?yàn)樗麄儽旧砭吞峁┝吮┞?Prometheus 格式的指標(biāo)數(shù)據(jù)的功能昂勒，比如 Kubernetes蜀细、Grafana、Etcd戈盈、Ceph 等奠衔。

1. 部署主機(jī)監(jiān)控組件

各節(jié)點(diǎn)主機(jī)使用主機(jī)網(wǎng)絡(luò)模式部署主機(jī)監(jiān)控組件node-exporter，官方不建議將其部署為Docker容器塘娶，因?yàn)樵搉ode_exporter設(shè)計(jì)用于監(jiān)控主機(jī)系統(tǒng)归斤。需要訪問(wèn)主機(jī)系統(tǒng)，而且通過(guò)容器的方式部署發(fā)現(xiàn)磁盤(pán)數(shù)據(jù)不太準(zhǔn)確刁岸。二進(jìn)制部署就去看項(xiàng)目文檔吧

$ docker run -d \
  --net="host" \
  --pid="host" \
  -v "/:/host:ro,rslave" \
  quay.io/prometheus/node-exporter \
  --path.rootfs=/host

容器正常運(yùn)行后脏里，進(jìn)入Prometheus容器，在Prometheus.yml 文件中添加node-exporter組件地址

$ docker exec -it  prometheus-133-210  /bin/bash
$ vim /data/prometheus/prometheus.yml
global:
  scrape_interval:   60s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 60s # Evaluate rules every 15 seconds. The default is every 1 minute.

rule_files:
  - "rules/service_down.yml"

scrape_configs:
  - job_name: 'Host'
    static_configs:
      - targets: ['10.1.250.36:9100']  #node-exporter地址
        labels:
          appname: 'DEV01_250.36' #添加的標(biāo)簽
  - job_name: 'prometheus'
    static_configs:
      - targets: [ '10.2.139.210:9090']
        labels:
          appname: 'prometheus'

熱加載更新Prometheus

$  curl -X POST http://10.1.133.210:9090/-/reload

查看Prometheus的web頁(yè)面已經(jīng)可以看到node-exporter虹曙，然后我們就可以定義報(bào)警規(guī)則和展示看板了迫横，這部分內(nèi)容在后面配置Alertmanager和Grafana上會(huì)詳細(xì)介紹。

圖片

2.部署容器監(jiān)控組件

各節(jié)點(diǎn)主機(jī)部署容器監(jiān)控組件cadvisor-exporter酝碳，我這邊Docker網(wǎng)絡(luò)使用的macvlan方式矾踱，所以直接給容器分配了IP地址。

# docker run -d  -h cadvisor139-216  --name=cadvisor139-216  --net=none -m 8g   --cpus=4   --ip=10.1.139.216   --volume=/:/rootfs:ro   --volume=/var/run:/var/run:rw --volume=/sys:/sys:ro --volume=/var/lib/docker/:/var/lib/docker:ro  --volume=/dev/disk/:/dev/disk:ro     google/cadvisor:latest

同樣的疏哗，容器正常運(yùn)行后呛讲，我們?cè)L問(wèn)Cadvisor的Web頁(yè)面 IP+8080 端口

圖片

現(xiàn)在我們進(jìn)入Prometheus容器，在prometheus.yml主機(jī)文件中添加cadvisor組件

-----------
  - job_name: 'Cadvisor'
    static_configs:
      - targets: [ '10.1.139.216:8080']
        labels:
          appname: 'DEV_Cadvisor01'

熱加載更新Prometheus

$  curl -X POST http://10.1.133.210:9090/-/reload

可以看到返奉，Prometheus添加的cadvisor狀態(tài)為UP贝搁，說(shuō)明正常接收數(shù)據(jù)。

圖片

3. 部署Redis監(jiān)控組件

容器部署Redis服務(wù)監(jiān)控組件redis_exporter芽偏，--redis.passwd指定認(rèn)證口令徘公，如果你的redis訪問(wèn)沒(méi)有密碼那么就無(wú)需指定后面參數(shù)。

$ docker run -d  -h  redis_exporter139-218 --name redis_exporter139-218 --network trust139 --ip=10.1.139.218  -m 8g  --cpus=4  oliver006/redis_exporter --redis.passwd  123456

在prometheus.yml 添加redis-exporter

---------
- job_name: 'Redis-exporter'   #exporter地址
    static_configs:
      - targets: ['10.2.139.218:9121'']
        labels:
          appname: 'redis-exporter'
  - job_name: 'RedisProxy'   #需要監(jiān)控的redis地址
    static_configs:
      - targets:
        - redis://10.2.139.70:6379
        - redis://10.2.139.71:6379
        labels:
          appname: RedisProxy
    metrics_path: /scrape
    relabel_configs:
      - source_labels: [__address__]
        target_label: __param_target
      - source_labels: [__param_target]
        target_label: instance
      - target_label: __address__
        replacement: 10.2.139.218:9121

然后熱加載更新哮针，步驟同上关面。

4.部署應(yīng)用監(jiān)控組件

中間件部署JVM監(jiān)控組件jmx_exporter, 這種方式是適用于代碼中沒(méi)有暴露應(yīng)用metrics信息的服務(wù)，無(wú)需進(jìn)行代碼改動(dòng)十厢，在應(yīng)用啟動(dòng)時(shí)調(diào)用該jar包暴露jmx信息等太，然后在Prometheus分別指定應(yīng)用的地址即可。

首先下載jar ：https://github.com/prometheus/jmx_exporter（jmx_prometheus_javaagent-0.11.0.jar ）
下載配置文件蛮放，有tomcat和weblogic注意區(qū)分：https://github.com/prometheus/jmx_exporter/tree/master/example_configs
然后在中間件啟動(dòng)參數(shù)添加以下內(nèi)容缩抡，指定配置文件和jar包的路徑：

CATALINA_OPTS="-javaagent:/app/tomcat-8.5.23/lib/jmx_prometheus_javaagent-0.11.0.jar=12345:/app/tomcat-8.5.23/conf/config.yaml"

上面我指定暴露metrics信息的端口為12345，所以我們?cè)趐rometheus.yml文件中添加即可：

---------
  - job_name: 'MIDL'
    static_configs:
      - targets: ['192.168.166.18:12345','192.168.166.19:12345']
        labels:
          appname: 'ORDER'
      - targets: ['10.2.139.111:12345','10.2.139.112:12345']
        labels:
          appname: 'WEB'

其他步驟同上包颁，Prometheus熱加載更新即可瞻想。

5. 部署進(jìn)程監(jiān)控組件

因?yàn)槲覀內(nèi)萜魇鞘褂脝为?dú)的網(wǎng)絡(luò)部署的压真，相當(dāng)于胖容器的方式，所以需要在監(jiān)控的容器中部署process-exporter進(jìn)程監(jiān)控組件來(lái)監(jiān)控容器的進(jìn)程蘑险，

軟件包下載：

wget https://github.com/ncabatoff/process-exporter/releases/download/v0.5.0/process-exporter-0.5.0.linux-amd64.tar.gz

配置文件：process-name.yaml

process_names:

  - name: "{{.Matches}}"

    cmdline:

    - 'redis-shake'  #匹配進(jìn)程讼庇，支持正則

啟動(dòng)參數(shù)：

$ nohup ./process-exporter -config.path process-name.yaml &

在Prometheus.yml 添加該容器的IP地址乳乌，端口號(hào)為9256

-----------
  - job_name: 'process'
    static_configs:
      - targets: [ '10.2.139.186:9256']
        labels:
          appname: 'Redis-shake'

ok，現(xiàn)在我們熱加載更新Prometheus的主機(jī)文件

$ curl -X POSThttp://10.2.139.210:9090/-/reload

四、部署Alertmanager報(bào)警組件

1. Alertmanager 概述

Alertmanager處理客戶端應(yīng)用程序（如Prometheus服務(wù)器）發(fā)送的告警留瞳。它負(fù)責(zé)對(duì)它們進(jìn)行重復(fù)數(shù)據(jù)刪除登钥，分組和路由吻商，以及正確的接收器集成范嘱，例如電子郵件，PagerDuty或OpsGenie普碎。它還負(fù)責(zé)警報(bào)的靜默和抑制吼肥。

以下描述了Alertmanager實(shí)現(xiàn)的核心概念。請(qǐng)參閱配置文檔以了解如何更詳細(xì)地使用它們麻车。

分組(Grouping)
分組將類似性質(zhì)的告警分類為單個(gè)通知潜沦。這在大型中斷期間尤其有用，因?yàn)樵S多系統(tǒng)一次失敗绪氛，并且可能同時(shí)發(fā)射數(shù)百到數(shù)千個(gè)警報(bào)。
示例：發(fā)生網(wǎng)絡(luò)分區(qū)時(shí)涝影，群集中正在運(yùn)行數(shù)十或數(shù)百個(gè)服務(wù)實(shí)例枣察。一半的服務(wù)實(shí)例無(wú)法再訪問(wèn)數(shù)據(jù)庫(kù)。Prometheus中的告警規(guī)則配置為在每個(gè)服務(wù)實(shí)例無(wú)法與數(shù)據(jù)庫(kù)通信時(shí)發(fā)送告警燃逻。結(jié)果序目，數(shù)百個(gè)告警被發(fā)送到Alertmanager。
作為用戶伯襟，只能想要獲得單個(gè)頁(yè)面猿涨，同時(shí)仍能夠確切地看到哪些服務(wù)實(shí)例受到影響。因此姆怪，可以將Alertmanager配置為按群集和alertname對(duì)警報(bào)進(jìn)行分組叛赚，以便發(fā)送單個(gè)緊湊通知。
這些通知的接收器通過(guò)配置文件中的路由樹(shù)配置告警的分組稽揭，定時(shí)的進(jìn)行分組通知俺附。
抑制(Inhibition)
如果某些特定的告警已經(jīng)觸發(fā)，則某些告警需要被抑制溪掀。
示例：如果某個(gè)告警觸發(fā)事镣，通知無(wú)法訪問(wèn)整個(gè)集群。Alertmanager可以配置為在該特定告警觸發(fā)時(shí)將與該集群有關(guān)的所有其他告警靜音揪胃。這可以防止通知數(shù)百或數(shù)千個(gè)與實(shí)際問(wèn)題無(wú)關(guān)的告警觸發(fā)璃哟。
靜默(SILENCES)
靜默是在給定時(shí)間內(nèi)簡(jiǎn)單地靜音告警的方法氛琢。基于匹配器配置靜默随闪，就像路由樹(shù)一樣阳似。檢查告警是否匹配或者正則表達(dá)式匹配靜默。如果匹配蕴掏，則不會(huì)發(fā)送該告警的通知障般。在Alertmanager的Web界面中可以配置靜默。
客戶端行為(Client behavior)
Alertmanager對(duì)其客戶的行為有特殊要求盛杰。這些僅適用于不使用Prometheus發(fā)送警報(bào)的高級(jí)用例挽荡。#制作鏡像方式和Prometheus類似，稍作更改即可即供，此步省略定拟。

設(shè)置警報(bào)和通知的主要步驟如下：

設(shè)置并配置Alertmanager；
配置Prometheus對(duì)Alertmanager訪問(wèn)逗嫡；
在普羅米修斯創(chuàng)建警報(bào)規(guī)則青自；

2. 部署Alertmanager組件

首先需要?jiǎng)?chuàng)建Alertmanager的報(bào)警通知文件，我這里使用企業(yè)微信報(bào)警驱证，其中企業(yè)微信需要申請(qǐng)賬號(hào)認(rèn)證延窜，方式如下：

訪問(wèn)網(wǎng)站注冊(cè)企業(yè)微信賬號(hào)（不需要企業(yè)認(rèn)證）。
訪問(wèn)apps創(chuàng)建第三方應(yīng)用抹锄，點(diǎn)擊創(chuàng)建應(yīng)用按鈕 -> 填寫(xiě)應(yīng)用信息：
創(chuàng)建報(bào)警組逆瑞，獲取組ID：

圖片

新建alertmanager.yml報(bào)警通知文件

global:
  resolve_timeout: 2m
  smtp_smarthost: smtp.163.com:25
  smtp_from: 15xxx@163.com
  smtp_auth_username: 15xxxx@163.com
  smtp_auth_password: zxxx

templates:
  - '/data/alertmanager/conf/template/wechat.tmpl'
route:
  group_by: ['alertname_wechat']
  group_wait: 1s
  group_interval: 1s
  receiver: 'wechat'
  repeat_interval: 1h
  routes:
  - receiver: wechat
    match_re:
      serverity: wechat
receivers:
- name: 'email'
  email_configs:
  - to: '8xxxxx@qq.com'
    send_resolved: true
- name: 'wechat'
  wechat_configs:
  - corp_id: 'wwd402ce40b4720f24'
    to_party: '2'
    agent_id: '1000002'
    api_secret: '9nmYa4p12OkToCbh_oNc'
    send_resolved: true ## 發(fā)送已解決通知

參數(shù)說(shuō)明：

corp_id: 企業(yè)微信賬號(hào)唯一 ID，可以在我的企業(yè)中查看伙单。
to_party: 需要發(fā)送的組获高。
agent_id: 第三方企業(yè)應(yīng)用的 ID，可以在自己創(chuàng)建的第三方企業(yè)應(yīng)用詳情頁(yè)面查看吻育。
api_secret: 第三方企業(yè)應(yīng)用的密鑰念秧，可以在自己創(chuàng)建的第三方企業(yè)應(yīng)用詳情頁(yè)面查看。

然后我們創(chuàng)建企業(yè)微信的消息模板布疼，template/wechat.tmpl

{{ define "wechat.default.message" }}
{{ range $i, $alert :=.Alerts }}
【系統(tǒng)報(bào)警】
告警狀態(tài)：{{   .Status }}
告警級(jí)別：{{ $alert.Labels.severity }}
告警應(yīng)用：{{ $alert.Annotations.summary }}
告警詳情：{{ $alert.Annotations.description }}
觸發(fā)閥值：{{ $alert.Annotations.value }}
告警主機(jī)：{{ $alert.Labels.instance }}
告警時(shí)間：{{ $alert.StartsAt.Format "2006-01-02 15:04:05" }}
{{ end }}
{{ end }}

這個(gè)報(bào)警的模板其中的值是在Prometheus觸發(fā)的報(bào)警信息中提取的摊趾，所以你可以根據(jù)自己的定義進(jìn)行修改。

運(yùn)行Alertmanager容器

$ docker run -d -p 9093:9093 --name alertmanager  -m 8g  --cpus=4 -v /opt/alertmanager.yml:/etc/alertmanager/alertmanager.yml -v /opt/template:/etc/alertmanager/template  docker.io/prom/alertmanager:latest

容器運(yùn)行完成后查看web頁(yè)面 IP:9093

圖片

3. 配置報(bào)警規(guī)則

Prometheus的報(bào)警規(guī)則通過(guò)PromQL語(yǔ)句編寫(xiě)

進(jìn)入Prometheus容器的rules目錄游两，上面我們制作鏡像的時(shí)候已經(jīng)創(chuàng)建好并掛載到了容器中严就，現(xiàn)在我們編寫(xiě)其他的規(guī)則文件

編寫(xiě)主機(jī)監(jiān)控規(guī)則文件，rules/host_sys.yml

cat host_sys.yml
groups:
- name: Host
 rules:
 - alert: HostMemory Usage
   expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes + node_memory_Buffers_bytes + node_memory_Cached_bytes)) / node_memory_MemTotal_bytes * 100 >  90
   for: 1m
   labels:
     name: Memory
     severity: Warning
   annotations:
     summary: " {{ $labels.appname }} "
     description: "宿主機(jī)內(nèi)存使用率超過(guò)90%."
     value: "{{ $value }}"
 - alert: HostCPU Usage
   expr: sum(avg without (cpu)(irate(node_cpu_seconds_total{mode!='idle'}[5m]))) by (instance,appname) > 0.8
   for: 1m
   labels:
     name: CPU
     severity: Warning
   annotations:
     summary: " {{ $labels.appname }} "
     description: "宿主機(jī)CPU使用率超過(guò)80%."
     value: "{{ $value }}"
 - alert: HostLoad
   expr: node_load5 > 20
   for: 1m
   labels:
     name: Load
     severity: Warning
   annotations:
     summary: "{{ $labels.appname }} "
     description: " 主機(jī)負(fù)載5分鐘超過(guò)20."
     value: "{{ $value }}"
 - alert: HostFilesystem Usage
   expr: (node_filesystem_size_bytes-node_filesystem_free_bytes)/node_filesystem_size_bytes*100>80
   for: 1m
   labels:
     name: Disk
     severity: Warning
   annotations:
     summary: " {{ $labels.appname }} "
     description: " 宿主機(jī) [ {{ $labels.mountpoint }} ]分區(qū)使用超過(guò)80%."
     value: "{{ $value }}%"
 - alert: HostDiskio writes
   expr: irate(node_disk_writes_completed_total{job=~"Host"}[1m]) > 10
   for: 1m
   labels:
     name: Diskio
     severity: Warning
   annotations:
     summary: " {{ $labels.appname }} "
     description: " 宿主機(jī) [{{ $labels.device }}]磁盤(pán)1分鐘平均寫(xiě)入IO負(fù)載較高."
     value: "{{ $value }}iops"
 - alert: HostDiskio reads
   expr: irate(node_disk_reads_completed_total{job=~"Host"}[1m]) > 10
   for: 1m
   labels:
     name: Diskio
     severity: Warning
   annotations:
     summary: " {{ $labels.appname }} "
     description: " 宿機(jī) [{{ $labels.device }}]磁盤(pán)1分鐘平均讀取IO負(fù)載較高."
     value: "{{ $value }}iops"
 - alert: HostNetwork_receive
   expr: irate(node_network_receive_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*|virbr.*|ovs-system"}[5m]) / 1048576  > 10
   for: 1m
   labels:
     name: Network_receive
     severity: Warning
   annotations:
     summary: " {{ $labels.appname }} "
     description: " 宿主機(jī) [{{ $labels.device }}] 網(wǎng)卡5分鐘平均接收流量超過(guò)10Mbps."
     value: "{{ $value }}3Mbps"
 - alert: hostNetwork_transmit
   expr: irate(node_network_transmit_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*|virbr.*|ovs-system"}[5m]) / 1048576  > 10
   for: 1m
   labels:
     name: Network_transmit
     severity: Warning
   annotations:
     summary: " {{ $labels.appname }} "
     description: " 宿主機(jī) [{{ $labels.device }}] 網(wǎng)卡5分鐘內(nèi)平均發(fā)送流量超過(guò)10Mbps."
     value: "{{ $value }}3Mbps"

編寫(xiě)容器監(jiān)控規(guī)則文件器罐，rules/container_sys.yml

groups:
- name: Container
  rules:
  - alert: ContainerCPU
    expr: (sum by(name,instance) (rate(container_cpu_usage_seconds_total{image!=""}[5m]))*100) > 200
    for: 1m
    labels:
      name: CPU_Usage
      severity: Warning
    annotations:
      summary: "{{ $labels.name }} "
      description: " 容器CPU使用超200%."
      value: "{{ $value }}%"
  - alert: Memory Usage
    expr: (container_memory_usage_bytes{name=~".+"} - container_memory_cache{name=~".+"})  / container_spec_memory_limit_bytes{name=~".+"}   * 100 > 200
    for: 1m
    labels:
      name: Memory
      severity: Warning
    annotations:
      summary: "{{ $labels.name }} "
      description: " 容器內(nèi)存使用超過(guò)200%."
      value: "{{ $value }}%"
  - alert: Network_receive
    expr: irate(container_network_receive_bytes_total{name=~".+",interface=~"eth.+"}[5m]) / 1048576  > 10
    for: 1m
    labels:
      name: Network_receive
      severity: Warning
    annotations:
      summary: "{{ $labels.name }} "
      description: "容器 [{{ $labels.device }}] 網(wǎng)卡5分鐘平均接收流量超過(guò)10Mbps."
      value: "{{ $value }}Mbps"
  - alert: Network_transmit
    expr: irate(container_network_transmit_bytes_total{name=~".+",interface=~"eth.+"}[5m]) / 1048576  > 10
    for: 1m
    labels:
      name: Network_transmit
      severity: Warning
    annotations:
      summary: "{{ $labels.name }} "
      description: "容器 [{{ $labels.device }}] 網(wǎng)卡5分鐘平均發(fā)送流量超過(guò)10Mbps."
      value: "{{ $value }}Mbps"

編寫(xiě)redis監(jiān)控規(guī)則文件梢为，redis_check.yml

groups:
- name: redisdown
  rules:
  - alert: RedisDown
    expr: redis_up == 0
    for: 1m
    labels:
      name: instance
      severity: Critical
    annotations:
      summary: " {{ $labels.alias }}"
      description: " 服務(wù)停止運(yùn)行 "
      value: "{{ $value }}"
  - alert: Redis linked too many clients
    expr: redis_connected_clients / redis_config_maxclients * 100 > 80
    for: 1m
    labels:
      name: instance
      severity: Warning
    annotations:
      summary: " {{ $labels.alias }}"
      description: " Redis連接數(shù)超過(guò)最大連接數(shù)的80%. "
      value: "{{ $value }}"
  - alert: Redis linked
    expr: redis_connected_clients / redis_config_maxclients * 100 > 80
    for: 1m
    labels:
      name: instance
      severity: Warning
    annotations:
      summary: " {{ $labels.alias }}"
      description: " Redis連接數(shù)超過(guò)最大連接數(shù)的80%. "
      value: "{{ $value }}"

編寫(xiě)服務(wù)停止監(jiān)控規(guī)則，rules/service_down.yml

- alert: ProcessDown
    expr: namedprocess_namegroup_num_procs  == 0
    for: 1m
    labels:
      name: instance
      severity: Critical
    annotations:
      summary: " {{ $labels.appname }}"
      description: " 進(jìn)程停止運(yùn)行 "
      value: "{{ $value }}"
  - alert: Grafana down
    expr: absent(container_last_seen{name=~"grafana.+"} ) == 1
    for: 1m
    labels:
      name: grafana
      severity: Critical
    annotations:
      summary: "Grafana"
      description: "Grafana容器停止運(yùn)行"
      value: "{{ $value }}"

編寫(xiě)報(bào)警規(guī)則可以參考后面Grafana展示看板后的數(shù)據(jù)展示語(yǔ)句，需要注意的是铸董，我們?nèi)萜魇褂玫氖桥秩萜鞯姆绞剿钣。串?dāng)作虛擬機(jī)來(lái)使用，所以需要添加應(yīng)用和服務(wù)停止的Exporter粟害，如果你的容器守護(hù)進(jìn)程直接就是應(yīng)用的話蕴忆，只需要監(jiān)控容器的啟停就可以了。

測(cè)試微信報(bào)警

圖片

五悲幅、Grafana展示組件

雖然 Prometheus 提供的 Web UI 也可以很好的查看不同指標(biāo)的視圖套鹅，但是這個(gè)功能非常簡(jiǎn)單，只適合用來(lái)調(diào)試汰具。要實(shí)現(xiàn)一個(gè)強(qiáng)大的監(jiān)控系統(tǒng)卓鹿，還需要一個(gè)能定制展示不同指標(biāo)的面板，能支持不同類型的展現(xiàn)方式（曲線圖留荔、餅狀圖吟孙、熱點(diǎn)圖、TopN 等）聚蝶，這就是儀表盤(pán)（Dashboard）功能杰妓。

Prometheus 開(kāi)發(fā)了一套儀表盤(pán)系統(tǒng)PromDash，不過(guò)很快這套系統(tǒng)就被廢棄了碘勉，官方開(kāi)始推薦使用 Grafana 來(lái)對(duì) Prometheus 的指標(biāo)數(shù)據(jù)進(jìn)行可視化巷挥，這不僅是因?yàn)?Grafana 的功能非常強(qiáng)大，而且它和 Prometheus 可以完美的無(wú)縫融合验靡。

Grafana是一個(gè)用于可視化大型測(cè)量數(shù)據(jù)的開(kāi)源系統(tǒng)倍宾，它的功能非常強(qiáng)大，界面也非常漂亮晴叨，使用它可以創(chuàng)建自定義的控制面板，你可以在面板中配置要顯示的數(shù)據(jù)和顯示方式矾屯，它支持很多不同的數(shù)據(jù)源兼蕊，比如：Graphite、InfluxDB件蚕、OpenTSDB孙技、Elasticsearch、Prometheus 等排作，而且它也支持眾多的插件牵啦。

1. 部署Grafana服務(wù)容器

$ docker run -d -h grafana139-211  -m 8g   --network trust139  --ip=10.2.139.211   --cpus=4 --name=grafana139-211 -e "GF_SERVER_ROOT_URL=http://10.2.139.211"   -e "GF_SECURITY_ADMIN_PASSWORD=passwd"    grafana/grafana

運(yùn)行后訪問(wèn)IP:3000，user:admin pass:passwd

圖片

2. 添加Prometheus數(shù)據(jù)源

圖片

3. 導(dǎo)入監(jiān)控模板

使用編號(hào)導(dǎo)入模板妄痪，Grafana服務(wù)需要聯(lián)網(wǎng)哈雏，否則需要到Grafana模板下載JSON文件導(dǎo)入。

圖片

下面是我使用的幾個(gè)模板，導(dǎo)入后可以根據(jù)自己的情況定義變量值

圖片

主機(jī)監(jiān)控展示看板Node-exporter導(dǎo)入 8919 模板
容器監(jiān)控展示看板cadvisor-exporter導(dǎo)入193 模板
應(yīng)用監(jiān)控展示看板jmx-exporter導(dǎo)入8563 模板
Redis監(jiān)控展示看板Redis-exporter導(dǎo)入2751 模板
進(jìn)程監(jiān)控展示看板Process-exporter導(dǎo)入249 模板

六裳瘪、PromQL語(yǔ)句

七土浸、使用Concul HTTP注冊(cè)方式實(shí)現(xiàn)服務(wù)發(fā)現(xiàn)

一般是用服務(wù)發(fā)現(xiàn)需要應(yīng)用需要服務(wù)注冊(cè)，我們這邊因?yàn)槲⒎?wù)改造還沒(méi)完成彭羹，還有一些tomcat和weblogic中間件黄伊，而且選用的注冊(cè)中心是Eurka，所以為了在代碼不改動(dòng)的情況下使用服務(wù)發(fā)現(xiàn)派殷，選擇了concul 作為注冊(cè)中心还最，因?yàn)槭莄onsul是可以通過(guò)http方式注冊(cè)的。

1. consul 內(nèi)部原理

圖片

Consul分為Client和Server兩種節(jié)點(diǎn)（所有的節(jié)點(diǎn)也被稱為Agent）毡惜，Server節(jié)點(diǎn)保存數(shù)據(jù)拓轻，Client負(fù)責(zé)健康檢查及轉(zhuǎn)發(fā)數(shù)據(jù)請(qǐng)求到Server；Server節(jié)點(diǎn)有一個(gè)Leader和多個(gè)Follower虱黄，Leader節(jié)點(diǎn)會(huì)將數(shù)據(jù)同步到Follower悦即，Server的數(shù)量推薦是3個(gè)或者5個(gè)，在Leader掛掉的時(shí)候會(huì)啟動(dòng)選舉機(jī)制產(chǎn)生一個(gè)新的Leader橱乱。

集群內(nèi)的Consul節(jié)點(diǎn)通過(guò)gossip協(xié)議（流言協(xié)議）維護(hù)成員關(guān)系辜梳，也就是說(shuō)某個(gè)節(jié)點(diǎn)了解集群內(nèi)現(xiàn)在還有哪些節(jié)點(diǎn)，這些節(jié)點(diǎn)是Client還是Server泳叠。單個(gè)數(shù)據(jù)中心的流言協(xié)議同時(shí)使用TCP和UDP通信作瞄，并且都使用8301端口∥Ｈ遥跨數(shù)據(jù)中心的流言協(xié)議也同時(shí)使用TCP和UDP通信宗挥，端口使用8302。

集群內(nèi)數(shù)據(jù)的讀寫(xiě)請(qǐng)求既可以直接發(fā)到Server种蝶，也可以通過(guò)Client使用RPC轉(zhuǎn)發(fā)到Server契耿，請(qǐng)求最終會(huì)到達(dá)Leader節(jié)點(diǎn)，在允許數(shù)據(jù)輕微陳舊的情況下螃征，讀請(qǐng)求也可以在普通的Server節(jié)點(diǎn)完成搪桂，集群內(nèi)數(shù)據(jù)的讀寫(xiě)和復(fù)制都是通過(guò)TCP的8300端口完成。

具體consul的原理及架構(gòu)請(qǐng)?jiān)L問(wèn)：http://blog.didispace.com/consul-service-discovery-exp/

2. 使用docker部署consul 集群

#啟動(dòng)第1個(gè)Server節(jié)點(diǎn)盯滚，集群要求要有3個(gè)Server踢械，將容器8500端口映射到主機(jī)8900端口，同時(shí)開(kāi)啟管理界面
docker run -d --name=consul1 -p 8900:8500 -e CONSUL_BIND_INTERFACE=eth0 consul agent --server=true --bootstrap-expect=3 --client=0.0.0.0 -ui
 
#啟動(dòng)第2個(gè)Server節(jié)點(diǎn)魄藕，并加入集群
docker run -d --name=consul2 -e CONSUL_BIND_INTERFACE=eth0 consul agent --server=true --client=0.0.0.0 --join 172.17.0.1
 
#啟動(dòng)第3個(gè)Server節(jié)點(diǎn)内列，并加入集群
docker run -d --name=consul3 -e CONSUL_BIND_INTERFACE=eth0 consul agent --server=true --client=0.0.0.0 --join 172.17.0.2
 
#啟動(dòng)第4個(gè)Client節(jié)點(diǎn)，并加入集群
docker run -d --name=consul4 -e CONSUL_BIND_INTERFACE=eth0 consul agent --server=false --client=0.0.0.0 --join 172.17.0.2

瀏覽器訪問(wèn)容器映射的8900端口：

圖片

3. 服務(wù)注冊(cè)到Consul

使用HTTP API 方式注冊(cè)node-exporter服務(wù)到Consul

curl -X PUT -d '{"id": "192.168.16.173","name": "node-exporter","address": "192.168.16.173","port": ''9100,"tags": ["DEV"], "checks": [{"http": "http://192.168.16.173:9100/","interval": "5s"}]}'     http://172.17.0.4:8500/v1/agent/service/register

解注冊(cè)：

curl --request PUT http://172.17.0.4:8500/v1/agent/service/deregister/192.168.166.14

注冊(cè)多個(gè)服務(wù)到consul背率，使用腳本：

#!/bin/bash 
all_IP=`cat  /opt/ip`
name=cadvisor
port=9100
for  I  in $all_IP
do
        curl -X PUT -d '{"id": "'$I'","name": "'$name'","address": "'$I'","port": '$port',"tags": ["cadvisor"], "checks": [{"http": "http://'$I':'$port'/","interval": "5s"}]}'     http://172.17.0.4:8500/v1/agent/service/register
done

圖片

4. Prometheus 配置consul 服務(wù)發(fā)現(xiàn)

consul 可以使用的元標(biāo)簽：

__meta_consul_address：目標(biāo)的地址
__meta_consul_dc：目標(biāo)的數(shù)據(jù)中心名稱
__meta_consul_tagged_address_<key>：每個(gè)節(jié)點(diǎn)標(biāo)記目標(biāo)的地址鍵值
__meta_consul_metadata_<key>：目標(biāo)的每個(gè)節(jié)點(diǎn)元數(shù)據(jù)鍵值
__meta_consul_node：為目標(biāo)定義的節(jié)點(diǎn)名稱
__meta_consul_service_address：目標(biāo)的服務(wù)地址
__meta_consul_service_id：目標(biāo)的服務(wù)ID
__meta_consul_service_metadata_<key>：目標(biāo)的每個(gè)服務(wù)元數(shù)據(jù)鍵值
__meta_consul_service_port：目標(biāo)的服務(wù)端口
__meta_consul_service：目標(biāo)所屬服務(wù)的名稱
__meta_consul_tags：標(biāo)記分隔符連接的目標(biāo)的標(biāo)記列表

修改Prometheus.yml 文件话瞧，使用relabel將consul的元標(biāo)簽重寫(xiě)便于查看

- job_name: 'consul'
    consul_sd_configs:
      - server: '192.168.16.173:8900'
        services: []  #匹配所有service
    relabel_configs:
      - source_labels: [__meta_consul_service] #service 源標(biāo)簽
        regex: "consul"  #匹配為"consul" 的service
        action: drop       # 執(zhí)行的動(dòng)作
      - source_labels: [__meta_consul_service]  # 將service 的label重寫(xiě)為appname
        target_label: appname
      - source_labels: [__meta_consul_service_address]
        target_label: instance
      - source_labels: [__meta_consul_tags]
        target_label:  job

Prometheus 熱加載更新

curl -X POST http://192.168.16.173:9090/-/reload

訪問(wèn)Prometheus web頁(yè)面

圖片

應(yīng)用注冊(cè)到consul

在不需要開(kāi)發(fā)修改代碼的前提下嫩与，我們可以使用Prometheus的jmx-exporter收集應(yīng)用的相關(guān)指標(biāo)，在應(yīng)用中間件tomcat/weblogic等調(diào)用jmx-exporter移稳，具體方式查看http://www.reibang.com/p/dfd6ba5206dc

啟動(dòng)應(yīng)用后會(huì)啟動(dòng)12345端口暴露jvm數(shù)據(jù)蕴纳，現(xiàn)在我們要做的就是將這個(gè)端口注冊(cè)到Consul上，然后Prometheus會(huì)從consul 拉取應(yīng)用主機(jī)个粱。

使用腳本實(shí)現(xiàn)

 $ cat     ip
TEST        192.168.166.10      192.168.166.11
UNMIN       192.168.166.12      192.168.166.13
---------------
       
$ cat consul.sh
#!/bin/bash
port=12345
while read app
do
    echo ${app}
    app_tmp=(${app})
    echo ${app_tmp[0]}
    length=${#app_tmp[@]}
    echo ${length}
    for((k=1;k<${length};k++));
    do
        echo ${app_tmp[k]}
    curl -X PUT -d '{"id": "'${app_tmp[k]}'","name": "'${app_tmp[0]}'","address": "'${app_tmp[k]}'","port": '$port',"tags": ["MIDL"],"checks": [{"http": "http://'${app_tmp[k]}':'$port'/","interval": "5s"}]}'     http://172.17.0.4:8500/v1/agent/service/register        
        done

done < ip

執(zhí)行腳本注冊(cè)到consul

圖片

配置Grafana JVM 監(jiān)控模板

Load 8563模板

圖片

八古毛、參考

（1）Docker環(huán)境部署Prometheus+Grafana監(jiān)控系統(tǒng)
http://www.reibang.com/p/dde0dc1761ec

（2）Docker部署Prometheus監(jiān)控實(shí)踐
http://www.unmin.club/prometheus-book/

（3）Docker部署Prometheus實(shí)現(xiàn)微信郵件報(bào)警
http://www.reibang.com/p/dfd6ba5206dc

（4）Prometheus官網(wǎng)
https://prometheus.io/docs/introduction/overview/

（5）QUERYING PROMETHEUS語(yǔ)法
https://prometheus.io/docs/prometheus/latest/querying/basics/

最后編輯于：2021.03.27 13:18:59

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市都许，隨后出現(xiàn)的幾起案子稻薇，更是在濱河造成了極大的恐慌，老刑警劉巖胶征，帶你破解...
沈念sama閱讀 218,858評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件塞椎，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡睛低，警方通過(guò)查閱死者的電腦和手機(jī)案狠，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)钱雷，“玉大人骂铁，你說(shuō)我怎么就攤上這事≌挚梗” “怎么了拉庵？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,282評(píng)論 0贊 356
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)套蒂。經(jīng)常有香客問(wèn)我钞支，道長(zhǎng)，這世上最難降的妖魔是什么操刀？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,842評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任烁挟，我火速辦了婚禮，結(jié)果婚禮上骨坑，老公的妹妹穿的比我還像新娘撼嗓。我一直安慰自己，他們只是感情好卡啰，可當(dāng)我...
茶點(diǎn)故事閱讀 67,857評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布静稻。她就那樣靜靜地躺著警没，像睡著了一般匈辱。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上杀迹，一...
開(kāi)封第一講書(shū)人閱讀 51,679評(píng)論 1贊 305
城市分裂傳說(shuō)
那天亡脸，我揣著相機(jī)與錄音，去河邊找鬼。笑死浅碾，一個(gè)胖子當(dāng)著我的面吹牛大州，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播垂谢，決...
沈念sama閱讀 40,406評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼厦画，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了滥朱？” 一聲冷哼從身側(cè)響起根暑，我...
開(kāi)封第一講書(shū)人閱讀 39,311評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎徙邻，沒(méi)想到半個(gè)月后排嫌，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,767評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡缰犁，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,945評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年淳地，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片帅容。...
茶點(diǎn)故事閱讀 40,090評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡颇象，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出丰嘉，到底是詐尸還是另有隱情夯到，我是刑警寧澤，帶...
沈念sama閱讀 35,785評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布饮亏，位于F島的核電站耍贾，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏路幸。R本人自食惡果不足惜荐开，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,420評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望简肴。院中可真熱鬧晃听，春花似錦、人聲如沸砰识。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,988評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)辫狼。三九已至初斑，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間膨处，已是汗流浹背见秤。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,101評(píng)論 1贊 271
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工砂竖，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人鹃答。一個(gè)月前我還...
沈念sama閱讀 48,298評(píng)論 3贊 372
代替公主和親
正文我出身青樓乎澄，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親测摔。傳聞我的和親對(duì)象是個(gè)殘疾皇子置济，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,033評(píng)論 2贊 355