概述
性能監(jiān)控是容器服務(wù)必不可少的基礎(chǔ)設(shè)施,容器化應(yīng)用運(yùn)行于宿主機(jī)上试吁,我們需要知道該容器的運(yùn)行情況磷支,包括 CPU使用率谒撼、內(nèi)存占用、網(wǎng)絡(luò)狀況以及磁盤(pán)空間等等一系列信息雾狈。在我的前文《Docker容器可視化監(jiān)控中心搭建》之中我們就實(shí)踐過(guò)Docker容器的可視化監(jiān)控廓潜,在那篇文章中我們是使用了 cAdvisor + influxdb + grafana 技術(shù)棧來(lái)完成的。然而容器化世界里向來(lái)不會(huì)只有一種方法來(lái)實(shí)現(xiàn)某項(xiàng)功能善榛,可以說(shuō)有一百條大路來(lái)通到羅馬辩蛋,因此本文再來(lái)探討另一種稱(chēng)為 TICK 的技術(shù)棧方案來(lái)實(shí)現(xiàn)Docker容器的性能監(jiān)控。
注: 本文原載于 My Personal Blog:移盆, CodeSheep · 程序羊 悼院!
TICK架構(gòu)解析
基于TICK技術(shù)棧實(shí)現(xiàn)的Docker容器可視化監(jiān)控方案架構(gòu)圖如下所示:
Telegraf:采用插件機(jī)制實(shí)現(xiàn)的數(shù)據(jù)采集服務(wù),可以采集包含Docker容器在內(nèi)的多種性能數(shù)據(jù)
InfluxDB:專(zhuān)門(mén)負(fù)責(zé)存儲(chǔ)時(shí)序數(shù)據(jù)
Chronograf:基于React.js編寫(xiě)的性能數(shù)據(jù)可視化服務(wù)
Kapacitor:提供告警觸發(fā)和處理功能
這四個(gè)組件組成了性能監(jiān)控的數(shù)據(jù)管道:Telegraf負(fù)責(zé)采集節(jié)點(diǎn)上的性能數(shù)據(jù)咒循,然后放入InfluxDB數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)据途,Kapacitor通過(guò)監(jiān)聽(tīng)I(yíng)nfluxDB的性能數(shù)據(jù)來(lái)對(duì)異常指標(biāo)發(fā)出告警,而Chronograf用來(lái)展示集群實(shí)時(shí)的各項(xiàng)性能指標(biāo)和狀態(tài)叙甸,提供一個(gè)可視化的界面颖医。
下面開(kāi)始實(shí)踐的過(guò)程!
部署InfluxDB服務(wù)
首先準(zhǔn)備好 InfluxDB 配置文件:influxdb.conf
mkdir /etc/influxdb
cd /etc/influxdb
touch influxdb.conf
[meta]
dir = "/var/lib/influxdb/meta"
[data]
dir = "/var/lib/influxdb/data"
wal-dir = "/var/lib/influxdb/wal"
然后利用Docker來(lái)啟動(dòng)InfluxDB服務(wù):
docker run -d \
--name influxdb \
-p 8086:8086 \
-v /etc/influxdb/influxdb.conf:/etc/influxdb/influxdb.conf \
-v /var/lib/influxdb:/var/lib/influxdb \
docker.io/influxdb
部署Telegraf服務(wù)
Telegraf服務(wù)需要部署在需要采集數(shù)據(jù)的節(jié)點(diǎn)上裆蒸。我們首先來(lái)準(zhǔn)備Telegraf服務(wù)的配置文件telegraf.conf
[agent]
interval = "10s"
round_interval = true
metric_batch_size = 1000
metric_buffer_limit = 10000
collection_jitter = "0s"
flush_interval = "10s"
flush_jitter = "0s"
debug = false
quiet = false
hostname = "www.codesheep.cn"
omit_hostname = false
[[outputs.influxdb]]
urls = ["http://192.168.31.177:8086"]
database = "telegraf"
username = ""
password = ""
write_consistency = "any"
timeout = "5s"
[[inputs.docker]]
endpoint = "unix:///var/run/docker.sock"
container_names = []
timeout = "5s"
perdevice = true
total = false
[[inputs.cpu]]
[[inputs.system]]
該配置文件比較簡(jiǎn)化熔萧,inputs插件是負(fù)責(zé)數(shù)據(jù)采集,可以看出來(lái)上面的配置說(shuō)明了我們想采集節(jié)點(diǎn)的CPU、System以及Docker容器的各項(xiàng)性能數(shù)據(jù)佛致;而outputs插件指明了我們將采集到的性能數(shù)據(jù)放入InfluxDB數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)遂赠。
然后同樣利用Docker來(lái)啟動(dòng)Telegraf服務(wù)
docker run -d \
--name telegraf \
--network host \
-v /etc/telegraf/telegraf.conf:/etc/telegraf/telegraf.conf \
docker.io/telegraf
Chronograf部署
docker run -d \
--name chronograf \
-p 8888:8888 \
-v /var/lib/chronograf:/var/lib/chronograf \
docker.io/chronograf \
--influxdb-url=http://192.168.31.177:8086
注意從上面的指令我們可以看出,Chronograf服務(wù)是需要連接到InfluxDB服務(wù)中去的晌杰,服務(wù)啟動(dòng)以后利用瀏覽器訪(fǎng)問(wèn)8888端口可以打開(kāi)Chronograf的可視化監(jiān)控界面
Kapacitor部署
docker run -d \
--name kapacitor \
-p 9092:9092 \
-v /var/lib/kapacitor:/var/lib/kapacitor \
docker.io/kapacitor
好了跷睦,至此 TICK 組件已經(jīng)部署完成,我們可以查看一下宿主機(jī)上的容器情況肋演,發(fā)現(xiàn)服務(wù)都已經(jīng)啟動(dòng)起來(lái)了:
實(shí)際試驗(yàn)
瀏覽器打開(kāi):localhost:8888
來(lái)訪(fǎng)問(wèn) Chronograf 提供的可視化界面抑诸,后續(xù)所有的操作都基于該界面。
- 點(diǎn)擊 Chronograf 主界面左側(cè)菜單的 Host List爹殊,可以看到被監(jiān)控的節(jié)點(diǎn)信息:
然后我們點(diǎn)擊節(jié)點(diǎn)名進(jìn)入后蜕乡,就可以查看從該節(jié)點(diǎn)上采集到的各項(xiàng)主要指標(biāo)數(shù)據(jù)的圖表:
除此之外,我們還可以點(diǎn)擊節(jié)點(diǎn)上的 Apps 具體監(jiān)控小類(lèi)梗夸,如 docker
類(lèi)別层玲,這樣可以得到僅僅與docker相關(guān)的性能數(shù)據(jù)展示:
- 然后我們點(diǎn)擊 Chronograf 主界面左側(cè)菜單的 Data Explorer,可以看到從InfluxDB那里獲得的數(shù)據(jù)表反症,以及存儲(chǔ)于InfluxDB數(shù)據(jù)表中的各項(xiàng)具體指標(biāo)
- 最后我們來(lái)看一下如何利用Kapacitor來(lái)實(shí)現(xiàn)告警功能辛块。
點(diǎn)擊 Chronograf 主界面左側(cè)菜單的 Alert,可以自定義創(chuàng)建告警規(guī)則:
這里給出一個(gè)規(guī)則配置示例:我們可以監(jiān)控某個(gè)具體性能指標(biāo)的變化铅碍,如配置一個(gè)告警規(guī)則等:
后記
由于能力有限润绵,若有錯(cuò)誤或者不當(dāng)之處,還請(qǐng)大家批評(píng)指正胞谈,一起學(xué)習(xí)交流尘盼!