1. 故事背景
客戶服務(wù)器運(yùn)行了有2年左右了,突然有一點(diǎn)硬盤滿了,導(dǎo)致了服務(wù)權(quán)限崩潰(這臺(tái)服務(wù)器又剛剛好沒有做空間檢測(cè)報(bào)警)。
登錄后违帆,我快速清理了幾個(gè)大的 log 文件,然后重啟服務(wù)后開始排查問題金蜀。
# 查看硬盤
$ df -lh
2. 如何排查
2.1 Log目錄空間檢測(cè)
首先想到的是服務(wù)的 log 文件積累過多刷后,但是服務(wù)器是有做日志自動(dòng)清理的,所以最終清理下來沒有釋放多少空間渊抄。
# 查看 log 專屬目錄的空間占用
$ du -h --max-depth=2 /data/docker/log
2.2 Docker 容器空間占用
我們的服務(wù)都是基于 docker 構(gòu)建與運(yùn)行的尝胆,上面 /data/docker/log 存放的都是 docker container 映射到 host 主機(jī)的 log 文件。經(jīng)過檢測(cè)是大小正常的护桦,占用不大含衔。
那么還有另外一種可能就是 docker container 里沒有映射到主機(jī)的,一般的 docker ps 指令都是沒有相關(guān)的空間信息,需要通過以下指令進(jìn)一步分析:
# 查看 Docker 的磁盤使用情況抱慌。(鏡像逊桦、容器)
$ docker system df
>
TYPE TOTAL ACTIVE SIZE RECLAIMABLE
Images 19 19 8.844GB 4.094GB (46%)
Containers 28 24 1.572GB 19.8MB (1%)
Local Volumes 2 2 298.2MB 0B (0%)
Build Cache 0 0 0B 0B
# 查看每個(gè) container 容器的占用磁盤空間
$ docker system df -v
# docker 基本信息(包含一些空間使用)
$ docker info
簡(jiǎn)單無用信息清理
查看后眨猎,我使用以下指令進(jìn)行初步的無用信息清理抑进。最終發(fā)現(xiàn)這部分資源占用實(shí)際也不到。
# 用于清理磁盤睡陪,刪除關(guān)閉的容器寺渗、無用的數(shù)據(jù)卷和網(wǎng)絡(luò),以及 dangling 鏡像(即無 tag 的鏡像)
docker system prune
# 清理得更加徹底兰迫,可以將沒有容器使用 Docker 鏡像都刪掉信殊。
$ docker system prune -a
針對(duì)性 docker container 分析
# 可以查看到 container 所在的目錄(關(guān)鍵的是 LogPath)
$ docker inspect [你的container]
>
"HostsPath": "/data/lib/docker/containers/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7/hosts",
"LogPath": "/data/lib/docker/containers/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7/7775513b1f06c08bc4be422dc7b399fc917da32ed7cd1aab8fca299fb15128b7-json.log",
# 【重點(diǎn)】查看整個(gè) docker containers 的大小
$ du -h --max-depth=0 /data/lib/docker/containers
# 找出各個(gè) docker container 的空間占用大小
$ du -h --max-depth=1 /data/lib/docker/containers
果然是存在 docker container 空間占用過大的,接下來我們就要清理一下該 container 的日志
# 查看容器名字
docker inspect [容器ID]|grep Name
# 查看容器的日志路徑(就是剛說到的 LogPath汁果,實(shí)際也就是 container_id/container_id.json)
$ docker inspect [占用空間大的 Container ID]|grep "LogPath"
# 或者
$ docker inspect --format='{{.LogPath}}' [容器ID]
# 清理log文件 (一般需要先進(jìn)入到 su root)
$ > [要清空的文件路徑]
# 或者
$ sudo echo -n "" [要清空的文件路徑]
3. 運(yùn)維配置
Docker在不重建容器的情況下涡拘,日志文件默認(rèn)會(huì)一直追加,時(shí)間一長(zhǎng)會(huì)逐漸占滿服務(wù)器的硬盤的空間据德,內(nèi)存消耗也會(huì)一直增加鳄乏。
docker logs -f [容器ID] --tail=100 看到的標(biāo)準(zhǔn)輸出(console.log/puts/print)都會(huì)一直累計(jì)到 json.log,如果容器不銷毀棘利,就會(huì)越來越大橱野。
限制單個(gè) container 的容量大小
避免某個(gè) container 導(dǎo)致整服務(wù)崩潰。
啟動(dòng)容器時(shí)善玫,我們可以通過參數(shù)來控制日志的文件個(gè)數(shù)和單個(gè)文件的大小
# max-size 最大數(shù)值水援。容器的單個(gè)日志文件大小
# max-file 最大日志數(shù)。容器的日志文件數(shù)量茅郎,當(dāng)單個(gè)文件大小達(dá)到 max-size 時(shí)自動(dòng)切割: id-json.log蜗元、id-json.log.1、id-json.log.2...
$ docker run -it --log-opt max-size=100m --log-opt max-file=3 [container name]
測(cè)試
# rails c
> (0..10000).each{Logger.new('/proc/1/fd/1').warn("輸出到 docker logs")}
全局配置
// /etc/docker/daemon.json
{
"log-driver":"json-file",
"log-opts":{
"max-size" :"50m","max-file":"1"
}
}
// 重啟服務(wù)
$ sudo systemctl daemon-reload
$ sudo systemctl restart docker