一、概述
本文從實戰(zhàn)的角度,復(fù)盤故障并開始云平臺穩(wěn)定性建設(shè)。
二悠瞬、k8s控制面穩(wěn)定性建設(shè)
1.穩(wěn)定性改進措施
從監(jiān)控告警體系、部署架構(gòu)和業(yè)務(wù)整改等三個維度進行k8s控制面穩(wěn)定性建設(shè):
k8s控制面穩(wěn)定性建設(shè)
2.apiserver穩(wěn)定性建設(shè)
apiserver穩(wěn)定性建設(shè)
3.etcd穩(wěn)定性建設(shè)
etcd穩(wěn)定性建設(shè)
4.kube-controller-manager穩(wěn)定性建設(shè)
controller穩(wěn)定性建設(shè)
三涯捻、宿主機巡檢
1.宿主機故障
- 硬件故障(cpu/內(nèi)存/磁盤/網(wǎng)絡(luò)......)
- 組件故障(docker/calico/kubelet......)
2.熱點宿主機
- cpu
-
load
浴盆曲線
2.監(jiān)控告警維護
從故障發(fā)現(xiàn)浅妆、故障上報、故障自愈障癌、故障自動化處理凌外、故障手動處理等步驟逐級上升處理:
- 檢測kubelet是否存活
- 檢測dockerd是否存活
- 檢測calico agent是否存活
- 檢測容器占用磁盤>90%
- 檢測可用內(nèi)存<20%
- 檢測load > 60
- 分析dmesg和kmesg日志,提前發(fā)現(xiàn)硬件故障
3.熱點宿主機治理
- 調(diào)度策略
集中調(diào)度混弥,減少資源碎片
基于真實負(fù)載進行調(diào)度 - 重調(diào)度
cpu
load - 監(jiān)控告警
人工審計
一鍵打散
4.異常pod巡檢
- 基于kube-state-metrics
- 基于namespace維度監(jiān)控告警
Pending
Terminating
ImageError
四趴乡、網(wǎng)絡(luò)可觀測性建設(shè)
1.監(jiān)控維度
監(jiān)控維度
2.宿主機網(wǎng)絡(luò)精細(xì)化監(jiān)控
宿主機網(wǎng)絡(luò)精細(xì)化監(jiān)控
3.同宿主機實例聚合監(jiān)控
同宿主機實例聚合監(jiān)控
五对省、鏡像管理
1.現(xiàn)狀
現(xiàn)狀
2.ceph性能提升
ceph性能提升
3.鏡像分層
鏡像分層