指標(biāo)的特性
標(biāo)準(zhǔn)化 可量化 多維度
指標(biāo)監(jiān)控的報(bào)警鏈路
常用的指標(biāo)項(xiàng)
- 可用性
- 流量
- cpu 內(nèi)存 checkpoint connector等
自定義指標(biāo) - 緩沖命中
- 外部接口的調(diào)用
- 丟棄數(shù)據(jù)的比例(異常處理一般都catch了 不然拋出異常任務(wù)將一直重啟)
- 處理邏輯耗時(shí)
如何確定關(guān)注的指標(biāo)項(xiàng)
作業(yè)相關(guān) a. 是否可用 b 是否穩(wěn)定 c 是否異常
性能相關(guān) a 是否延遲 b 數(shù)據(jù)傾斜 d性能瓶頸
業(yè)務(wù)邏輯相關(guān) a 上游數(shù)據(jù)問題 b 新上邏輯問題 c數(shù)據(jù)丟失
聚合的維度信息
task
operator
job
host 物理指標(biāo)項(xiàng)
聚合的指標(biāo)項(xiàng)
總和 均值 最大 最小
差值
99線
指標(biāo)缺失
實(shí)際類型排查
任務(wù)延時(shí): 處理方式: 通過反壓找到節(jié)點(diǎn)的問題 是否是GC等,查看堆棧信息截粗,查看日志 調(diào)整方式: 增加反壓節(jié)點(diǎn)的并發(fā)鸵隧,調(diào)整每個(gè)taskmanager的cpu于內(nèi)存,拆開flink的slot共享鏈chain
作業(yè)failover 1. jobmanager 的failover(zk訪問超時(shí)珊蟀,資源的問題) 2. taskmanager的failover
作業(yè)無法提交 yarn的資源限制 jar包過大 jobmanager資源不足
作業(yè)異常停止 --- 無指標(biāo)采集上來 重啟側(cè)率問題 重啟次數(shù)達(dá)到上限
總結(jié): 排查問題的方法論: 查看日志外驱,查看指標(biāo)項(xiàng) --》 查看反壓 ---》 定位到節(jié)點(diǎn)-----》 定位到位置 -----》 調(diào)整代碼邏輯或者是溝通
-------有時(shí)候還得 多加一些理性的猜測(cè)
排查問題
通過指標(biāo)由粗到細(xì)的進(jìn)行排查