健康檢查
健康檢查(Health Check)可用于服務(wù)運(yùn)行的狀態(tài)監(jiān)控棺牧,比如騰訊旗下的DNSPOD的D監(jiān)控总寻,要求配置一個(gè)訪問(wèn)路徑以判斷網(wǎng)站是否可以正常訪問(wèn)實(shí)際上就是一個(gè)健康檢查纸厉,當(dāng)發(fā)現(xiàn)健康檢查失敗時(shí)會(huì)發(fā)送一個(gè)郵件通知或者短信來(lái)告知網(wǎng)站管理員進(jìn)行維修锐帜。
而在現(xiàn)代一些分布式系統(tǒng)中祭示,用戶訪問(wèn)不再是單臺(tái)主機(jī),而是一個(gè)由成百上千臺(tái)實(shí)例組成的集群辟拷,用戶請(qǐng)求通過(guò)負(fù)載均衡器分發(fā)到不同的實(shí)例,負(fù)載均衡幫助解決單臺(tái)服務(wù)器的訪問(wèn)壓力阐斜,同時(shí)提高了系統(tǒng)的高可用性衫冻,而健康檢查常常作為當(dāng)前實(shí)例是否“可用”的判斷標(biāo)準(zhǔn)。即:當(dāng)系統(tǒng)發(fā)現(xiàn)某臺(tái)實(shí)例健康檢查不通過(guò)谒出,負(fù)載均衡器將不會(huì)把流量導(dǎo)向該實(shí)例隅俘。
現(xiàn)在的云服務(wù)廠商比如AWS一般都為負(fù)載均衡配備了健康檢查,而Kubernetes提供了兩種探針來(lái)檢查容器的狀態(tài)笤喳,Liveliness和Readiness为居,根據(jù)官方文檔,Liveliness探針是為了查看容器是否正在運(yùn)行杀狡,翻譯為存活探針(livenessProbe)蒙畴,Readiness探針是為了查看容器是否準(zhǔn)備好接受HTTP請(qǐng)求,翻譯為就緒探針(readinessProbe)呜象。
在Kubernetes中膳凝,Pod是Kubernetes創(chuàng)建及管理的最小的可部署的計(jì)算單元八孝,一個(gè)Pod由一個(gè)或者多個(gè)容器(Docker,rocket等等)組成鸠项,這些容器共享內(nèi)存干跛,網(wǎng)絡(luò)以及運(yùn)行容器的方式。
在Kubernetes上下文中存活探針和就緒探針被稱作健康檢查祟绊。這些容器探針是一些周期性運(yùn)行的小進(jìn)程楼入,這些探針?lè)祷氐慕Y(jié)果(成功,失敗或者未知)反映了容器在Kubernetes的狀態(tài)牧抽〖涡埽基于這些結(jié)果,Kubernetes會(huì)判斷如何處理每個(gè)容器扬舒,以保證彈性阐肤,高可用性和更長(zhǎng)的正常運(yùn)行時(shí)間。
就緒探針
就緒探針旨在讓Kubernetes知道你的應(yīng)用是否準(zhǔn)備好為請(qǐng)求提供服務(wù)讲坎。Kubernetes只有在就緒探針通過(guò)才會(huì)把流量轉(zhuǎn)發(fā)到Pod孕惜。如果就緒探針檢測(cè)失敗,Kubernetes將停止向該容器發(fā)送流量晨炕,直到它通過(guò)衫画。
存活探針
Liveness探測(cè)器是讓Kubernetes知道你的應(yīng)用是否活著。如果你的應(yīng)用還活著瓮栗,那么Kubernetes就讓它繼續(xù)存在削罩。如果你的應(yīng)用程序已經(jīng)死了,Kubernetes將移除Pod并重新啟動(dòng)一個(gè)來(lái)替換它费奸。
工作過(guò)程
讓我們看看兩個(gè)場(chǎng)景弥激,來(lái)看看就緒探針和存活探針怎樣幫助我們構(gòu)建更高可用的的系統(tǒng)。
就緒探針
一個(gè)應(yīng)用往往需要一段時(shí)間來(lái)預(yù)熱和啟動(dòng)愿阐,比如一個(gè)后端項(xiàng)目的啟動(dòng)需要連接數(shù)據(jù)庫(kù)執(zhí)行數(shù)據(jù)庫(kù)遷移等等微服,一個(gè)Spring項(xiàng)目的啟動(dòng)也需要依賴Java虛擬機(jī)。即使該過(guò)程已啟動(dòng)换况,您的服務(wù)在啟動(dòng)并運(yùn)行之前也無(wú)法運(yùn)行职辨。應(yīng)用在完全就緒之前不應(yīng)接收流量,但默認(rèn)情況下戈二,Kubernetes會(huì)在容器內(nèi)的進(jìn)程啟動(dòng)后立即開始發(fā)送流量舒裤。通過(guò)就緒探針探測(cè),直到應(yīng)用程序完全啟動(dòng)觉吭,然后才允許將流量發(fā)送到新副本腾供。
存活探針
讓我們想象另一種情況,當(dāng)我們的應(yīng)用在成功啟動(dòng)以后因?yàn)橐恍┰颉板礄C(jī)”,或者遇到死鎖情況伴鳖,導(dǎo)致它無(wú)法響應(yīng)用戶請(qǐng)求节值。
在默認(rèn)情況下,Kubernetes會(huì)繼續(xù)向Pod發(fā)送請(qǐng)求榜聂,通過(guò)使用存活探針來(lái)檢測(cè)搞疗,當(dāng)發(fā)現(xiàn)服務(wù)不能在限定時(shí)間內(nèi)處理請(qǐng)求(請(qǐng)求錯(cuò)誤或者超時(shí)),就會(huì)重新啟動(dòng)有問(wèn)題的pod须肆。
探針類型
探針類型是指通過(guò)何種方式來(lái)進(jìn)行健康檢查匿乃,K8S有三種類型的探測(cè):HTTP,Command和TCP豌汇。
HTTP
HTTP探測(cè)可能是最常見的探針類型幢炸。即使應(yīng)用不是HTTP服務(wù),也可以創(chuàng)建一個(gè)輕量級(jí)HTTP服務(wù)器來(lái)響應(yīng)探測(cè)拒贱。比如讓Kubernetes通過(guò)HTTP訪問(wèn)一個(gè)URL宛徊,如果返回碼在200到300范圍內(nèi),就將應(yīng)用程序標(biāo)記為健康狀態(tài)逻澳,否則它被標(biāo)記為不健康闸天。
更多關(guān)于HTTP探測(cè)可參考這里。
命令
對(duì)于命令探測(cè)赡盘,是指Kubernetes在容器內(nèi)運(yùn)行命令号枕。如果命令以退出代碼0返回缰揪,則容器將標(biāo)記為正常陨享。否則,它被標(biāo)記為不健康钝腺。
更多關(guān)于命令探測(cè)可參考這里抛姑。
TCP
最后一種類型的探測(cè)是TCP探測(cè),Kubernetes嘗試在指定端口上建立TCP連接艳狐。如果它可以建立連接定硝,容器被認(rèn)為是健康的; 如果它不能被認(rèn)為是不健康的。這常用于對(duì)gRPC或FTP服務(wù)的探測(cè)毫目。
更多關(guān)于TCP探測(cè)可參考這里蔬啡。
初始探測(cè)延遲
我們可以配置K8S健康檢查運(yùn)行的頻率,檢查成功或失敗的條件镀虐,以及響應(yīng)的超時(shí)時(shí)間箱蟆。可參考有關(guān)配置探針的文檔刮便。
存活探針探測(cè)失敗會(huì)導(dǎo)致pod重新啟動(dòng)空猜,所以配置初始探測(cè)延遲initialDelaySeconds
十分重要,要確保在應(yīng)用準(zhǔn)備之后探針才啟動(dòng)。否則辈毯,應(yīng)用將無(wú)限重啟坝疼!
我建議使用p99啟動(dòng)時(shí)間作為initialDelaySeconds,或者取平均啟動(dòng)時(shí)間外加一個(gè)buffer谆沃。同時(shí)根據(jù)應(yīng)用程序的啟動(dòng)時(shí)間更新這個(gè)值钝凶。
舉例
以下面的一個(gè)K8S的配置代碼為例,
- K8S將在Pod開始啟動(dòng)后120s(initialDelaySeconds)后利用HTTP訪問(wèn)8080端口的
/actuator/health
唁影,如果超過(guò)10s或者返回碼不在200~300內(nèi)腿椎,就緒檢查就失敗 - 類似的,在Pod運(yùn)行過(guò)程中夭咬,K8S仍然會(huì)每隔5s(periodSeconds檢測(cè)8080端口的
/actuator/health
apiVersion: apps/v1beta1
kind: Deployment
...
...
readinessProbe:
httpGet:
path: /actuator/health
port: 8080
initialDelaySeconds: 120
timeoutSeconds: 10
livenessProbe:
httpGet:
path: /actuator/health
port: 8080
initialDelaySeconds: 60
timeoutSeconds: 10
periodSeconds: 5
參考資料