1. 背景
Kubernetes作為容器應(yīng)用的管理中心钉疫,對(duì)集群內(nèi)部所有容器的生命周期進(jìn)行管理,結(jié)合自身的健康檢查及錯(cuò)誤恢復(fù)機(jī)制巢价,實(shí)現(xiàn)了集群內(nèi)部應(yīng)用層的高可用性牲阁。
Kubernetes服務(wù)本身的穩(wěn)定運(yùn)行對(duì)集群管理至關(guān)重要,影響服務(wù)穩(wěn)定的因素一般來(lái)說(shuō)分為兩種,一種是服務(wù)本身異程愀龋或者服務(wù)所在機(jī)器宕機(jī),另一種是因?yàn)榫W(wǎng)絡(luò)問(wèn)題導(dǎo)致的服務(wù)不可用您炉。本文將從存儲(chǔ)層柒爵、管理層、接入層三個(gè)方面介紹高可用Kubernetes集群的原理赚爵。
Kubernetes的存儲(chǔ)層使用的是Etcd棉胀。Etcd是CoreOS開(kāi)源的一個(gè)高可用強(qiáng)一致性的分布式存儲(chǔ)服務(wù)法瑟,Kubernetes使用Etcd作為數(shù)據(jù)存儲(chǔ)后端,把需要記錄的pod唁奢、rc霎挟、service等資源信息存儲(chǔ)在Etcd中。
Etcd使用raft算法將一組主機(jī)組成集群麻掸,raft 集群中的每個(gè)節(jié)點(diǎn)都可以根據(jù)集群運(yùn)行的情況在三種狀態(tài)間切換:follower, candidate 與 leader酥夭。leader 和 follower 之間保持心跳。如果follower在一段時(shí)間內(nèi)沒(méi)有收到來(lái)自leader的心跳脊奋,就會(huì)轉(zhuǎn)為candidate熬北,發(fā)出新的選主請(qǐng)求。
集群初始化的時(shí)候內(nèi)部的節(jié)點(diǎn)都是follower節(jié)點(diǎn)诚隙,之后會(huì)有一個(gè)節(jié)點(diǎn)因?yàn)闆](méi)有收到leader的心跳轉(zhuǎn)為candidate節(jié)點(diǎn)讶隐,發(fā)起選主請(qǐng)求。當(dāng)這個(gè)節(jié)點(diǎn)獲得了大于一半節(jié)點(diǎn)的投票后會(huì)轉(zhuǎn)為leader節(jié)點(diǎn)久又,如下圖所示:
當(dāng)leader節(jié)點(diǎn)服務(wù)異常后巫延,其中的某個(gè)follower節(jié)點(diǎn)因?yàn)闆](méi)有收到leader的心跳轉(zhuǎn)為candidate節(jié)點(diǎn),發(fā)起選主請(qǐng)求地消。只要集群中剩余的正常節(jié)點(diǎn)數(shù)目大于集群內(nèi)主機(jī)數(shù)目的一半炉峰,Etcd集群就可以正常對(duì)外提供服務(wù)。具體的恢復(fù)過(guò)程如下圖所示:
當(dāng)集群內(nèi)部的網(wǎng)絡(luò)出現(xiàn)故障集群可能會(huì)出現(xiàn)“腦裂”問(wèn)題犯建,這個(gè)時(shí)候集群會(huì)分為一大一小兩個(gè)集群(奇數(shù)節(jié)點(diǎn)的集群)讲冠,較小的集群會(huì)處于異常狀態(tài),較大的集群可以正常對(duì)外提供服務(wù)适瓦,出現(xiàn)網(wǎng)絡(luò)故障時(shí)的恢復(fù)過(guò)程如下圖所示:
Etcd集群的部署有三種方式竿开,具體的安裝步驟可以查看官方手冊(cè),此處不再詳細(xì)介紹玻熙。
3. Kubernetes master服務(wù)高可用方案
Kubernetes的管理層服務(wù)包括kube-scheduler和kube-controller-manager否彩。kube-scheduer和kube-controller-manager使用一主多從的高可用方案,在同一時(shí)刻只允許一個(gè)服務(wù)處以具體的任務(wù)嗦随。Kubernetes中實(shí)現(xiàn)了一套簡(jiǎn)單的選主邏輯列荔,依賴(lài)Etcd實(shí)現(xiàn)scheduler和controller-manager的選主功能。
如果scheduler和controller-manager在啟動(dòng)的時(shí)候設(shè)置了leader-elect參數(shù)枚尼,它們?cè)趩?dòng)后會(huì)先嘗試獲取leader節(jié)點(diǎn)身份贴浙,只有在獲取leader節(jié)點(diǎn)身份后才可以執(zhí)行具體的業(yè)務(wù)邏輯。它們分別會(huì)在Etcd中創(chuàng)建kube-scheduler和kube-controller-manager的endpoint署恍,endpoint的信息中記錄了當(dāng)前的leader節(jié)點(diǎn)信息崎溃,以及記錄的上次更新時(shí)間。leader節(jié)點(diǎn)會(huì)定期更新endpoint的信息盯质,維護(hù)自己的leader身份袁串。每個(gè)從節(jié)點(diǎn)的服務(wù)都會(huì)定期檢查endpoint的信息概而,如果endpoint的信息在時(shí)間范圍內(nèi)沒(méi)有更新,它們會(huì)嘗試更新自己為leader節(jié)點(diǎn)囱修。scheduler服務(wù)以及controller-manager服務(wù)之間不會(huì)進(jìn)行通信赎瑰,利用Etcd的強(qiáng)一致性,能夠保證在分布式高并發(fā)情況下leader節(jié)點(diǎn)的全局唯一性破镰。
整體方案如下圖所示:
當(dāng)集群中的leader節(jié)點(diǎn)服務(wù)異常后餐曼,其它節(jié)點(diǎn)的服務(wù)會(huì)嘗試更新自身為leader節(jié)點(diǎn),當(dāng)有多個(gè)節(jié)點(diǎn)同時(shí)更新endpoint時(shí)啤咽,由Etcd保證只有一個(gè)服務(wù)的更新請(qǐng)求能夠成功晋辆。通過(guò)這種機(jī)制sheduler和controller-manager可以保證在leader節(jié)點(diǎn)宕機(jī)后其它的節(jié)點(diǎn)可以順利選主,保證服務(wù)故障后快速恢復(fù)宇整。
當(dāng)集群中的網(wǎng)絡(luò)出現(xiàn)故障時(shí)對(duì)服務(wù)的選主影響不是很大瓶佳,因?yàn)閟cheduler和controller-manager是依賴(lài)Etcd進(jìn)行選主的,在網(wǎng)絡(luò)故障后鳞青,可以和Etcd通信的主機(jī)依然可以按照之前的邏輯進(jìn)行選主霸饲,就算集群被切分,Etcd也可以保證同一時(shí)刻只有一個(gè)節(jié)點(diǎn)的服務(wù)處于leader狀態(tài)臂拓。
4. Kubernetes apiserver服務(wù)高可用方案
Kubernetes的接入層服務(wù)主要是kube-apiserver厚脉。apiserver本身是無(wú)狀態(tài)的服務(wù),它的主要任務(wù)職責(zé)是把資源數(shù)據(jù)存儲(chǔ)到Etcd中胶惰,后續(xù)具體的業(yè)務(wù)邏輯是由scheduler和controller-manager執(zhí)行的傻工。
可以同時(shí)起多個(gè)apiserver服務(wù),使用nginx把客戶(hù)端的流量轉(zhuǎn)發(fā)到不同的后端apiserver上實(shí)現(xiàn)接入層的高可用孵滞。具體的實(shí)現(xiàn)如下圖所示:
接入層的高可用分為兩個(gè)部分中捆,一個(gè)部分是多活的apiserver服務(wù),另一個(gè)部分是一主一備的nginx服務(wù)坊饶。
本文主要從存儲(chǔ)層泄伪,管理層和接入層三個(gè)部分介紹了Kubernetes高可用方案的原理,整體的方案架構(gòu)如下圖所示:
當(dāng)然要真正做到Kubernetes集群的高可用匿级,還需要考慮Kubernetes依賴(lài)的docker registry服務(wù)的高可用蟋滴,以及Kubernetes依賴(lài)的網(wǎng)絡(luò)插件(cni)的高可用等等,相關(guān)的內(nèi)容會(huì)在以后的文章中進(jìn)行介紹痘绎。