背景
ZooKeeper支持客戶端讀取和更新具有高可用性的鍵值對(duì)。通過將數(shù)據(jù)復(fù)制到多個(gè)節(jié)點(diǎn)并讓客戶端從任何節(jié)點(diǎn)讀取來實(shí)現(xiàn)高可用性。對(duì)Zookeeper的設(shè)計(jì)至關(guān)重要的是每個(gè)狀態(tài)變化相對(duì)于以前的狀態(tài)是增量的觀察众雷,所以對(duì)狀態(tài)變化的順序有隱含的依賴性奠宜。Zookeeper Atomic Broadcast(ZAB)是驅(qū)動(dòng)ZooKeeper復(fù)制訂單保證的協(xié)議。它還處理選舉領(lǐng)導(dǎo)和恢復(fù)失敗的領(lǐng)導(dǎo)和節(jié)點(diǎn)抚垄。這篇文章是關(guān)于ZAB的搜变。
定義
領(lǐng)導(dǎo)者和追隨者 - 在ZooKeeper群集中采缚,其中一個(gè)節(jié)點(diǎn)具有領(lǐng)導(dǎo)角色,其余的則具有追隨者角色挠他。領(lǐng)導(dǎo)者負(fù)責(zé)接受來自客戶端的所有進(jìn)入狀態(tài)更改扳抽,并將其復(fù)制到自己和跟隨者。讀請(qǐng)求在所有跟隨者和領(lǐng)導(dǎo)者之間進(jìn)行負(fù)載平衡殖侵。
交易 - 領(lǐng)導(dǎo)傳播給其追隨者的客戶狀態(tài)更改贸呢。
'e' - 領(lǐng)導(dǎo)者的時(shí)代。時(shí)代是一個(gè)領(lǐng)導(dǎo)者在他開始領(lǐng)導(dǎo)時(shí)產(chǎn)生的整數(shù)拢军,應(yīng)該大于以前領(lǐng)導(dǎo)人的時(shí)代楞陷。
'c' - 由領(lǐng)導(dǎo)者生成的序列號(hào),從0開始并增加茉唉。它與歷元一起使用以對(duì)傳入的客戶端狀態(tài)更改進(jìn)行排序固蛾。
“史前” - 追隨者的歷史排隊(duì)。用于按照到達(dá)的順序提交進(jìn)入的交易度陆。
未完成的交易 - F.History中具有小于當(dāng)前COMMIT序列號(hào)的序列號(hào)的事務(wù)集艾凯。
ZAB要求
復(fù)制保證
可靠的交付 -如果事務(wù)M由一個(gè)服務(wù)器提交,則最終將由所有服務(wù)器執(zhí)行懂傀。
總訂單 -如果事務(wù)A在一個(gè)服務(wù)器之前在事務(wù)B之前提交趾诗,則A將由所有服務(wù)器在B之前提交。如果A和B是提交消息蹬蚁,則在B或B將在A之前提交時(shí)恃泪,A將被提交。
因果訂單 -如果在B的發(fā)件人提交交易A之后發(fā)送交易B犀斋,則必須在B之前訂購(gòu)A贝乎。如果發(fā)送方在發(fā)送B之后發(fā)送C,則C必須在B之后訂購(gòu)叽粹。
只要大多數(shù)(法定人數(shù))的節(jié)點(diǎn)上升览效,就會(huì)復(fù)制事務(wù)蒙具。
當(dāng)節(jié)點(diǎn)發(fā)生故障并且稍后重新啟動(dòng)時(shí) - 它應(yīng)該趕上在關(guān)閉時(shí)被復(fù)制的事務(wù)。
ZAB實(shí)施
客戶端從任何ZooKeeper節(jié)點(diǎn)讀取朽肥。
客戶端向任何ZooKeeper節(jié)點(diǎn)寫入狀態(tài)更改,并且此狀態(tài)更改將轉(zhuǎn)發(fā)到前導(dǎo)節(jié)點(diǎn)持钉。
ZooKeeper使用兩階段提交協(xié)議的變體將事務(wù)復(fù)制到關(guān)注者衡招。當(dāng)領(lǐng)導(dǎo)者從客戶端收到更改更新時(shí),會(huì)使用續(xù)集號(hào)c和領(lǐng)導(dǎo)者的紀(jì)元e(見定義)生成交易每强,并將交易發(fā)送給所有關(guān)注者始腾。追隨者將事務(wù)添加到其歷史隊(duì)列,并向領(lǐng)導(dǎo)者發(fā)送ACK空执。當(dāng)領(lǐng)導(dǎo)者從法定人數(shù)收到確認(rèn)信息時(shí)浪箭,會(huì)發(fā)送該交易的法定人數(shù)COMMIT。接受COMMIT的跟隨者將提交此事務(wù)辨绊,除非c高于其歷史隊(duì)列中的任何序列號(hào)奶栖。在提交之前,將等待收到COMMIT的所有早期交易(未償還交易)门坷。
參考文獻(xiàn)[4]
在領(lǐng)導(dǎo)崩潰時(shí)宣鄙,節(jié)點(diǎn)執(zhí)行恢復(fù)協(xié)議,以便在恢復(fù)常規(guī)操作之前達(dá)成共同的一致狀態(tài)默蚌,并建立新的領(lǐng)導(dǎo)者來廣播狀態(tài)更改冻晤。
為了執(zhí)行領(lǐng)導(dǎo)角色,節(jié)點(diǎn)必須具有一定數(shù)量的節(jié)點(diǎn)的支持绸吸。由于節(jié)點(diǎn)可能會(huì)崩潰和恢復(fù)鼻弧,因此可能會(huì)有一段時(shí)間的多個(gè)領(lǐng)導(dǎo)者,實(shí)際上相同的節(jié)點(diǎn)可能多次執(zhí)行節(jié)點(diǎn)角色锦茁。
節(jié)點(diǎn)的生命周期:每個(gè)節(jié)點(diǎn)一次執(zhí)行該協(xié)議的一次迭代攘轩,并且在任何時(shí)間,進(jìn)程可以通過進(jìn)行到階段0來刪除當(dāng)前迭代并開始一個(gè)新的迭代蜻势。
第0期 - 未來的領(lǐng)導(dǎo)人選舉
階段1 -發(fā)現(xiàn)
階段2 - 同步
階段3 - 廣播
第1和第2階段對(duì)于使集合處于相互一致的狀態(tài)撑刺,特別是在從碰撞中恢復(fù)時(shí)尤其重要。
第一階段 - 發(fā)現(xiàn)
在這個(gè)階段握玛,追隨者與潛在的領(lǐng)導(dǎo)者進(jìn)行溝通够傍,以便領(lǐng)導(dǎo)者收集關(guān)于其追隨者接受的最近交易的信息。這個(gè)階段的目的是發(fā)現(xiàn)法定人數(shù)中接受交易的最新序列挠铲,并建立一個(gè)新的時(shí)期冕屯,以便以前的領(lǐng)導(dǎo)人不能提交新的提案。因?yàn)樽冯S者的法定人數(shù)已經(jīng)被前任領(lǐng)導(dǎo)人所接受了所有的改變 - 那么它承諾拂苹,目前法定人數(shù)中的至少一個(gè)追隨者在其歷史中排隊(duì)了前任領(lǐng)導(dǎo)人接受的所有改變安聘,這意味著新的領(lǐng)導(dǎo)人將把他們當(dāng)作好。第1階段精確算法可用。
階段2 - 同步
同步階段總結(jié)了協(xié)議的恢復(fù)部分浴韭,使用發(fā)現(xiàn)階段中領(lǐng)導(dǎo)者更新的歷史記錄同步集群中的副本丘喻。領(lǐng)導(dǎo)人與追隨者溝通,提出歷史上的交易念颈。如果自己的歷史落后于領(lǐng)導(dǎo)者的歷史泉粉,追隨者就承認(rèn)這些建議。當(dāng)領(lǐng)導(dǎo)人從法定人數(shù)中得到確認(rèn)時(shí)榴芳,會(huì)向他們發(fā)出提交信息嗡靡。在這一點(diǎn)上,據(jù)說領(lǐng)導(dǎo)人已經(jīng)建立起來了窟感,而不是再有前途了讨彼。第2階段精確算法可用。
階段3 - 廣播
如果沒有發(fā)生崩潰柿祈,對(duì)等體將無限期地停留在此階段哈误,一旦ZooKeeper客戶端發(fā)出寫請(qǐng)求,就執(zhí)行廣播事務(wù)谍夭。第3階段精確算法可用黑滴。
為了檢測(cè)故障,Zab在追隨者及其領(lǐng)導(dǎo)者之間采取周期性的心跳信息紧索。如果領(lǐng)導(dǎo)者在給定的超時(shí)期間沒有收到來自法定人數(shù)的心跳袁辈,則放棄其領(lǐng)導(dǎo),并轉(zhuǎn)向州選和階段0.如果在超時(shí)期間沒有從其領(lǐng)導(dǎo)層收到心跳珠漂,追隨者也將參加領(lǐng)導(dǎo)選舉階段晚缩。