ZAB的架構(gòu) - ZooKeeper原子廣播協(xié)議

背景

ZooKeeper支持客戶端讀取和更新具有高可用性的鍵值對(duì)。通過將數(shù)據(jù)復(fù)制到多個(gè)節(jié)點(diǎn)并讓客戶端從任何節(jié)點(diǎn)讀取來實(shí)現(xiàn)高可用性。對(duì)Zookeeper的設(shè)計(jì)至關(guān)重要的是每個(gè)狀態(tài)變化相對(duì)于以前的狀態(tài)是增量的觀察众雷,所以對(duì)狀態(tài)變化的順序有隱含的依賴性奠宜。Zookeeper Atomic Broadcast(ZAB)是驅(qū)動(dòng)ZooKeeper復(fù)制訂單保證的協(xié)議。它還處理選舉領(lǐng)導(dǎo)和恢復(fù)失敗的領(lǐng)導(dǎo)和節(jié)點(diǎn)抚垄。這篇文章是關(guān)于ZAB的搜变。

定義

領(lǐng)導(dǎo)者和追隨者 - 在ZooKeeper群集中采缚,其中一個(gè)節(jié)點(diǎn)具有領(lǐng)導(dǎo)角色,其余的則具有追隨者角色挠他。領(lǐng)導(dǎo)者負(fù)責(zé)接受來自客戶端的所有進(jìn)入狀態(tài)更改扳抽,并將其復(fù)制到自己和跟隨者。讀請(qǐng)求在所有跟隨者和領(lǐng)導(dǎo)者之間進(jìn)行負(fù)載平衡殖侵。

交易 - 領(lǐng)導(dǎo)傳播給其追隨者的客戶狀態(tài)更改贸呢。

'e' - 領(lǐng)導(dǎo)者的時(shí)代。時(shí)代是一個(gè)領(lǐng)導(dǎo)者在他開始領(lǐng)導(dǎo)時(shí)產(chǎn)生的整數(shù)拢军,應(yīng)該大于以前領(lǐng)導(dǎo)人的時(shí)代楞陷。

'c' - 由領(lǐng)導(dǎo)者生成的序列號(hào),從0開始并增加茉唉。它與歷元一起使用以對(duì)傳入的客戶端狀態(tài)更改進(jìn)行排序固蛾。

“史前” - 追隨者的歷史排隊(duì)。用于按照到達(dá)的順序提交進(jìn)入的交易度陆。

未完成的交易 - F.History中具有小于當(dāng)前COMMIT序列號(hào)的序列號(hào)的事務(wù)集艾凯。

ZAB要求

復(fù)制保證

可靠的交付 -如果事務(wù)M由一個(gè)服務(wù)器提交,則最終將由所有服務(wù)器執(zhí)行懂傀。

總訂單 -如果事務(wù)A在一個(gè)服務(wù)器之前在事務(wù)B之前提交趾诗,則A將由所有服務(wù)器在B之前提交。如果A和B是提交消息蹬蚁,則在B或B將在A之前提交時(shí)恃泪,A將被提交。

因果訂單 -如果在B的發(fā)件人提交交易A之后發(fā)送交易B犀斋,則必須在B之前訂購(gòu)A贝乎。如果發(fā)送方在發(fā)送B之后發(fā)送C,則C必須在B之后訂購(gòu)叽粹。

只要大多數(shù)(法定人數(shù))的節(jié)點(diǎn)上升览效,就會(huì)復(fù)制事務(wù)蒙具。

當(dāng)節(jié)點(diǎn)發(fā)生故障并且稍后重新啟動(dòng)時(shí) - 它應(yīng)該趕上在關(guān)閉時(shí)被復(fù)制的事務(wù)。

ZAB實(shí)施

客戶端從任何ZooKeeper節(jié)點(diǎn)讀取朽肥。

客戶端向任何ZooKeeper節(jié)點(diǎn)寫入狀態(tài)更改,并且此狀態(tài)更改將轉(zhuǎn)發(fā)到前導(dǎo)節(jié)點(diǎn)持钉。

ZooKeeper使用兩階段提交協(xié)議的變體將事務(wù)復(fù)制到關(guān)注者衡招。當(dāng)領(lǐng)導(dǎo)者從客戶端收到更改更新時(shí),會(huì)使用續(xù)集號(hào)c和領(lǐng)導(dǎo)者的紀(jì)元e(見定義)生成交易每强,并將交易發(fā)送給所有關(guān)注者始腾。追隨者將事務(wù)添加到其歷史隊(duì)列,并向領(lǐng)導(dǎo)者發(fā)送ACK空执。當(dāng)領(lǐng)導(dǎo)者從法定人數(shù)收到確認(rèn)信息時(shí)浪箭,會(huì)發(fā)送該交易的法定人數(shù)COMMIT。接受COMMIT的跟隨者將提交此事務(wù)辨绊,除非c高于其歷史隊(duì)列中的任何序列號(hào)奶栖。在提交之前,將等待收到COMMIT的所有早期交易(未償還交易)门坷。

參考文獻(xiàn)[4]

在領(lǐng)導(dǎo)崩潰時(shí)宣鄙,節(jié)點(diǎn)執(zhí)行恢復(fù)協(xié)議,以便在恢復(fù)常規(guī)操作之前達(dá)成共同的一致狀態(tài)默蚌,并建立新的領(lǐng)導(dǎo)者來廣播狀態(tài)更改冻晤。

為了執(zhí)行領(lǐng)導(dǎo)角色,節(jié)點(diǎn)必須具有一定數(shù)量的節(jié)點(diǎn)的支持绸吸。由于節(jié)點(diǎn)可能會(huì)崩潰和恢復(fù)鼻弧,因此可能會(huì)有一段時(shí)間的多個(gè)領(lǐng)導(dǎo)者,實(shí)際上相同的節(jié)點(diǎn)可能多次執(zhí)行節(jié)點(diǎn)角色锦茁。

節(jié)點(diǎn)的生命周期:每個(gè)節(jié)點(diǎn)一次執(zhí)行該協(xié)議的一次迭代攘轩,并且在任何時(shí)間,進(jìn)程可以通過進(jìn)行到階段0來刪除當(dāng)前迭代并開始一個(gè)新的迭代蜻势。

第0期 - 未來的領(lǐng)導(dǎo)人選舉

階段1 -發(fā)現(xiàn)

階段2 - 同步

階段3 - 廣播

第1和第2階段對(duì)于使集合處于相互一致的狀態(tài)撑刺,特別是在從碰撞中恢復(fù)時(shí)尤其重要。

第一階段 - 發(fā)現(xiàn)

在這個(gè)階段握玛,追隨者與潛在的領(lǐng)導(dǎo)者進(jìn)行溝通够傍,以便領(lǐng)導(dǎo)者收集關(guān)于其追隨者接受的最近交易的信息。這個(gè)階段的目的是發(fā)現(xiàn)法定人數(shù)中接受交易的最新序列挠铲,并建立一個(gè)新的時(shí)期冕屯,以便以前的領(lǐng)導(dǎo)人不能提交新的提案。因?yàn)樽冯S者的法定人數(shù)已經(jīng)被前任領(lǐng)導(dǎo)人所接受了所有的改變 - 那么它承諾拂苹,目前法定人數(shù)中的至少一個(gè)追隨者在其歷史中排隊(duì)了前任領(lǐng)導(dǎo)人接受的所有改變安聘,這意味著新的領(lǐng)導(dǎo)人將把他們當(dāng)作好。第1階段精確算法可用。

階段2 - 同步

同步階段總結(jié)了協(xié)議的恢復(fù)部分浴韭,使用發(fā)現(xiàn)階段中領(lǐng)導(dǎo)者更新的歷史記錄同步集群中的副本丘喻。領(lǐng)導(dǎo)人與追隨者溝通,提出歷史上的交易念颈。如果自己的歷史落后于領(lǐng)導(dǎo)者的歷史泉粉,追隨者就承認(rèn)這些建議。當(dāng)領(lǐng)導(dǎo)人從法定人數(shù)中得到確認(rèn)時(shí)榴芳,會(huì)向他們發(fā)出提交信息嗡靡。在這一點(diǎn)上,據(jù)說領(lǐng)導(dǎo)人已經(jīng)建立起來了窟感,而不是再有前途了讨彼。第2階段精確算法可用。

階段3 - 廣播

如果沒有發(fā)生崩潰柿祈,對(duì)等體將無限期地停留在此階段哈误,一旦ZooKeeper客戶端發(fā)出寫請(qǐng)求,就執(zhí)行廣播事務(wù)谍夭。第3階段精確算法可用黑滴。

為了檢測(cè)故障,Zab在追隨者及其領(lǐng)導(dǎo)者之間采取周期性的心跳信息紧索。如果領(lǐng)導(dǎo)者在給定的超時(shí)期間沒有收到來自法定人數(shù)的心跳袁辈,則放棄其領(lǐng)導(dǎo),并轉(zhuǎn)向州選和階段0.如果在超時(shí)期間沒有從其領(lǐng)導(dǎo)層收到心跳珠漂,追隨者也將參加領(lǐng)導(dǎo)選舉階段晚缩。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市媳危,隨后出現(xiàn)的幾起案子荞彼,更是在濱河造成了極大的恐慌,老刑警劉巖待笑,帶你破解...
    沈念sama閱讀 211,496評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鸣皂,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡暮蹂,警方通過查閱死者的電腦和手機(jī)寞缝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,187評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來仰泻,“玉大人荆陆,你說我怎么就攤上這事〖睿” “怎么了被啼?”我有些...
    開封第一講書人閱讀 157,091評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵帜消,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我浓体,道長(zhǎng)泡挺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,458評(píng)論 1 283
  • 正文 為了忘掉前任命浴,我火速辦了婚禮粘衬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘咳促。我一直安慰自己,他們只是感情好勘伺,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,542評(píng)論 6 385
  • 文/花漫 我一把揭開白布跪腹。 她就那樣靜靜地躺著,像睡著了一般飞醉。 火紅的嫁衣襯著肌膚如雪冲茸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,802評(píng)論 1 290
  • 那天缅帘,我揣著相機(jī)與錄音轴术,去河邊找鬼。 笑死钦无,一個(gè)胖子當(dāng)著我的面吹牛逗栽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播失暂,決...
    沈念sama閱讀 38,945評(píng)論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼彼宠,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了弟塞?” 一聲冷哼從身側(cè)響起凭峡,我...
    開封第一講書人閱讀 37,709評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎决记,沒想到半個(gè)月后摧冀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,158評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡系宫,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,502評(píng)論 2 327
  • 正文 我和宋清朗相戀三年索昂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片笙瑟。...
    茶點(diǎn)故事閱讀 38,637評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡楼镐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出往枷,到底是詐尸還是另有隱情框产,我是刑警寧澤凄杯,帶...
    沈念sama閱讀 34,300評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站秉宿,受9級(jí)特大地震影響戒突,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜描睦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,911評(píng)論 3 313
  • 文/蒙蒙 一膊存、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧忱叭,春花似錦隔崎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,744評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至撵彻,卻和暖如春钓株,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背陌僵。 一陣腳步聲響...
    開封第一講書人閱讀 31,982評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工轴合, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人碗短。 一個(gè)月前我還...
    沈念sama閱讀 46,344評(píng)論 2 360
  • 正文 我出身青樓受葛,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親偎谁。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奔坟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,500評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容