zookeeper協(xié)議淺析

是一個(gè)高可靠炎辨、高可用、高性能的分布式一致系統(tǒng)娩井,核心為ZAB協(xié)議呜投。

zookeeper一致性協(xié)議

zookeeper實(shí)現(xiàn)數(shù)據(jù)一致性的核心是ZAB協(xié)議(Zookeeper原子消息廣播協(xié)議)。該協(xié)議需要做到以下幾點(diǎn):

(1)集群在半數(shù)以下節(jié)點(diǎn)宕機(jī)的情況下炫隶,能正常對(duì)外提供服務(wù)淋叶;

(2)客戶端的寫請(qǐng)求全部轉(zhuǎn)交給leader來(lái)處理,leader需確保寫變更能實(shí)時(shí)同步給所有follower及observer伪阶;

(3)leader宕機(jī)或整個(gè)集群重啟時(shí)煞檩,需要確保那些已經(jīng)在leader服務(wù)器上提交的事務(wù)最終被所有服務(wù)器都提交,確保丟棄那些只在leader服務(wù)器上被提出的事務(wù)栅贴,并保證集群能快速恢復(fù)到故障前的狀態(tài)斟湃。

zookeeper設(shè)計(jì)特點(diǎn)

高性能:全部數(shù)據(jù)內(nèi)存存儲(chǔ),即存儲(chǔ)的數(shù)據(jù)量是有限的檐薯,受限于所在宿主機(jī)的內(nèi)存的大小

高可用:只要可用機(jī)器數(shù)在一半以上就是可用的凝赛。

一致性:ZAB協(xié)議保證注暗,事務(wù)要么完成,要么未完成墓猎,未有中間狀態(tài)捆昏。

ZAB協(xié)議與paxos對(duì)比

共同點(diǎn):

leader向所有的followers提議。

leader在收到一定數(shù)目的followers的ack之后毙沾,才會(huì)commit骗卜。

提議中包含epoch,類似于paxos的ballot number左胞。

不同點(diǎn):

一個(gè)有狀態(tài)的機(jī)器(zab協(xié)議)是用來(lái)處理一系列的請(qǐng)求寇仓。一個(gè)有狀態(tài)的機(jī)器復(fù)制系統(tǒng),是一個(gè)clientserver系統(tǒng)烤宙,每個(gè)狀態(tài)機(jī)器的復(fù)制請(qǐng)求都會(huì)按照client請(qǐng)求的順序進(jìn)行執(zhí)行遍烦。

在主備份系統(tǒng)中(paxos協(xié)議),一致性是delta狀態(tài)的一致性躺枕。由主備份產(chǎn)生并發(fā)送給followers乳愉。

ZAB協(xié)議:

協(xié)議定義

leader followers:有一個(gè)唯一的leader,若干個(gè)followers屯远,leader+followers滿足奇數(shù)個(gè)蔓姚。leader角色負(fù)責(zé)接受所有的從clients或者從follower以副本形式發(fā)過(guò)來(lái)的變更狀態(tài)。讀請(qǐng)求則在所有的followers與leader之間進(jìn)行負(fù)載均衡慨丐。

事務(wù):所有的狀態(tài)變更由leader廣播給所有的followers

e- leader的標(biāo)志坡脐。epoch是一個(gè)整數(shù),在一個(gè)leader開始領(lǐng)導(dǎo)的時(shí)候產(chǎn)生房揭,并且應(yīng)該比前面的leader的epoch都大

c-leader產(chǎn)生的一個(gè)順序數(shù)字备闲,從0開始并且遞增。與epoch一起用來(lái)標(biāo)識(shí)從client過(guò)來(lái)的狀態(tài)變化

F.history-followers的歷史隊(duì)列捅暴。用來(lái)有順序的提交過(guò)來(lái)事務(wù)順序恬砂。

ZAB Implementation

clients可以從zk nodes的任何一個(gè)server讀數(shù)據(jù)

clients的寫狀態(tài)變更可以發(fā)送到任何一個(gè)server蓬痒,這個(gè)狀態(tài)的變更被轉(zhuǎn)發(fā)到leader節(jié)點(diǎn)泻骤。zk 用一個(gè)改良的二階段提交協(xié)議將復(fù)制的事務(wù)發(fā)送給followers。當(dāng)leader收到client的變更請(qǐng)求梧奢,leader會(huì)產(chǎn)生一個(gè)帶有sequencenumber以及epoch的事務(wù)發(fā)送給所有的followers狱掂。一個(gè)follower將事務(wù)添加到歷史隊(duì)列中并發(fā)送ack給leader。當(dāng)leader收到法定個(gè)數(shù)的ack亲轨,就會(huì)發(fā)送commit請(qǐng)求趋惨。一個(gè)follower接收COMMIT請(qǐng)求,并提交事務(wù)惦蚊;除非sequencenumber比歷史隊(duì)列中的sequencenumber大器虾?讯嫂。在提交之前,等待收到所有的比它早的事務(wù)兆沙。

如果leader崩潰端姚,所有的nodes將拒絕服務(wù),并會(huì)執(zhí)行恢復(fù)協(xié)議來(lái)達(dá)成一致?tīng)顟B(tài)挤悉,選舉一個(gè)新的leader來(lái)廣播狀態(tài)變更。

為了選擇leader巫湘,node必須獲取一定數(shù)目nodes的支持装悲。

node的生命周期:每個(gè)node在一定時(shí)間內(nèi)會(huì)執(zhí)行協(xié)議的迭代。在任何時(shí)間點(diǎn)尚氛,一個(gè)進(jìn)程可能放棄當(dāng)前的迭代诀诊,并開始一個(gè)新的階段0

ZAB協(xié)議生命周期

階段0-預(yù)期leader選舉

階段1-發(fā)現(xiàn)

階段2-同步

階段3-廣播

階段1 和 2 對(duì)于達(dá)成一致?tīng)顟B(tài),特別是從崩潰中恢復(fù)至關(guān)重要

階段1-發(fā)現(xiàn) 在這個(gè)階段阅嘶,followers對(duì)他們預(yù)期的leader進(jìn)行通信属瓣,leader 收集followers接收的最近最新的事務(wù)信息。這個(gè)階段的目的是在一定樹木中發(fā)現(xiàn)接受的事務(wù)的最新sequence讯柔,建立一個(gè)新的epoch抡蛙,讓以前的leaders不能提交新的提議。因?yàn)橐欢〝?shù)目的followers有前面的leader發(fā)送的已經(jīng)接受的所有的變更-那么至少有一個(gè)follower在他的歷史隊(duì)列中有所有已經(jīng)接受的變更魂迄,這就意味著新的leader也會(huì)擁有他們粗截。

階段2-同步 同步階段包含協(xié)議的恢復(fù)階段,將在發(fā)現(xiàn)階段更新的歷史事務(wù)在集群間同步所有的備份捣炬。leader與followers進(jìn)行通信熊昌,提議事務(wù)。followers確認(rèn)提議湿酸。當(dāng)leader收到一定數(shù)目的acks婿屹,leader就會(huì)發(fā)起一個(gè)commit 信息。在那個(gè)時(shí)候推溃,leader已經(jīng)建立了昂利,已經(jīng)是非預(yù)期了。

階段3-廣播 如果沒(méi)有崩潰铁坎,集群將會(huì)永遠(yuǎn)在這個(gè)階段页眯,當(dāng)client發(fā)起一個(gè)寫請(qǐng)求的時(shí)候,在集群之間進(jìn)行廣播事務(wù)厢呵。為了發(fā)現(xiàn)失敗窝撵,zab 在leader與followers之間有周期性的心跳。如果在給定時(shí)間內(nèi)leader未收到一定數(shù)目的心跳襟铭,它將會(huì)放棄他的領(lǐng)導(dǎo)地位碌奉,并開始選舉階段0.如果follower未在一定時(shí)間內(nèi)收到心跳短曾,也會(huì)發(fā)起選舉leader。

附錄

https://distributedalgorithm.wordpress.com/2015/06/20/architecture-of-zab-zookeeper-atomic-broadcast-protocol/

https://cwiki.apache.org/confluence/display/ZOOKEEPER/Zab1.0

https://cwiki.apache.org/confluence/display/ZOOKEEPER/Zab+vs.+Paxos

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末赐劣,一起剝皮案震驚了整個(gè)濱河市嫉拐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌魁兼,老刑警劉巖婉徘,帶你破解...
    沈念sama閱讀 222,183評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異咐汞,居然都是意外死亡盖呼,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門化撕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)几晤,“玉大人,你說(shuō)我怎么就攤上這事植阴⌒否” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵掠手,是天一觀的道長(zhǎng)憾朴。 經(jīng)常有香客問(wèn)我,道長(zhǎng)喷鸽,這世上最難降的妖魔是什么伊脓? 我笑而不...
    開封第一講書人閱讀 59,854評(píng)論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮魁衙,結(jié)果婚禮上报腔,老公的妹妹穿的比我還像新娘。我一直安慰自己剖淀,他們只是感情好纯蛾,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著纵隔,像睡著了一般翻诉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上捌刮,一...
    開封第一講書人閱讀 52,457評(píng)論 1 311
  • 那天碰煌,我揣著相機(jī)與錄音,去河邊找鬼绅作。 笑死芦圾,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的俄认。 我是一名探鬼主播个少,決...
    沈念sama閱讀 40,999評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼洪乍,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了夜焦?” 一聲冷哼從身側(cè)響起壳澳,我...
    開封第一講書人閱讀 39,914評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎茫经,沒(méi)想到半個(gè)月后巷波,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,465評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡卸伞,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評(píng)論 3 342
  • 正文 我和宋清朗相戀三年抹镊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞪慧。...
    茶點(diǎn)故事閱讀 40,675評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖部念,靈堂內(nèi)的尸體忽然破棺而出弃酌,到底是詐尸還是另有隱情,我是刑警寧澤儡炼,帶...
    沈念sama閱讀 36,354評(píng)論 5 351
  • 正文 年R本政府宣布妓湘,位于F島的核電站,受9級(jí)特大地震影響乌询,放射性物質(zhì)發(fā)生泄漏榜贴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評(píng)論 3 335
  • 文/蒙蒙 一妹田、第九天 我趴在偏房一處隱蔽的房頂上張望唬党。 院中可真熱鬧,春花似錦鬼佣、人聲如沸驶拱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蓝纲。三九已至,卻和暖如春晌纫,著一層夾襖步出監(jiān)牢的瞬間税迷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工锹漱, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留箭养,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,091評(píng)論 3 378
  • 正文 我出身青樓哥牍,卻偏偏與公主長(zhǎng)得像露懒,于是被迫代替她去往敵國(guó)和親闯冷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評(píng)論 2 360

推薦閱讀更多精彩內(nèi)容