8肝箱、Zookeeper的leader選舉過程

一、Leader選舉過程

Leader選舉是保證分布式數(shù)據(jù)一致性的關(guān)鍵所在绵载。當(dāng)Zookeeper集群中的一臺(tái)服務(wù)器出現(xiàn)以下兩種情況之一時(shí)埂陆,需要進(jìn)入Leader選舉苛白。

(1) 服務(wù)器初始化啟動(dòng)。

(2) 服務(wù)器運(yùn)行期間無法和Leader保持連接焚虱。

下面就兩種情況進(jìn)行分析講解丸氛。

1、服務(wù)器啟動(dòng)時(shí)期的Leader選舉

若進(jìn)行Leader選舉著摔,則至少需要兩臺(tái)機(jī)器缓窜,這里選取3臺(tái)機(jī)器組成的服務(wù)器集群為例。在集群初始化階段谍咆,當(dāng)有一臺(tái)服務(wù)器Server1啟動(dòng)時(shí)禾锤,其單獨(dú)無法進(jìn)行和完成Leader選舉,當(dāng)?shù)诙_(tái)服務(wù)器Server2啟動(dòng)時(shí)摹察,此時(shí)兩臺(tái)機(jī)器可以相互通信恩掷,每臺(tái)機(jī)器都試圖找到Leader,于是進(jìn)入Leader選舉過程供嚎。選舉過程如下:

(1) 每個(gè)Server發(fā)出一個(gè)投票黄娘。由于是初始情況,Server1和Server2都會(huì)將自己作為Leader服務(wù)器來進(jìn)行投票克滴,每次投票會(huì)包含所推舉的服務(wù)器的myid和ZXID逼争,使用(myid, ZXID)來表示,此時(shí)Server1的投票為(1, 0)劝赔,Server2的投票為(2, 0)誓焦,然后各自將這個(gè)投票發(fā)給集群中其他機(jī)器。

(2) 接受來自各個(gè)服務(wù)器的投票着帽。集群的每個(gè)服務(wù)器收到投票后杂伟,首先判斷該投票的有效性,如檢查是否是本輪投票仍翰、是否來自LOOKING狀態(tài)的服務(wù)器赫粥。

(3) 處理投票。針對(duì)每一個(gè)投票予借,服務(wù)器都需要將別人的投票和自己的投票進(jìn)行PK越平,PK規(guī)則如下

a、優(yōu)先檢查ZXID蕾羊。ZXID比較大的服務(wù)器優(yōu)先作為Leader喧笔。
b、如果ZXID相同龟再,那么就比較myid。myid較大的服務(wù)器作為Leader服務(wù)器尼变。

對(duì)于Server1而言利凑,它的投票是(1, 0)浆劲,接收Server2的投票為(2, 0),首先會(huì)比較兩者的ZXID哀澈,均為0牌借,再比較myid,此時(shí)Server2的myid最大割按,于是更新自己的投票為(2, 0)膨报,然后重新投票,對(duì)于Server2而言适荣,其無須更新自己的投票现柠,只是再次向集群中所有機(jī)器發(fā)出上一次投票信息即可。

(4) 統(tǒng)計(jì)投票弛矛。每次投票后够吩,服務(wù)器都會(huì)統(tǒng)計(jì)投票信息,判斷是否已經(jīng)有過半機(jī)器接受到相同的投票信息丈氓,對(duì)于Server1周循、Server2而言,都統(tǒng)計(jì)出集群中已經(jīng)有兩臺(tái)機(jī)器接受了(2, 0)的投票信息万俗,此時(shí)便認(rèn)為已經(jīng)選出了Leader湾笛。

(5) 改變服務(wù)器狀態(tài)。一旦確定了Leader闰歪,每個(gè)服務(wù)器就會(huì)更新自己的狀態(tài)迄本,如果是Follower,那么就變更為FOLLOWING课竣,如果是Leader嘉赎,就變更為LEADING。

2于樟、服務(wù)器運(yùn)行時(shí)期的Leader選舉

在Zookeeper運(yùn)行期間公条,Leader與非Leader服務(wù)器各司其職,即便當(dāng)有非Leader服務(wù)器宕機(jī)或新加入迂曲,此時(shí)也不會(huì)影響Leader靶橱,但是一旦Leader服務(wù)器掛了,那么整個(gè)集群將暫停對(duì)外服務(wù)路捧,進(jìn)入新一輪Leader選舉关霸,其過程和啟動(dòng)時(shí)期的Leader選舉過程基本一致。假設(shè)正在運(yùn)行的有Server1杰扫、Server2队寇、Server3三臺(tái)服務(wù)器,當(dāng)前Leader是Server2章姓,若某一時(shí)刻Leader掛了佳遣,此時(shí)便開始Leader選舉识埋。選舉過程如下

(1) 變更狀態(tài)。Leader掛后零渐,余下的非Observer服務(wù)器都會(huì)講自己的服務(wù)器狀態(tài)變更為LOOKING窒舟,然后開始進(jìn)入Leader選舉過程。

(2) 每個(gè)Server會(huì)發(fā)出一個(gè)投票诵盼。在運(yùn)行期間惠豺,每個(gè)服務(wù)器上的ZXID可能不同,此時(shí)假定Server1的ZXID為123风宁,Server3的ZXID為122洁墙;在第一輪投票中,Server1和Server3都會(huì)投自己杀糯,產(chǎn)生投票(1, 123)扫俺,(3, 122),然后各自將投票發(fā)送給集群中所有機(jī)器固翰。

(3) 接收來自各個(gè)服務(wù)器的投票狼纬。與啟動(dòng)時(shí)過程相同。

(4) 處理投票骂际。與啟動(dòng)時(shí)過程相同疗琉,此時(shí),Server1將會(huì)成為Leader歉铝。

(5) 統(tǒng)計(jì)投票盈简。與啟動(dòng)時(shí)過程相同。

(6) 改變服務(wù)器的狀態(tài)太示。與啟動(dòng)時(shí)過程相同柠贤。

二、Leader選舉算法分析

在3.4.0后的Zookeeper的版本只保留了TCP版本的 FastLeaderElection 選舉算法类缤。當(dāng)一臺(tái)機(jī)器進(jìn)入Leader選舉時(shí)臼勉,當(dāng)前集群可能會(huì)處于以下兩種狀態(tài)

a、集群中已存在Leader餐弱。
b宴霸、集群中不存在Leader。

對(duì)于集群中已經(jīng)存在Leader而言膏蚓,此種情況一般都是某臺(tái)機(jī)器啟動(dòng)得較晚瓢谢,在其啟動(dòng)之前,集群已經(jīng)在正常工作驮瞧,對(duì)這種情況氓扛,該機(jī)器試圖去選舉Leader時(shí),會(huì)被告知當(dāng)前服務(wù)器的Leader信息剧董,對(duì)于該機(jī)器而言幢尚,僅僅需要和Leader機(jī)器建立起連接破停,并進(jìn)行狀態(tài)同步即可翅楼。而在集群中不存在Leader情況下則會(huì)相對(duì)復(fù)雜尉剩,其步驟如下

(1) 第一次投票。無論哪種導(dǎo)致進(jìn)行Leader選舉毅臊,集群的所有機(jī)器都處于試圖選舉出一個(gè)Leader的狀態(tài)理茎,即LOOKING狀態(tài),LOOKING機(jī)器會(huì)向所有其他機(jī)器發(fā)送消息管嬉,該消息稱為投票皂林。投票中包含了SID(服務(wù)器的唯一標(biāo)識(shí))和ZXID(事務(wù)ID),(SID, ZXID)形式來標(biāo)識(shí)一次投票信息蚯撩。假定Zookeeper由5臺(tái)機(jī)器組成础倍,SID分別為1、2胎挎、3沟启、4、5犹菇,ZXID分別為9德迹、9、9揭芍、8胳搞、8,并且此時(shí)SID為2的機(jī)器是Leader機(jī)器称杨,某一時(shí)刻肌毅,1、2所在機(jī)器出現(xiàn)故障姑原,因此集群開始進(jìn)行Leader選舉悬而。在第一次投票時(shí),每臺(tái)機(jī)器都會(huì)將自己作為投票對(duì)象页衙,于是SID為3摊滔、4、5的機(jī)器投票情況分別為(3, 9)店乐,(4, 8)艰躺, (5, 8)。

(2) 變更投票眨八。每臺(tái)機(jī)器發(fā)出投票后腺兴,也會(huì)收到其他機(jī)器的投票,每臺(tái)機(jī)器會(huì)根據(jù)一定規(guī)則來處理收到的其他機(jī)器的投票廉侧,并以此來決定是否需要變更自己的投票页响,這個(gè)規(guī)則也是整個(gè)Leader選舉算法的核心所在篓足,其中術(shù)語描述如下

vote_sid:接收到的投票中所推舉Leader服務(wù)器的SID。
vote_zxid:接收到的投票中所推舉Leader服務(wù)器的ZXID闰蚕。
self_sid:當(dāng)前服務(wù)器自己的SID栈拖。
self_zxid:當(dāng)前服務(wù)器自己的ZXID。

每次對(duì)收到的投票的處理没陡,都是對(duì)(vote_sid, vote_zxid)和(self_sid, self_zxid)對(duì)比的過程涩哟。

規(guī)則一:如果vote_zxid大于self_zxid,就認(rèn)可當(dāng)前收到的投票盼玄,并再次將該投票發(fā)送出去贴彼。
規(guī)則二:如果vote_zxid小于self_zxid,那么堅(jiān)持自己的投票埃儿,不做任何變更器仗。
規(guī)則三:如果vote_zxid等于self_zxid,那么就對(duì)比兩者的SID童番,如果vote_sid大于self_sid精钮,那么就認(rèn)可當(dāng)前收到的投票,并再次將該投票發(fā)送出去妓盲。
規(guī)則四:如果vote_zxid等于self_zxid杂拨,并且vote_sid小于self_sid,那么堅(jiān)持自己的投票悯衬,不做任何變更弹沽。

結(jié)合上面規(guī)則,給出下面的集群變更過程筋粗。

選舉過程

(3) 確定Leader策橘。經(jīng)過第二輪投票后,集群中的每臺(tái)機(jī)器都會(huì)再次接收到其他機(jī)器的投票娜亿,然后開始統(tǒng)計(jì)投票丽已,如果一臺(tái)機(jī)器收到了超過半數(shù)的相同投票,那么這個(gè)投票對(duì)應(yīng)的SID機(jī)器即為Leader买决。此時(shí)Server3將成為Leader沛婴。

由上面規(guī)則可知,通常那臺(tái)服務(wù)器上的數(shù)據(jù)越新(ZXID會(huì)越大)督赤,其成為Leader的可能性越大嘁灯,也就越能夠保證數(shù)據(jù)的恢復(fù)。如果ZXID相同躲舌,則SID越大機(jī)會(huì)越大丑婿。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子羹奉,更是在濱河造成了極大的恐慌秒旋,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件诀拭,死亡現(xiàn)場離奇詭異迁筛,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)炫加,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門瑰煎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來铺然,“玉大人俗孝,你說我怎么就攤上這事∑墙。” “怎么了赋铝?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長沽瘦。 經(jīng)常有香客問我革骨,道長,這世上最難降的妖魔是什么析恋? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任良哲,我火速辦了婚禮,結(jié)果婚禮上助隧,老公的妹妹穿的比我還像新娘筑凫。我一直安慰自己,他們只是感情好并村,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布巍实。 她就那樣靜靜地躺著,像睡著了一般哩牍。 火紅的嫁衣襯著肌膚如雪棚潦。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天膝昆,我揣著相機(jī)與錄音丸边,去河邊找鬼。 笑死荚孵,一個(gè)胖子當(dāng)著我的面吹牛妹窖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播处窥,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼嘱吗,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起谒麦,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤俄讹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后绕德,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體患膛,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年耻蛇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了踪蹬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡臣咖,死狀恐怖跃捣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情夺蛇,我是刑警寧澤疚漆,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站刁赦,受9級(jí)特大地震影響娶聘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜甚脉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一丸升、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧牺氨,春花似錦狡耻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至精堕,卻和暖如春孵淘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背歹篓。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國打工瘫证, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人庄撮。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓背捌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親洞斯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子毡庆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容