一、Leader選舉過程
Leader選舉是保證分布式數(shù)據(jù)一致性的關(guān)鍵所在绵载。當(dāng)Zookeeper集群中的一臺(tái)服務(wù)器出現(xiàn)以下兩種情況之一時(shí)埂陆,需要進(jìn)入Leader選舉苛白。
(1) 服務(wù)器初始化啟動(dòng)。
(2) 服務(wù)器運(yùn)行期間無法和Leader保持連接焚虱。
下面就兩種情況進(jìn)行分析講解丸氛。
1、服務(wù)器啟動(dòng)時(shí)期的Leader選舉
若進(jìn)行Leader選舉著摔,則至少需要兩臺(tái)機(jī)器缓窜,這里選取3臺(tái)機(jī)器組成的服務(wù)器集群為例。在集群初始化階段谍咆,當(dāng)有一臺(tái)服務(wù)器Server1啟動(dòng)時(shí)禾锤,其單獨(dú)無法進(jìn)行和完成Leader選舉,當(dāng)?shù)诙_(tái)服務(wù)器Server2啟動(dòng)時(shí)摹察,此時(shí)兩臺(tái)機(jī)器可以相互通信恩掷,每臺(tái)機(jī)器都試圖找到Leader,于是進(jìn)入Leader選舉過程供嚎。選舉過程如下:
(1) 每個(gè)Server發(fā)出一個(gè)投票黄娘。由于是初始情況,Server1和Server2都會(huì)將自己作為Leader服務(wù)器來進(jìn)行投票克滴,每次投票會(huì)包含所推舉的服務(wù)器的myid和ZXID逼争,使用(myid, ZXID)來表示,此時(shí)Server1的投票為(1, 0)劝赔,Server2的投票為(2, 0)誓焦,然后各自將這個(gè)投票發(fā)給集群中其他機(jī)器。
(2) 接受來自各個(gè)服務(wù)器的投票着帽。集群的每個(gè)服務(wù)器收到投票后杂伟,首先判斷該投票的有效性,如檢查是否是本輪投票仍翰、是否來自LOOKING狀態(tài)的服務(wù)器赫粥。
(3) 處理投票。針對(duì)每一個(gè)投票予借,服務(wù)器都需要將別人的投票和自己的投票進(jìn)行PK越平,PK規(guī)則如下
a、優(yōu)先檢查ZXID蕾羊。ZXID比較大的服務(wù)器優(yōu)先作為Leader喧笔。
b、如果ZXID相同龟再,那么就比較myid。myid較大的服務(wù)器作為Leader服務(wù)器尼变。
對(duì)于Server1而言利凑,它的投票是(1, 0)浆劲,接收Server2的投票為(2, 0),首先會(huì)比較兩者的ZXID哀澈,均為0牌借,再比較myid,此時(shí)Server2的myid最大割按,于是更新自己的投票為(2, 0)膨报,然后重新投票,對(duì)于Server2而言适荣,其無須更新自己的投票现柠,只是再次向集群中所有機(jī)器發(fā)出上一次投票信息即可。
(4) 統(tǒng)計(jì)投票弛矛。每次投票后够吩,服務(wù)器都會(huì)統(tǒng)計(jì)投票信息,判斷是否已經(jīng)有過半機(jī)器接受到相同的投票信息丈氓,對(duì)于Server1周循、Server2而言,都統(tǒng)計(jì)出集群中已經(jīng)有兩臺(tái)機(jī)器接受了(2, 0)的投票信息万俗,此時(shí)便認(rèn)為已經(jīng)選出了Leader湾笛。
(5) 改變服務(wù)器狀態(tài)。一旦確定了Leader闰歪,每個(gè)服務(wù)器就會(huì)更新自己的狀態(tài)迄本,如果是Follower,那么就變更為FOLLOWING课竣,如果是Leader嘉赎,就變更為LEADING。
2于樟、服務(wù)器運(yùn)行時(shí)期的Leader選舉
在Zookeeper運(yùn)行期間公条,Leader與非Leader服務(wù)器各司其職,即便當(dāng)有非Leader服務(wù)器宕機(jī)或新加入迂曲,此時(shí)也不會(huì)影響Leader靶橱,但是一旦Leader服務(wù)器掛了,那么整個(gè)集群將暫停對(duì)外服務(wù)路捧,進(jìn)入新一輪Leader選舉关霸,其過程和啟動(dòng)時(shí)期的Leader選舉過程基本一致。假設(shè)正在運(yùn)行的有Server1杰扫、Server2队寇、Server3三臺(tái)服務(wù)器,當(dāng)前Leader是Server2章姓,若某一時(shí)刻Leader掛了佳遣,此時(shí)便開始Leader選舉识埋。選舉過程如下
(1) 變更狀態(tài)。Leader掛后零渐,余下的非Observer服務(wù)器都會(huì)講自己的服務(wù)器狀態(tài)變更為LOOKING窒舟,然后開始進(jìn)入Leader選舉過程。
(2) 每個(gè)Server會(huì)發(fā)出一個(gè)投票诵盼。在運(yùn)行期間惠豺,每個(gè)服務(wù)器上的ZXID可能不同,此時(shí)假定Server1的ZXID為123风宁,Server3的ZXID為122洁墙;在第一輪投票中,Server1和Server3都會(huì)投自己杀糯,產(chǎn)生投票(1, 123)扫俺,(3, 122),然后各自將投票發(fā)送給集群中所有機(jī)器固翰。
(3) 接收來自各個(gè)服務(wù)器的投票狼纬。與啟動(dòng)時(shí)過程相同。
(4) 處理投票骂际。與啟動(dòng)時(shí)過程相同疗琉,此時(shí),Server1將會(huì)成為Leader歉铝。
(5) 統(tǒng)計(jì)投票盈简。與啟動(dòng)時(shí)過程相同。
(6) 改變服務(wù)器的狀態(tài)太示。與啟動(dòng)時(shí)過程相同柠贤。
二、Leader選舉算法分析
在3.4.0后的Zookeeper的版本只保留了TCP版本的 FastLeaderElection 選舉算法类缤。當(dāng)一臺(tái)機(jī)器進(jìn)入Leader選舉時(shí)臼勉,當(dāng)前集群可能會(huì)處于以下兩種狀態(tài)
a、集群中已存在Leader餐弱。
b宴霸、集群中不存在Leader。
對(duì)于集群中已經(jīng)存在Leader而言膏蚓,此種情況一般都是某臺(tái)機(jī)器啟動(dòng)得較晚瓢谢,在其啟動(dòng)之前,集群已經(jīng)在正常工作驮瞧,對(duì)這種情況氓扛,該機(jī)器試圖去選舉Leader時(shí),會(huì)被告知當(dāng)前服務(wù)器的Leader信息剧董,對(duì)于該機(jī)器而言幢尚,僅僅需要和Leader機(jī)器建立起連接破停,并進(jìn)行狀態(tài)同步即可翅楼。而在集群中不存在Leader情況下則會(huì)相對(duì)復(fù)雜尉剩,其步驟如下
(1) 第一次投票。無論哪種導(dǎo)致進(jìn)行Leader選舉毅臊,集群的所有機(jī)器都處于試圖選舉出一個(gè)Leader的狀態(tài)理茎,即LOOKING狀態(tài),LOOKING機(jī)器會(huì)向所有其他機(jī)器發(fā)送消息管嬉,該消息稱為投票皂林。投票中包含了SID(服務(wù)器的唯一標(biāo)識(shí))和ZXID(事務(wù)ID),(SID, ZXID)形式來標(biāo)識(shí)一次投票信息蚯撩。假定Zookeeper由5臺(tái)機(jī)器組成础倍,SID分別為1、2胎挎、3沟启、4、5犹菇,ZXID分別為9德迹、9、9揭芍、8胳搞、8,并且此時(shí)SID為2的機(jī)器是Leader機(jī)器称杨,某一時(shí)刻肌毅,1、2所在機(jī)器出現(xiàn)故障姑原,因此集群開始進(jìn)行Leader選舉悬而。在第一次投票時(shí),每臺(tái)機(jī)器都會(huì)將自己作為投票對(duì)象页衙,于是SID為3摊滔、4、5的機(jī)器投票情況分別為(3, 9)店乐,(4, 8)艰躺, (5, 8)。
(2) 變更投票眨八。每臺(tái)機(jī)器發(fā)出投票后腺兴,也會(huì)收到其他機(jī)器的投票,每臺(tái)機(jī)器會(huì)根據(jù)一定規(guī)則來處理收到的其他機(jī)器的投票廉侧,并以此來決定是否需要變更自己的投票页响,這個(gè)規(guī)則也是整個(gè)Leader選舉算法的核心所在篓足,其中術(shù)語描述如下
vote_sid:接收到的投票中所推舉Leader服務(wù)器的SID。
vote_zxid:接收到的投票中所推舉Leader服務(wù)器的ZXID闰蚕。
self_sid:當(dāng)前服務(wù)器自己的SID栈拖。
self_zxid:當(dāng)前服務(wù)器自己的ZXID。
每次對(duì)收到的投票的處理没陡,都是對(duì)(vote_sid, vote_zxid)和(self_sid, self_zxid)對(duì)比的過程涩哟。
規(guī)則一:如果vote_zxid大于self_zxid,就認(rèn)可當(dāng)前收到的投票盼玄,并再次將該投票發(fā)送出去贴彼。
規(guī)則二:如果vote_zxid小于self_zxid,那么堅(jiān)持自己的投票埃儿,不做任何變更器仗。
規(guī)則三:如果vote_zxid等于self_zxid,那么就對(duì)比兩者的SID童番,如果vote_sid大于self_sid精钮,那么就認(rèn)可當(dāng)前收到的投票,并再次將該投票發(fā)送出去妓盲。
規(guī)則四:如果vote_zxid等于self_zxid杂拨,并且vote_sid小于self_sid,那么堅(jiān)持自己的投票悯衬,不做任何變更弹沽。
結(jié)合上面規(guī)則,給出下面的集群變更過程筋粗。
(3) 確定Leader策橘。經(jīng)過第二輪投票后,集群中的每臺(tái)機(jī)器都會(huì)再次接收到其他機(jī)器的投票娜亿,然后開始統(tǒng)計(jì)投票丽已,如果一臺(tái)機(jī)器收到了超過半數(shù)的相同投票,那么這個(gè)投票對(duì)應(yīng)的SID機(jī)器即為Leader买决。此時(shí)Server3將成為Leader沛婴。
由上面規(guī)則可知,通常那臺(tái)服務(wù)器上的數(shù)據(jù)越新(ZXID會(huì)越大)督赤,其成為Leader的可能性越大嘁灯,也就越能夠保證數(shù)據(jù)的恢復(fù)。如果ZXID相同躲舌,則SID越大機(jī)會(huì)越大丑婿。