理解分布式一致性Raft協(xié)議

在分布式系統(tǒng)中靡馁,分布式一致性是一個非常重要的概念,它是指分布式系統(tǒng)的各個服務(wù)器都保持一個統(tǒng)一的狀態(tài)(數(shù)據(jù))抄瑟。但是在分布式系統(tǒng)中,通常由于網(wǎng)絡(luò)枉疼,系統(tǒng)狀態(tài)等原因會導(dǎo)致某些服務(wù)不可用或者不可靠皮假。這就需要一種分布式一致性的協(xié)議來保證系統(tǒng)在某些服務(wù)失敗的情況下仍然整體可用。

Raft協(xié)議是受到Paxos的影響而產(chǎn)生的骂维,相對于Paxos而言惹资,Raft協(xié)議更加簡單易懂。我會在后面的博客里面專門詳細(xì)介紹Paxos協(xié)議的具體內(nèi)容航闺。這里我們重點討論Raft協(xié)議褪测。

什么是分布式一致性

下面舉個例子:

假如我們有一個單節(jié)點的服務(wù)節(jié)點A,這個單節(jié)點的服務(wù)只是用來存儲一個字母。同時我們還有一個客戶端向這個服務(wù)發(fā)起更新數(shù)據(jù)的請求汰扭。

對于單節(jié)點的分布式一致性來說稠肘,服務(wù)響應(yīng)客戶端的更新請求即可。但是當(dāng)我們有多個服務(wù)節(jié)點的情況下會怎么樣呢萝毛?



Raft協(xié)議就是保證多個服務(wù)器節(jié)點數(shù)據(jù)一致性的協(xié)議项阴。

接下來我們看看Raft是怎么工作的。

Raft協(xié)議中笆包,一個服務(wù)器的節(jié)點可以是以下三種狀態(tài)中的任意一個:

  1. Follower 狀態(tài):跟隨者环揽,被動接收數(shù)據(jù)。我們用實心圓表示庵佣。


  2. Candidate 狀態(tài):候選人歉胶,可以被選做Leader。我們用實心圓+虛線邊框表示巴粪。


  3. Leader 狀態(tài):領(lǐng)導(dǎo)者通今,處理所有客戶端交互,日志復(fù)制等肛根,一般一次只有一個Leader. 我們用實心圓+實線邊框表示辫塌。


Leader選舉

所有的節(jié)點都是從Follower狀態(tài)開始的。


如果Follower在一定的時間里面沒有收到選舉請求或者Leader節(jié)點的回復(fù)派哲,F(xiàn)ollower則會轉(zhuǎn)變?yōu)镃andidate臼氨。


Candidate會發(fā)送選舉請求給所有的其他節(jié)點,收到選舉請求的其他節(jié)點會反饋回Candidate芭届,當(dāng)Candidate收到的所有響應(yīng)數(shù)目大于n/2 時储矩,Candidate會認(rèn)為絕大多數(shù)節(jié)點已經(jīng)選我作為Leader了,這時候Candidate就會轉(zhuǎn)變?yōu)長eader褂乍。接下來所有的數(shù)據(jù)變化都會經(jīng)由Leader發(fā)起持隧。


日志復(fù)制流程

在Raft系統(tǒng)中,所有的數(shù)據(jù)變化都是以日志記錄的形式添加到服務(wù)節(jié)點之中逃片。服務(wù)節(jié)點會不斷的讀取日志記錄舆蝴,并將日志記錄更新到服務(wù)節(jié)點的數(shù)據(jù)中。日志記錄最開始的狀態(tài)是uncommited, 更新之后狀態(tài)則變?yōu)閏ommited.

為了實現(xiàn)所有服務(wù)節(jié)點的一致性更新题诵,步驟如下:

  1. client 發(fā)送數(shù)據(jù)更改請求到Leader


  2. Leader復(fù)制日志記錄到Follower節(jié)點


  3. Leader等待大多數(shù)節(jié)點完成復(fù)制日志記錄洁仗。
  4. Leader節(jié)點commit 當(dāng)前日志記錄,并更新Leader節(jié)點的數(shù)據(jù)性锭。


    image.png
  5. Leader通知Follower節(jié)點該日志記錄已經(jīng)commit.
  6. Follower節(jié)點commit該日志記錄赠潦。


  7. 整個分布式系統(tǒng)實現(xiàn)了數(shù)據(jù)一致性。

term選舉周期

在Raft 協(xié)議中草冈,有一個term的概念她奥。term是一個選舉周期瓮增,一個term周期只會產(chǎn)生一個Leader,term連續(xù)遞增哩俭。

timeout

在Raft協(xié)議中绷跑,為了保證選舉和數(shù)據(jù)更新的順利進(jìn)行,規(guī)定了兩種類型的timeout:
選舉timeout和心跳timeout凡资。

選舉和選舉timeout

  1. 每個term開始時砸捏,會重置選舉timeout。在一個term中隙赁,F(xiàn)ollower會等待timeout的時間垦藏,如果超出這個時間還沒有得到其他節(jié)點的選舉請求伞访,F(xiàn)ollower會主動轉(zhuǎn)變?yōu)镃andidate,并且term+1厚掷,意味著開啟了新的選舉周期。

    選舉timeout是150ms-300ms之間的一個隨機(jī)數(shù)冒黑,之所以隨機(jī)產(chǎn)生timeout,是為了避免同時產(chǎn)生多個Candidate的情況薛闪。

    當(dāng)Follower轉(zhuǎn)變?yōu)镃andidate之后俺陋,term加1, 然后開始新一輪的選舉腊状。Candidate首先會將自己的Vote Count 加1,然后發(fā)送請求選舉的消息給其他節(jié)點缴挖。



  2. 接收節(jié)點首先會比較term的大小,如果自己的term小于Candidate的term映屋,則更新自己的term和Candidate的term保持一致苟鸯,并重置timeout。如果接收節(jié)點在這個term中還沒有做任何選舉早处,則會返回選舉響應(yīng)消息給Candidate節(jié)點瘫析。


  3. Candidate 節(jié)點收到大部分節(jié)點的選舉響應(yīng)之后默责,會變成Leader 節(jié)點。


  4. 一個選舉周期完成咸包,接下來Leader 發(fā)送更新日志給Follower節(jié)點桃序,進(jìn)入日志更新階段烂瘫。

選舉分裂

值得注意的是Candidate只有得到超出n/2個節(jié)點的選舉響應(yīng)才能變?yōu)長eader節(jié)點。如果兩個Follower節(jié)點同時變成Candidate節(jié)點忱反,則會產(chǎn)生選舉分裂的問題泛释。
現(xiàn)在假設(shè)我們總共有4個節(jié)點,其中兩個節(jié)點同時變成Candidate節(jié)點温算,并向其余兩個節(jié)點發(fā)送選舉請求:



節(jié)點B,C成為Candidate節(jié)點并行向節(jié)點A茄茁,D發(fā)送選舉請求巩割。



節(jié)點A,D分別響應(yīng)節(jié)點B愈犹,C的請求闻丑,這時候兩個Candidate節(jié)點由于得到的Vote都是2,不滿足大于n/2的條件嗦嗡,則其不能轉(zhuǎn)變?yōu)長eader節(jié)點,繼續(xù)等待timeout至新的term開始并開啟新一輪的選舉叁执,只到符合條件為止矮冬。

日志復(fù)制和心跳timeout

當(dāng)系統(tǒng)進(jìn)入到日志復(fù)制階段,Leader節(jié)點會以心跳timeout的節(jié)奏向Follower節(jié)點發(fā)送日志記錄入挣,并且需要確保所有的節(jié)點都能夠接受到完整的日志記錄硝拧。

  1. 客戶發(fā)送set 5 給Leader葛假, 在下一個心跳timeout滋恬,Leader將set 5的日志記錄發(fā)給Follower。


  2. Leader 收到大部分節(jié)點的ack 響應(yīng)之后带斑,commit 該日志記錄勋拟。


  3. Leader通知Client已經(jīng)提交該日志記錄,同時通知Follower 提交該日志記錄挂滓。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末纺念,一起剝皮案震驚了整個濱河市陷谱,隨后出現(xiàn)的幾起案子渣窜,更是在濱河造成了極大的恐慌,老刑警劉巖眷唉,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件党饮,死亡現(xiàn)場離奇詭異刑顺,居然都是意外死亡狼讨,警方通過查閱死者的電腦和手機(jī)政供,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來招刨,“玉大人计济,你說我怎么就攤上這事沦寂〈兀” “怎么了?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我洲胖,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上凝颇,老公的妹妹穿的比我還像新娘拧略。我一直安慰自己垫蛆,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般帜篇。 火紅的嫁衣襯著肌膚如雪洪灯。 梳的紋絲不亂的頭發(fā)上签钩,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天哄尔,我揣著相機(jī)與錄音富拗,去河邊找鬼啃沪。 笑死创千,一個胖子當(dāng)著我的面吹牛追驴,可吹牛的內(nèi)容都是我干的殿雪。 我是一名探鬼主播爸业,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼扯旷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了惰瓜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎男翰,沒想到半個月后蛾绎,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡顽爹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了涉馅。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片稚矿。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖昧识,靈堂內(nèi)的尸體忽然破棺而出跪楞,到底是詐尸還是另有隱情甸祭,我是刑警寧澤池户,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站寨典,受9級特大地震影響耸成,放射性物質(zhì)發(fā)生泄漏墓猎。R本人自食惡果不足惜毙沾,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一举户、第九天 我趴在偏房一處隱蔽的房頂上張望躺枕。 院中可真熱鬧拐云,春花似錦、人聲如沸粘捎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽梧奢。三九已至亲轨,卻和暖如春惦蚊,著一層夾襖步出監(jiān)牢的瞬間兆沙,已是汗流浹背莉掂。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留褥符,地道東北人喷楣。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓魂迄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親熊昌。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容