圖解Raft:最簡(jiǎn)單易懂的分布式一致性算法

分布式一致性

想象一下,我們有一個(gè)單節(jié)點(diǎn)系統(tǒng)馍悟,且作為數(shù)據(jù)庫(kù)服務(wù)器畔濒,然后存儲(chǔ)了一個(gè)值(假設(shè)為X)。然后锣咒,有一個(gè)客戶(hù)端往服務(wù)器發(fā)送了一個(gè)值(假設(shè)為8)篓冲。只要服務(wù)器接受到這個(gè)值即可,這個(gè)值在單節(jié)點(diǎn)上的一致性非常容易保證:

image

但是宠哄,如果數(shù)據(jù)庫(kù)服務(wù)器有多個(gè)節(jié)點(diǎn)呢?比如嗤攻,如下圖所示毛嫉,有三個(gè)節(jié)點(diǎn):a,b妇菱,c承粤。這時(shí)候客戶(hù)端對(duì)這個(gè)由3個(gè)節(jié)點(diǎn)組成的數(shù)據(jù)庫(kù)集群進(jìn)行操作時(shí)的值一致性如何保證,這就是分布式一致性問(wèn)題闯团。而Raft就是一種實(shí)現(xiàn)了分布式一致性的協(xié)議(還有其他一些一致性算法辛臊,例如:ZAB、PAXOS等):

image

一些概念

講解Raft算法之前房交,先普及一些Raft協(xié)議涉及到的概念:
term:任期彻舰,比如新的選舉任期,即整個(gè)集群初始化時(shí),或者新的Leader選舉就會(huì)開(kāi)始一個(gè)新的選舉任期刃唤。
大多數(shù):假設(shè)一個(gè)集群由N個(gè)節(jié)點(diǎn)組成隔心,那么大多數(shù)就是至少N/2+1。例如:3個(gè)節(jié)點(diǎn)的集群尚胞,大多數(shù)就是至少2硬霍;5個(gè)節(jié)點(diǎn)的集群,大多數(shù)就是至少3笼裳。
狀態(tài):每個(gè)節(jié)點(diǎn)有三種狀態(tài)唯卖,且某一時(shí)刻只能是三種狀態(tài)中的一種:Follower(圖左),Candidate(圖中)躬柬,Leader(圖右)拜轨。假設(shè)三種狀態(tài)不同圖案如下所示:

image

初始化狀態(tài)時(shí),三個(gè)節(jié)點(diǎn)都是Follower狀態(tài)楔脯,并且term為0撩轰,如下圖所示:

image

Leader選舉

Leader選舉需要某個(gè)節(jié)點(diǎn)發(fā)起投票,在確定哪個(gè)節(jié)點(diǎn)向其他節(jié)點(diǎn)發(fā)起投票之前昧廷,每個(gè)節(jié)點(diǎn)會(huì)分配一個(gè)隨機(jī)的選舉超時(shí)時(shí)間(election timeout)堪嫂。在這個(gè)時(shí)間內(nèi),節(jié)點(diǎn)必須等待木柬,不能成為Candidate狀態(tài)。現(xiàn)在假設(shè)節(jié)點(diǎn)a等待168ms , 節(jié)點(diǎn)b等待210ms , 節(jié)點(diǎn)c等待200ms 恶复。由于a的等待時(shí)間最短谤牡,所以它會(huì)最先成為Candidate,并向另外兩個(gè)節(jié)點(diǎn)發(fā)起投票請(qǐng)求姥宝,希望它們能選舉自己為L(zhǎng)eader:

image

另外兩個(gè)節(jié)點(diǎn)收到請(qǐng)求后翅萤,假設(shè)將它們的投票返回給Candidate狀態(tài)節(jié)點(diǎn)a,節(jié)點(diǎn)a由于得到了大多數(shù)節(jié)點(diǎn)的投票腊满,就會(huì)從Candidate變?yōu)長(zhǎng)eader套么,如下圖所示,這個(gè)過(guò)程就叫做Leader選舉(Leader Election)胚泌。接下來(lái)肃弟,這個(gè)分布式系統(tǒng)所有的改變都要先經(jīng)過(guò)節(jié)點(diǎn)a玷室,即Leader節(jié)點(diǎn):

image

如果某個(gè)時(shí)刻零蓉,F(xiàn)ollower不再收到Leader的消息,它就會(huì)變成Candidate绅项。然后請(qǐng)求其他節(jié)點(diǎn)給他投票(類(lèi)似拉票一樣)紊册。其他節(jié)點(diǎn)就會(huì)回復(fù)它投票結(jié)果,如果它能得到大多數(shù)節(jié)點(diǎn)的投票快耿,它就能成為新的Leader囊陡。

日志復(fù)制

假設(shè)接下來(lái)客戶(hù)端發(fā)起一個(gè)SET 5的請(qǐng)求,這個(gè)請(qǐng)求會(huì)首先由leader即節(jié)點(diǎn)a接收到掀亥,并且節(jié)點(diǎn)a寫(xiě)入一條日志撞反。由于這條日志還沒(méi)被其他任何節(jié)點(diǎn)接收,所以它的狀態(tài)是uncommitted搪花。

image

為了提交這條日志遏片,Leader會(huì)將這條日志通過(guò)心跳消息復(fù)制給其他的Follower節(jié)點(diǎn):

image

一旦有大多數(shù)節(jié)點(diǎn)成功寫(xiě)入這條日志,那么Leader節(jié)點(diǎn)的這條日志狀態(tài)就會(huì)更新為committed狀態(tài)撮竿,并且值更新為5:

image

Leader節(jié)點(diǎn)然后通知其他Follower節(jié)點(diǎn)吮便,其他節(jié)點(diǎn)也會(huì)將值更新為5。如下圖所示幢踏,這個(gè)時(shí)候集群的狀態(tài)是完全一致的髓需,這個(gè)過(guò)程就叫做日志復(fù)制(Log Replication):

image

兩個(gè)超時(shí)

接下來(lái)介紹Raft中兩個(gè)很重要的超時(shí)設(shè)置:選舉超時(shí)和心跳超時(shí)。

  • 選舉超時(shí)

為了防止3個(gè)節(jié)點(diǎn)(假設(shè)集群由3個(gè)節(jié)點(diǎn)組成)同時(shí)發(fā)起投票房蝉,會(huì)給每個(gè)節(jié)點(diǎn)分配一個(gè)隨機(jī)的選舉超時(shí)時(shí)間(Election Timeout)僚匆,即從Follower狀態(tài)成為Candidate狀態(tài)需要等待的時(shí)間。在這個(gè)時(shí)間內(nèi)搭幻,節(jié)點(diǎn)必須等待咧擂,不能成為Candidate狀態(tài)。如下圖所示檀蹋,節(jié)點(diǎn)C優(yōu)先成為Candidate松申,而節(jié)點(diǎn)A和B還在等待中:

image
  • 心跳超時(shí)

如下圖所示,節(jié)點(diǎn)A和C投票給了B续扔,所以節(jié)點(diǎn)B是leader節(jié)點(diǎn)。節(jié)點(diǎn)B會(huì)固定間隔時(shí)間向兩個(gè)Follower節(jié)點(diǎn)A和C發(fā)送心跳消息焕数,這個(gè)固定間隔時(shí)間被稱(chēng)為heartbeat timeout纱昧。Follower節(jié)點(diǎn)收到每一條日志信息都需要向Leader節(jié)點(diǎn)響應(yīng)這條日志復(fù)制的結(jié)果:

image

重新選舉

選舉過(guò)程中,如果Leader節(jié)點(diǎn)出現(xiàn)故障堡赔,就會(huì)觸發(fā)重新選舉识脆。如下圖所示,Leader節(jié)點(diǎn)B故障(灰色),這時(shí)候節(jié)點(diǎn)A和C就會(huì)等待一個(gè)隨機(jī)時(shí)間(選舉超時(shí))灼捂,誰(shuí)等待的時(shí)候更短离例,誰(shuí)就先成為Candidate,然后向其他節(jié)點(diǎn)發(fā)送投票請(qǐng)求:

image

如果節(jié)點(diǎn)A能得得到節(jié)點(diǎn)C的投票悉稠,加上自己的投票宫蛆,就有大多數(shù)選票。那么節(jié)點(diǎn)A將成為新的Leader節(jié)點(diǎn)的猛,并且Term即任期的值加1更新到2:

image

需要說(shuō)明的是耀盗,每個(gè)選舉期只會(huì)選出一個(gè)Leader。假設(shè)同一時(shí)間有兩個(gè)節(jié)點(diǎn)成為Candidate(它們隨機(jī)等待選舉超時(shí)時(shí)間剛好一樣)卦尊,如下圖所示叛拷,并且假設(shè)節(jié)點(diǎn)A收到了節(jié)點(diǎn)B的投票,而節(jié)點(diǎn)C收到了節(jié)點(diǎn)D的投票:

image

這種情況下岂却,就會(huì)觸發(fā)一次新的選舉忿薇,節(jié)點(diǎn)A和節(jié)點(diǎn)B又等待一個(gè)隨機(jī)的選舉超時(shí)時(shí)間,直到一方勝出:

image

我們假設(shè)節(jié)點(diǎn)A能得到大多數(shù)投票躏哩,那么接下來(lái)節(jié)點(diǎn)A就會(huì)成為新的Leader節(jié)點(diǎn)署浩,并且任期term加1:

image

網(wǎng)絡(luò)分區(qū)

在發(fā)生網(wǎng)絡(luò)分區(qū)的時(shí)候,Raft一樣能保持一致性震庭。如下圖所示瑰抵,假設(shè)我們的集群由5個(gè)節(jié)點(diǎn)組成,且節(jié)點(diǎn)B是Leader節(jié)點(diǎn):

image

我們假設(shè)發(fā)生了網(wǎng)絡(luò)分區(qū):節(jié)點(diǎn)A和B在一個(gè)網(wǎng)絡(luò)分區(qū)器联,節(jié)點(diǎn)C二汛、D和E在另一個(gè)網(wǎng)絡(luò)分區(qū),如下圖所示拨拓,且節(jié)點(diǎn)B和節(jié)點(diǎn)C分別是兩個(gè)網(wǎng)絡(luò)分區(qū)中的Leader節(jié)點(diǎn):

image

我們假設(shè)還有一個(gè)客戶(hù)端肴颊,并且往節(jié)點(diǎn)B上發(fā)送了一個(gè)SET 3,由于網(wǎng)絡(luò)分區(qū)的原因渣磷,這個(gè)值不能被另一個(gè)網(wǎng)絡(luò)分區(qū)中的Leader即節(jié)點(diǎn)C拿到婿着,它最多只能被兩個(gè)節(jié)點(diǎn)(節(jié)點(diǎn)B和C)感知到,所以它的狀態(tài)是uncomitted(紅色):

image

另一個(gè)客戶(hù)端準(zhǔn)備執(zhí)行SET 8的操作醋界,由于可以被同一個(gè)分區(qū)下總計(jì)三個(gè)節(jié)點(diǎn)(節(jié)點(diǎn)C竟宋、D和E)感知到,3個(gè)節(jié)點(diǎn)已經(jīng)符合大多數(shù)節(jié)點(diǎn)的條件形纺。所以丘侠,這個(gè)值的狀態(tài)就是committed:

image

接下來(lái),我們假設(shè)網(wǎng)絡(luò)恢復(fù)正常逐样,如下圖所示蜗字。節(jié)點(diǎn)B能感知到C節(jié)點(diǎn)這個(gè)Leader的存在打肝,它就會(huì)從Leader狀態(tài)退回到Follower狀態(tài),并且節(jié)點(diǎn)A和B會(huì)回滾之前沒(méi)有提交的日志(SET 3產(chǎn)生的uncommitted日志)挪捕。同時(shí)粗梭,節(jié)點(diǎn)A和B會(huì)從新的Leader節(jié)點(diǎn)即C節(jié)點(diǎn)獲取最新的日志(SET 8產(chǎn)生的日志),從而將它們的值更新為8级零。如此以來(lái)断医,整個(gè)集群的5個(gè)節(jié)點(diǎn)數(shù)據(jù)完全一致了:

image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市妄讯,隨后出現(xiàn)的幾起案子孩锡,更是在濱河造成了極大的恐慌,老刑警劉巖亥贸,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件躬窜,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡炕置,警方通過(guò)查閱死者的電腦和手機(jī)荣挨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)朴摊,“玉大人默垄,你說(shuō)我怎么就攤上這事∩醺伲” “怎么了口锭?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)介杆。 經(jīng)常有香客問(wèn)我鹃操,道長(zhǎng),這世上最難降的妖魔是什么春哨? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任荆隘,我火速辦了婚禮,結(jié)果婚禮上赴背,老公的妹妹穿的比我還像新娘椰拒。我一直安慰自己,他們只是感情好凰荚,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布燃观。 她就那樣靜靜地躺著,像睡著了一般便瑟。 火紅的嫁衣襯著肌膚如雪缆毁。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,562評(píng)論 1 305
  • 那天胳徽,我揣著相機(jī)與錄音积锅,去河邊找鬼。 笑死养盗,一個(gè)胖子當(dāng)著我的面吹牛缚陷,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播往核,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼箫爷,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了聂儒?” 一聲冷哼從身側(cè)響起虎锚,我...
    開(kāi)封第一講書(shū)人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎衩婚,沒(méi)想到半個(gè)月后窜护,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡非春,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年柱徙,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奇昙。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡护侮,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出储耐,到底是詐尸還是另有隱情羊初,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布什湘,位于F島的核電站长赞,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏禽炬。R本人自食惡果不足惜涧卵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望腹尖。 院中可真熱鬧柳恐,春花似錦、人聲如沸热幔。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)绎巨。三九已至近尚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間场勤,已是汗流浹背戈锻。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工歼跟, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人格遭。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓哈街,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親拒迅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子骚秦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容