在分布式系統(tǒng)中靡馁,分布式一致性是一個非常重要的概念,它是指分布式系統(tǒng)的各個服務(wù)器都保持一個統(tǒng)一的狀態(tài)(數(shù)據(jù))抄瑟。但是在分布式系統(tǒng)中,通常由于網(wǎng)絡(luò)枉疼,系統(tǒng)狀態(tài)等原因會導(dǎo)致某些服務(wù)不可用或者不可靠皮假。這就需要一種分布式一致性的協(xié)議來保證系統(tǒng)在某些服務(wù)失敗的情況下仍然整體可用。
Raft協(xié)議是受到Paxos的影響而產(chǎn)生的骂维,相對于Paxos而言惹资,Raft協(xié)議更加簡單易懂。我會在后面的博客里面專門詳細(xì)介紹Paxos協(xié)議的具體內(nèi)容航闺。這里我們重點討論Raft協(xié)議褪测。
什么是分布式一致性
下面舉個例子:
假如我們有一個單節(jié)點的服務(wù)節(jié)點A,這個單節(jié)點的服務(wù)只是用來存儲一個字母。同時我們還有一個客戶端向這個服務(wù)發(fā)起更新數(shù)據(jù)的請求汰扭。
對于單節(jié)點的分布式一致性來說稠肘,服務(wù)響應(yīng)客戶端的更新請求即可。但是當(dāng)我們有多個服務(wù)節(jié)點的情況下會怎么樣呢萝毛?
Raft協(xié)議就是保證多個服務(wù)器節(jié)點數(shù)據(jù)一致性的協(xié)議项阴。
接下來我們看看Raft是怎么工作的。
Raft協(xié)議中笆包,一個服務(wù)器的節(jié)點可以是以下三種狀態(tài)中的任意一個:
-
Follower 狀態(tài):跟隨者环揽,被動接收數(shù)據(jù)。我們用實心圓表示庵佣。
-
Candidate 狀態(tài):候選人歉胶,可以被選做Leader。我們用實心圓+虛線邊框表示巴粪。
-
Leader 狀態(tài):領(lǐng)導(dǎo)者通今,處理所有客戶端交互,日志復(fù)制等肛根,一般一次只有一個Leader. 我們用實心圓+實線邊框表示辫塌。
Leader選舉
所有的節(jié)點都是從Follower狀態(tài)開始的。
如果Follower在一定的時間里面沒有收到選舉請求或者Leader節(jié)點的回復(fù)派哲,F(xiàn)ollower則會轉(zhuǎn)變?yōu)镃andidate臼氨。
Candidate會發(fā)送選舉請求給所有的其他節(jié)點,收到選舉請求的其他節(jié)點會反饋回Candidate芭届,當(dāng)Candidate收到的所有響應(yīng)數(shù)目大于n/2 時储矩,Candidate會認(rèn)為絕大多數(shù)節(jié)點已經(jīng)選我作為Leader了,這時候Candidate就會轉(zhuǎn)變?yōu)長eader褂乍。接下來所有的數(shù)據(jù)變化都會經(jīng)由Leader發(fā)起持隧。
日志復(fù)制流程
在Raft系統(tǒng)中,所有的數(shù)據(jù)變化都是以日志記錄的形式添加到服務(wù)節(jié)點之中逃片。服務(wù)節(jié)點會不斷的讀取日志記錄舆蝴,并將日志記錄更新到服務(wù)節(jié)點的數(shù)據(jù)中。日志記錄最開始的狀態(tài)是uncommited, 更新之后狀態(tài)則變?yōu)閏ommited.
為了實現(xiàn)所有服務(wù)節(jié)點的一致性更新题诵,步驟如下:
-
client 發(fā)送數(shù)據(jù)更改請求到Leader
-
Leader復(fù)制日志記錄到Follower節(jié)點
- Leader等待大多數(shù)節(jié)點完成復(fù)制日志記錄洁仗。
-
Leader節(jié)點commit 當(dāng)前日志記錄,并更新Leader節(jié)點的數(shù)據(jù)性锭。
image.png - Leader通知Follower節(jié)點該日志記錄已經(jīng)commit.
-
Follower節(jié)點commit該日志記錄赠潦。
- 整個分布式系統(tǒng)實現(xiàn)了數(shù)據(jù)一致性。
term選舉周期
在Raft 協(xié)議中草冈,有一個term的概念她奥。term是一個選舉周期瓮增,一個term周期只會產(chǎn)生一個Leader,term連續(xù)遞增哩俭。
timeout
在Raft協(xié)議中绷跑,為了保證選舉和數(shù)據(jù)更新的順利進(jìn)行,規(guī)定了兩種類型的timeout:
選舉timeout和心跳timeout凡资。
選舉和選舉timeout
-
每個term開始時砸捏,會重置選舉timeout。在一個term中隙赁,F(xiàn)ollower會等待timeout的時間垦藏,如果超出這個時間還沒有得到其他節(jié)點的選舉請求伞访,F(xiàn)ollower會主動轉(zhuǎn)變?yōu)镃andidate,并且term+1厚掷,意味著開啟了新的選舉周期。
選舉timeout是150ms-300ms之間的一個隨機(jī)數(shù)冒黑,之所以隨機(jī)產(chǎn)生timeout,是為了避免同時產(chǎn)生多個Candidate的情況薛闪。
當(dāng)Follower轉(zhuǎn)變?yōu)镃andidate之后俺陋,term加1, 然后開始新一輪的選舉腊状。Candidate首先會將自己的Vote Count 加1,然后發(fā)送請求選舉的消息給其他節(jié)點缴挖。
-
接收節(jié)點首先會比較term的大小,如果自己的term小于Candidate的term映屋,則更新自己的term和Candidate的term保持一致苟鸯,并重置timeout。如果接收節(jié)點在這個term中還沒有做任何選舉早处,則會返回選舉響應(yīng)消息給Candidate節(jié)點瘫析。
-
Candidate 節(jié)點收到大部分節(jié)點的選舉響應(yīng)之后默责,會變成Leader 節(jié)點。
一個選舉周期完成咸包,接下來Leader 發(fā)送更新日志給Follower節(jié)點桃序,進(jìn)入日志更新階段烂瘫。
選舉分裂
值得注意的是Candidate只有得到超出n/2個節(jié)點的選舉響應(yīng)才能變?yōu)長eader節(jié)點。如果兩個Follower節(jié)點同時變成Candidate節(jié)點忱反,則會產(chǎn)生選舉分裂的問題泛释。
現(xiàn)在假設(shè)我們總共有4個節(jié)點,其中兩個節(jié)點同時變成Candidate節(jié)點温算,并向其余兩個節(jié)點發(fā)送選舉請求:
節(jié)點B,C成為Candidate節(jié)點并行向節(jié)點A茄茁,D發(fā)送選舉請求巩割。
節(jié)點A,D分別響應(yīng)節(jié)點B愈犹,C的請求闻丑,這時候兩個Candidate節(jié)點由于得到的Vote都是2,不滿足大于n/2的條件嗦嗡,則其不能轉(zhuǎn)變?yōu)長eader節(jié)點,繼續(xù)等待timeout至新的term開始并開啟新一輪的選舉叁执,只到符合條件為止矮冬。
日志復(fù)制和心跳timeout
當(dāng)系統(tǒng)進(jìn)入到日志復(fù)制階段,Leader節(jié)點會以心跳timeout的節(jié)奏向Follower節(jié)點發(fā)送日志記錄入挣,并且需要確保所有的節(jié)點都能夠接受到完整的日志記錄硝拧。
-
客戶發(fā)送set 5 給Leader葛假, 在下一個心跳timeout滋恬,Leader將set 5的日志記錄發(fā)給Follower。
-
Leader 收到大部分節(jié)點的ack 響應(yīng)之后带斑,commit 該日志記錄勋拟。
-
Leader通知Client已經(jīng)提交該日志記錄,同時通知Follower 提交該日志記錄挂滓。