6.824 Lab2 RAFT總結(jié)

1 引言

大約用了20多天的時(shí)間完成了6.824的lab2鸠天,期間穿插了畢業(yè)預(yù)答辯颗品,改論文趾徽,準(zhǔn)備外審等等事情朽缎,最終磕磕絆絆的完成了Lab2惨远,感覺(jué)算是自己寫(xiě)的程序中比較具有挑戰(zhàn)性的了,因?yàn)樵趯?shí)驗(yàn)過(guò)程中需要認(rèn)真的考慮并發(fā)话肖、加鎖北秽、死鎖等問(wèn)題,并且實(shí)際RAFT論文中省去了很多細(xì)節(jié)最筒,而且為了盡量通過(guò)測(cè)試與優(yōu)化性能贺氓,本人也對(duì)與RAFT論文中很多細(xì)節(jié)進(jìn)行更改,因此該Lab的完成具有一定挑戰(zhàn)床蜘。

實(shí)驗(yàn)結(jié)果

開(kāi)門見(jiàn)山辙培,先放結(jié)果:

對(duì)于2A部分,運(yùn)行1000次邢锯,都可以全部PASS扬蕊,取一組結(jié)果:

Test (2A): initial election ...
  ... Passed --   3.5  3  106   29540    0
Test (2A): election after network failure ...
  ... Passed --   5.5  3  158   29218    0
PASS
ok      _/home/hetianfang/gocodes/DS6.824/src/raft-2C   9.028s

對(duì)于2B部分,運(yùn)行1000次丹擎,也可以全部PASS厨相,取一組結(jié)果:

Test (2B): basic agreement ...
  ... Passed --   1.1  3   16    4686    3
Test (2B): RPC byte count ...
  ... Passed --   2.0  3   52  116026   11
Test (2B): agreement despite follower disconnection ...
  ... Passed --   5.3  3  152   38842    7
Test (2B): no agreement if too many followers disconnect ...
  ... Passed --   4.4  5  228   41540    3
Test (2B): concurrent Start()s ...
  ... Passed --   1.2  3   24    7126    6
Test (2B): rejoin of partitioned leader ...
  ... Passed --   4.0  3  100   23143    4
Test (2B): leader backs up quickly over incorrect follower logs ...
  ... Passed --  26.4  5 2132  673111  102
Test (2B): RPC counts aren't too high ...
  ... Passed --   2.7  3   82   24838   12
PASS
ok      _/home/hetianfang/gocodes/6.824_htf/src/raft-2B-success 48.052s

對(duì)于2C部分,運(yùn)行100次鸥鹉,除Figure 8 (unreliable)外所有測(cè)試均可順利通過(guò)蛮穿,但唯獨(dú)Figure 8 (unreliable)有過(guò)半的可能性無(wú)法通過(guò),經(jīng)過(guò)本人分析毁渗,該測(cè)試項(xiàng)目為模擬網(wǎng)絡(luò)在長(zhǎng)時(shí)間混亂后能夠順利進(jìn)行提交践磅,該測(cè)試項(xiàng)目中使用cfg.setlongreordering(true)模擬在RPC回復(fù)時(shí)出現(xiàn)延遲(sometimes delay replies a long time),從而模擬長(zhǎng)時(shí)間網(wǎng)絡(luò)長(zhǎng)時(shí)間的混亂灸异,然而在模擬網(wǎng)絡(luò)混亂后并沒(méi)有恢復(fù)網(wǎng)絡(luò)狀態(tài)府适,本人在cfg.one(9999, servers, true)前采用cfg.setlongreordering(false)恢復(fù)網(wǎng)絡(luò)秩序,最終使得程序可以順利通過(guò)各項(xiàng)測(cè)試肺樟,取一組實(shí)驗(yàn)結(jié)果:

Test (2C): basic persistence ...
  ... Passed --   6.3  3  142   37280    6
Test (2C): more persistence ...
  ... Passed --  25.7  5 1692  265019   17
Test (2C): partitioned leader and one follower crash, leader restarts ...
  ... Passed --   2.8  3   52   12907    4
Test (2C): Figure 8 ...
  ... Passed --  34.1  5  680  125859    7
Test (2C): unreliable agreement ...
  ... Passed --  40.8  5 1484  412291  301
Test (2C): Figure 8 (unreliable) htf ...
  ... Passed --  30.6  5 2584  359827   20
Test (2C): churn ...
  ... Passed --  16.7  5  828  187978  103
Test (2C): unreliable churn ...
  ... Passed --  16.7  5  828  171317   64
PASS
ok      _/home/hetianfang/gocodes/DS6.824/src/raft-2C   173.823s

工程源碼

[源碼](CountingStars/6.824 (gitee.com))置于Gitee中檐春,為了省事許多實(shí)驗(yàn)過(guò)程中撰寫(xiě)的代碼帶有很多亂七八糟的注釋以及打印,只對(duì)于最終版本的簡(jiǎn)潔性進(jìn)行優(yōu)化么伯,Lab2實(shí)驗(yàn)中疟暖,最終經(jīng)優(yōu)化的代碼路徑為./src/raft/raft-2C-simplify

2 實(shí)現(xiàn)方式

Lab2分為ABC三部分,三部分內(nèi)容的如下:

  • A:RAFT的leader選舉與心跳機(jī)制(Raft leader election and heartbeats)
  • B:日志復(fù)制(Append new log entries)
  • C:狀態(tài)持久化(Keep persistent state that survives a reboot)

三部分功能隔離,但是三部分的實(shí)現(xiàn)具有交叉俐巴,例如日志復(fù)制和心跳機(jī)制實(shí)際上是一體的骨望,而狀態(tài)持久化與RPC的發(fā)起與響應(yīng)相耦合,因此對(duì)于實(shí)現(xiàn)方式的描述不會(huì)按照三部分內(nèi)容展開(kāi)欣舵,而會(huì)是圍繞程序邏輯擎鸠。

主要類

程序主要實(shí)現(xiàn)基本都位于raft.go文件之中,除此之外缘圈,本人在time.go文件中實(shí)現(xiàn)了一個(gè)自定義的定時(shí)器以及一個(gè)具有限時(shí)功能的WaitGroup劣光,整個(gè)程序基本都圍繞著Raft這個(gè)類(Golang沒(méi)有嚴(yán)格的對(duì)象概念,不過(guò)這樣說(shuō)著方便)糟把,該類主要包括自帶的變量以及論文Figue2中所提及的變量绢涡,除此之外增加了applyCh用于記錄Raft對(duì)象初始化時(shí)提供的用于提交apply新的的chan,以及記錄本人聲明的其他用于記錄新的變量糊饱。Raft所包含多個(gè)成員函數(shù)垂寥,其中比較重要的成員函數(shù)有:

func RaftConstructer(peers []*labrpc.ClientEnd, me int, persister *Persister, applyCh chan ApplyMsg) *Raft
func (recv *Raft) RequestVote(args *RequestVoteArgs, reply *RequestVoteReply)
func (recv *Raft) AppendEntries(args *AppendEntriesArgs, reply *AppendEntriesReply)
func (recv *Raft) startElection()
func (recv *Raft) broadcastAppendEntries()
func (recv *Raft) mainLoop()
func (recv *Raft) applyLoop()
func (recv *Raft) Start(command interface{}) (index int, term int, isLeader bool)

Raft類外颠黎,還有ApplyMsg另锋,LogEntry,RequestVoteArgsRequestVoteReply等類狭归,作用顯而易見(jiàn)無(wú)需描述夭坪,以及一些用于表示時(shí)間設(shè)置、狀態(tài)的預(yù)定義常量过椎。

整體運(yùn)行邏輯

單個(gè)節(jié)點(diǎn)的運(yùn)行開(kāi)始于其構(gòu)造函數(shù)RaftConstructer(本人對(duì)Make內(nèi)部又封裝了一個(gè)構(gòu)造函數(shù))室梅,構(gòu)造函數(shù)中對(duì)于各個(gè)變量進(jìn)行初始化,并且啟動(dòng)兩個(gè)新的協(xié)程mainLoopapplyLoop疚宇,構(gòu)造函數(shù)基本流程為:

  • 初始化各個(gè)變量
  • 嘗試從persister中讀取歷史運(yùn)行信息
  • 分別啟動(dòng)mainLoopapplyLoop

整個(gè)程序的運(yùn)行就是基于mainLoopapplyLoop亡鼠,是這個(gè)程序的核心,mainLoop主要用于監(jiān)測(cè)心跳是否超時(shí)以及發(fā)起選舉敷待;applyLoop用于將日志進(jìn)行提交间涵,其中mainLoop基本邏輯為:

  • while自己這個(gè)Raft節(jié)點(diǎn)未被殺死:
    • 如果已經(jīng)心跳超時(shí):
      • 切換為candidate狀態(tài)
      • 等待一個(gè)隨機(jī)的時(shí)間
      • 通過(guò)startElection發(fā)起選舉
    • 如果自己是leader:
      • 通過(guò)broadcastAppendEntries發(fā)起一次Append Entries
      • 等待一小段時(shí)間,防止心跳發(fā)送過(guò)于頻繁

通過(guò)以上邏輯可以實(shí)現(xiàn)對(duì)于心跳超時(shí)的監(jiān)測(cè)榜揖,以及在競(jìng)選成功后立即發(fā)送心跳包勾哩,其中所調(diào)用的startElectionbroadcastAppendEntries兩個(gè)函數(shù)具有重要作用。

applyLoop的基本邏輯為:

  • while自己這個(gè)Raft節(jié)點(diǎn)未被殺死
    • 提交recv.log中所有index小于recv.commitIndex的日志

applyLoop的功能很簡(jiǎn)單举哟,也沒(méi)調(diào)用其他函數(shù)思劳,因此程序整體運(yùn)行邏輯的重點(diǎn)就是mainLoop以及其包含的startElectionbroadcastAppendEntries妨猩。

選舉與心跳

如前所述潜叛,startElectionbroadcastAppendEntries是程序的重點(diǎn),分別對(duì)應(yīng)選舉和日志復(fù)制兩大主要功能,整個(gè)Raft實(shí)現(xiàn)中也只有兩種RPC即選舉與日志復(fù)制钠导。

startElection中通過(guò)RPC調(diào)用RequestVote震嫉,在broadcastAppendEntries中調(diào)用AppendEntries,因此startElectionRequestVote牡属,broadcastAppendEntriesAppendEntries是對(duì)應(yīng)的票堵!

startElectionbroadcastAppendEntries均用于某個(gè)節(jié)點(diǎn)向其他節(jié)點(diǎn)廣播,RequestVoteAppendEntries則分別為接收廣播的節(jié)點(diǎn)處理請(qǐng)求的回調(diào)函數(shù)逮栅。

選舉廣播

startElection用于發(fā)起一次選舉悴势,其流程如下(該流程與論文有不一致):

  • 自增自身的任期Term
  • 向各個(gè)其他節(jié)點(diǎn)在規(guī)定時(shí)間內(nèi)并發(fā)執(zhí)行以下操作:
    • 通過(guò)RPC調(diào)用RequestVote,請(qǐng)求投票
    • 如果RPC請(qǐng)求成功并且獲得了VoteGranted
      • 增加一個(gè)自身獲得的選票
    • 如果RPC請(qǐng)求成功并且被索票節(jié)點(diǎn)的Term大于自身Term:
      • 更新自身Term與被索票節(jié)點(diǎn)一致
      • 更新自身State為follower
  • 如果加上自己一票數(shù)量超過(guò)了節(jié)點(diǎn)數(shù)量一半措伐,并且自己的State仍然是Candidate:
    • 給自己投一票
    • 相應(yīng)的更新lastVoteTermvotedFor兩部分有關(guān)投票信息
    • 設(shè)定自身state為leader
    • leader初始化(matchIndex特纤、nextIndex數(shù)組的初始化)
  • 狀態(tài)持久化(如果需持久化狀態(tài)有變動(dòng)的話)

本人程序中與論文的差異主要在于:

  1. 選舉過(guò)程中不存在刷新選舉定時(shí)器 :目的在于減少選舉失敗的間隔,加速選舉進(jìn)程
  2. 選舉過(guò)程中先索要其他節(jié)點(diǎn)的票:如果先索要自己的票侥加,將使得在長(zhǎng)時(shí)間的RPC過(guò)程中持有自己這一票這個(gè)資源捧存,這更容易產(chǎn)生平票
  3. 僅在其他節(jié)點(diǎn)票數(shù)量滿足要求時(shí)給自己投票:防止自己這一票被浪費(fèi)掉

以上處理均為了加速選舉進(jìn)程,盡量減少資源競(jìng)爭(zhēng)與平票

選舉RPC回調(diào)函數(shù)

RequestVote為處理投票請(qǐng)求的回調(diào)函數(shù)担败,其基本流程如下:

  • 如果索票candidate的Term小于自身Term:
    • 拒絕投票昔穴,返回自身任期
    • return
  • 如果索票的candidate日志比自身更up to date,且自己沒(méi)有比當(dāng)前索票的candidate更新的任期投過(guò)票:
    • 更新自身state為follower
    • 更新自身投票記錄
    • 更新自身任期Term
    • 為索票的候選人投票提前,返回自身任期
    • return
  • defer中吗货,狀態(tài)持久化(如果需持久化狀態(tài)有變動(dòng)的話)

日志添加廣播

broadcastAppendEntries用于leader向其他節(jié)點(diǎn)進(jìn)行日志復(fù)制與發(fā)送心跳,其基本流程如下:

  • 設(shè)定所需添加日志結(jié)尾位置狈网,初始化successCnt宙搬, followerCntfinishCnt三個(gè)變量均為1

  • 向各個(gè)其他節(jié)點(diǎn)在規(guī)定時(shí)間內(nèi)并發(fā)執(zhí)行以下操作:

    • 通過(guò)RPC調(diào)用AppendEntries拓哺,嘗試添加日志
    • 如果RPC調(diào)用成功勇垛,并且成功添加日志:
      • finishCntfollowerCnt士鸥,successCnt均加一
    • 如果RPC調(diào)用成功闲孤,未成功添加日志,但該節(jié)點(diǎn)仍然認(rèn)同自己是leader:
      • finishCnt础淤,followerCnt加一
      • 更新該節(jié)點(diǎn)對(duì)應(yīng)的nextIndex
    • 如果RPC調(diào)用成功崭放,未成功添加日志,且該節(jié)點(diǎn)不認(rèn)同自己是leaer:
      • finishCnt加一
      • 設(shè)定自身state為follower
  • 如果followerCnt大于節(jié)點(diǎn)數(shù)量一半:

    • 刷新選舉定時(shí)器
    • 如果successCnt大于節(jié)點(diǎn)數(shù)量一半:
      • 更新commitIndex
  • 狀態(tài)持久化(如果需持久化狀態(tài)有變動(dòng)的話)

其中successCnt鸽凶, followerCnt币砂, finishCnt三個(gè)變量分別表示:成功添加日志的節(jié)點(diǎn)數(shù)量,成功認(rèn)同自身為leader的節(jié)點(diǎn)數(shù)量玻侥,成功完成的RPC數(shù)量决摧,其中finishCnt僅用于監(jiān)測(cè)運(yùn)行狀態(tài),實(shí)際對(duì)于程序邏輯沒(méi)有影響。

日志復(fù)制RPC回調(diào)函數(shù)

AppendEntries為處理日志復(fù)制請(qǐng)求的回調(diào)函數(shù)掌桩,其基本流程如下:

  • 如果發(fā)送日志復(fù)制請(qǐng)求的節(jié)點(diǎn)任期小于自身任期:

    • 拒絕復(fù)制边锁,回傳自身的任期
    • return
  • 刷新選舉計(jì)時(shí)器

  • 設(shè)定自身state為follower

  • 更新自身term

  • 如果請(qǐng)求參數(shù)中PrevLogIndexPrevLogTerm不符合自身日志:

    • 拒絕復(fù)制,回傳自身任期波岛,并給出一個(gè)推薦的Index即RecommendPrevLogIndex
    • return
  • 如果請(qǐng)求中的日志中存在自己未包含的日志:

    • 截?cái)?code>PrevLogIndex之后的日志
    • 添加新的日志
  • 更新自身commitIndex

  • defer中茅坛,狀態(tài)持久化(如果需持久化狀態(tài)有變動(dòng)的話)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市则拷,隨后出現(xiàn)的幾起案子贡蓖,更是在濱河造成了極大的恐慌,老刑警劉巖煌茬,帶你破解...
    沈念sama閱讀 222,590評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件斥铺,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡坛善,警方通過(guò)查閱死者的電腦和手機(jī)晾蜘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)眠屎,“玉大人剔交,你說(shuō)我怎么就攤上這事∽榱Γ” “怎么了省容?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,301評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵抖拴,是天一觀的道長(zhǎng)燎字。 經(jīng)常有香客問(wèn)我,道長(zhǎng)阿宅,這世上最難降的妖魔是什么候衍? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,078評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮洒放,結(jié)果婚禮上蛉鹿,老公的妹妹穿的比我還像新娘。我一直安慰自己往湿,他們只是感情好妖异,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,082評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著领追,像睡著了一般他膳。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上绒窑,一...
    開(kāi)封第一講書(shū)人閱讀 52,682評(píng)論 1 312
  • 那天棕孙,我揣著相機(jī)與錄音,去河邊找鬼。 笑死蟀俊,一個(gè)胖子當(dāng)著我的面吹牛钦铺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播肢预,決...
    沈念sama閱讀 41,155評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼矛洞,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了烫映?” 一聲冷哼從身側(cè)響起缚甩,我...
    開(kāi)封第一講書(shū)人閱讀 40,098評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎窑邦,沒(méi)想到半個(gè)月后擅威,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,638評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡冈钦,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,701評(píng)論 3 342
  • 正文 我和宋清朗相戀三年郊丛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞧筛。...
    茶點(diǎn)故事閱讀 40,852評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡厉熟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出较幌,到底是詐尸還是另有隱情揍瑟,我是刑警寧澤,帶...
    沈念sama閱讀 36,520評(píng)論 5 351
  • 正文 年R本政府宣布乍炉,位于F島的核電站绢片,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏岛琼。R本人自食惡果不足惜底循,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,181評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望槐瑞。 院中可真熱鬧熙涤,春花似錦、人聲如沸困檩。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,674評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)悼沿。三九已至等舔,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間显沈,已是汗流浹背软瞎。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,788評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工逢唤, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人涤浇。 一個(gè)月前我還...
    沈念sama閱讀 49,279評(píng)論 3 379
  • 正文 我出身青樓鳖藕,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親只锭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子著恩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,851評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容