etcd 進(jìn)階雜談

從2020年到現(xiàn)在琅锻,對(duì)于etcd的技術(shù)恐懼持續(xù)了很長(zhǎng)時(shí)間,偶然發(fā)現(xiàn)極客時(shí)間有一門(mén)課程《etcd實(shí)戰(zhàn)課》向胡,讀了下開(kāi)篇詞恼蓬,深有感觸,是時(shí)候踏出舒適區(qū)僵芹,系統(tǒng)性的學(xué)習(xí)一下etcd了处硬。本文正是對(duì)etcd學(xué)習(xí)的一個(gè)總結(jié),從一個(gè)新手的角度回顧一下etcd學(xué)習(xí)的知識(shí)點(diǎn)拇派。

etcd是什么

按照官網(wǎng)的描述荷辕,etcd是一個(gè)分布式的key-value存儲(chǔ)系統(tǒng)。分布式和存儲(chǔ)這兩個(gè)關(guān)鍵字哪個(gè)都不簡(jiǎn)單件豌,組合到一起更是讓人望而生畏疮方。

如果只是一個(gè)簡(jiǎn)單的key-value存儲(chǔ)系統(tǒng),etcd用不到花這么多年的時(shí)間持續(xù)的優(yōu)化茧彤。那么在這個(gè)key-value的基礎(chǔ)上案站,etcd又?jǐn)U充了哪些能力,導(dǎo)致etcd給人的感覺(jué)這么的復(fù)雜呢棘街?

etcd的技術(shù)棧

image.png

etcd與raft的關(guān)系

image.png

簡(jiǎn)單來(lái)說(shuō),raft是共識(shí)算法的一種實(shí)現(xiàn)承边,有l(wèi)eader選舉遭殉、日志復(fù)制、日志存儲(chǔ)博助。raft提供了輸入险污、輸出的相關(guān)接口,比如raft輸出的日志同步消息(Ready接口)要經(jīng)過(guò)etcdserver提供的網(wǎng)絡(luò)功能進(jìn)行傳輸,etcdserver處理完請(qǐng)求之后蛔糯,要驅(qū)使raft進(jìn)行下一個(gè)消息的處理拯腮。

etcd技術(shù)演進(jìn)

etcd做為一個(gè)基礎(chǔ)組件,本身必須具備一定的高可用蚁飒,需要多副本部署动壤。etcd引入了raft算法,raft算法包括leader選舉淮逻、日志復(fù)制琼懊、狀態(tài)機(jī)。這樣etcd首先具備了多副本部署的數(shù)據(jù)協(xié)調(diào)能力爬早。為了設(shè)計(jì)上的簡(jiǎn)單化哼丈,寫(xiě)操作只能由leader進(jìn)行處理,由leader將數(shù)據(jù)同步到各個(gè)follower節(jié)點(diǎn)筛严。這樣一份數(shù)據(jù)就在多個(gè)節(jié)點(diǎn)上都存在醉旦,讀請(qǐng)求任意節(jié)點(diǎn)都可以處理,這就是分布式存儲(chǔ)的意義嗎桨啃?

接觸過(guò)openstack的知道车胡,openstack社區(qū)推薦的一個(gè)集群大小建議是小于500臺(tái),然而kubernetes社區(qū)推薦的一個(gè)集群大小建議是小于5000臺(tái)优幸,10倍的差距一方面得益于kubernetes優(yōu)良的設(shè)計(jì)吨拍,etcd在性能提升中也扮演了非常重要的角色。

etcd 基于raft 實(shí)現(xiàn)了 分布式网杆,基于boltdb實(shí)現(xiàn)key-value存儲(chǔ)羹饰,那么etcd又在此之上擴(kuò)充了哪些能力呢?

  • lease
    lease是etcd提供的一個(gè)附加了ttl(time to live)屬性的功能碳却。比如創(chuàng)建了一個(gè)過(guò)期時(shí)期600秒的lease队秩,又將幾個(gè)key附加到了這個(gè)lease上,那么在600s之后昼浦,這個(gè)lease和這個(gè)lease關(guān)聯(lián)的key都會(huì)被etcd自動(dòng)清理掉馍资,根據(jù)業(yè)務(wù)需要,所以需要保持lease关噪,需要client定期為lease續(xù)期(keepalive)鸟蟹。

    lease相關(guān)的接口,包括 創(chuàng)建使兔、撤銷(xiāo)(刪除)建钥、續(xù)期、關(guān)聯(lián)(attach key to lease)操作虐沥。相應(yīng)得熊经,etcd有兩個(gè)goroutine來(lái)管理lease泽艘,一是定期更新lease的到期時(shí)間,二是刪除過(guò)期的lease镐依,當(dāng)集群的lease數(shù)非常多時(shí)匹涮,效率也是個(gè)問(wèn)題,為此etcd使用最小堆這種數(shù)據(jù)結(jié)構(gòu)來(lái)管理lease槐壳,最小堆的查詢時(shí)間復(fù)雜度為O(1)然低,這樣每次只需要遍歷堆頂lease是否過(guò)期即可,大大減少了cpu的消耗宏粤。

  • watch
    watch是指etcd可以實(shí)時(shí)將key的變更通知到client脚翘。比如client通過(guò)watch接口告知etcd自己關(guān)注money的變化,假如money有變化的話绍哎,etcd會(huì)實(shí)時(shí)的推送給client money的變化来农。

    etcd支持監(jiān)聽(tīng)key以及范圍key,如何高效的根據(jù)key查找到對(duì)應(yīng)的client watcher呢崇堰?etcd使用了map和區(qū)間樹(shù)兩種數(shù)據(jù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)高效的查找沃于。

    watch是如何監(jiān)測(cè)到key變化并進(jìn)行通知呢?是在事務(wù)結(jié)束時(shí)海诲,將變更打包成event繁莹,通知到etcdserver。

func (tw *watchableStoreTxnWrite) End() {
    changes := tw.Changes()

    rev := tw.Rev() + 1
    evs := make([]mvccpb.Event, len(changes))
    for i, change := range changes {
        evs[i].Kv = &changes[i]
    }

    // end write txn under watchable store lock so the updates are visible
    // when asynchronous event posting checks the current store revision
    tw.s.notify(rev, evs)
}
  • 認(rèn)證鑒權(quán)
    在一些場(chǎng)景中特幔,etcd要為多個(gè)用戶服務(wù)咨演,這就必然涉及到認(rèn)證鑒權(quán)的問(wèn)題,認(rèn)證和鑒權(quán)需要區(qū)分一下蚯斯,認(rèn)證是指一個(gè)用戶是否是合法用戶薄风,鑒權(quán)是指一個(gè)用戶是否具有操作一個(gè)key的權(quán)限,這里的操作可以指讀寫(xiě)刪除拍嵌。比如一個(gè)公司內(nèi)的員工佩戴工牌可以自由進(jìn)出公司的大門(mén)遭赂,但是銷(xiāo)售人員進(jìn)不了機(jī)房,普通員工進(jìn)不了董事長(zhǎng)的辦公室横辆。
  • 限制
    etcd存儲(chǔ)的是一些關(guān)鍵的配置信息撇他,并不是數(shù)據(jù),所以沒(méi)有數(shù)據(jù)分片的能力狈蚤,boltdb大小建議是 小于8GB困肩,單個(gè)key的value大小限制是1.5M。正是etcd的產(chǎn)品定位和這些限制脆侮,保證了etcd的高性能僻弹。
  • 限速
    etcd目前的限速是比較簡(jiǎn)單的,這里的限速不是指限制客戶端訪問(wèn)的qps他嚷,而是指apply與commit的差值,這個(gè)差值是代碼中寫(xiě)死的5000。如果差值超過(guò)5000筋蓖,etcd將拒絕寫(xiě)入卸耘。apply是指數(shù)據(jù)已經(jīng)更新到boltdb持續(xù)化存儲(chǔ)中,commit是指數(shù)據(jù)已經(jīng)提交到raft日志中粘咖。
  • mvcc (Multi-Version Concurrency Control)
    etcd可以保存一個(gè)key的多個(gè)歷史版本蚣抗,并基于mvcc實(shí)現(xiàn)了簡(jiǎn)單的事務(wù)隔離。

etcd 的存儲(chǔ)

etcd的存儲(chǔ)是讓人很容易迷惑的地方瓮下,這里首先接受一個(gè)etcd寫(xiě)入一個(gè)key-value的流程翰铡。leader收到一個(gè)put hello=world請(qǐng)求,leader將此put操作打包成一個(gè)提案(proposal)遞交給raft模塊讽坏,raft模塊將此提案同步給各個(gè)follower節(jié)點(diǎn)锭魔,各個(gè)follower節(jié)點(diǎn)從raft模塊獲取到這個(gè)提案,應(yīng)用到raft的存儲(chǔ)中路呜,并追加到wal中迷捧,隨后回復(fù)給leader此提案已提交。leader收到follower節(jié)點(diǎn)的已提交回復(fù)后胀葱,如果集群中的多數(shù)節(jié)點(diǎn)都為已提交漠秋,那么各個(gè)節(jié)點(diǎn)的etcdserver 就可以將此提案更新到boltdb持久化存儲(chǔ)中。

  • raft unstable 存儲(chǔ)
    leader接受到提案后抵屿,再未同步到其他follower之前庆锦,需要保存提案,此時(shí)提案保存在leader raft中的unstable存儲(chǔ)中轧葛,就是一個(gè)數(shù)組
  • raft 穩(wěn)定存儲(chǔ)
    當(dāng)提案被raft模塊同步到各個(gè)節(jié)點(diǎn)時(shí)搂抒,節(jié)點(diǎn)需要保存這些已經(jīng)被提交的提案,此時(shí)這些變更的提案被保存在raft的穩(wěn)定存儲(chǔ)中朝群,也是一個(gè)數(shù)組燕耿。
    目前etcd raft存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)是MemoryStorage。
// MemoryStorage implements the Storage interface backed by an
// in-memory array.
type MemoryStorage struct {
    // Protects access to all fields. Most methods of MemoryStorage are
    // run on the raft goroutine, but Append() is run on an application
    // goroutine.
    sync.Mutex

    hardState pb.HardState
    snapshot  pb.Snapshot
    // ents[i] has raft log position i+snapshot.Metadata.Index
    ents []pb.Entry
}
  • wal
    當(dāng)follower節(jié)點(diǎn)收到提案時(shí)姜胖,首先會(huì)將提案內(nèi)容保存到wal中誉帅,并調(diào)用fsync將提案持久化到磁盤(pán)中,之后再追加到raft 基于內(nèi)存的穩(wěn)定內(nèi)存中右莱,wal這個(gè)詞并不陌生蚜锨,二階段提交的一種解決方案,節(jié)點(diǎn)異常時(shí)慢蜓,通過(guò)重放wal中的變更亚再,可以保證數(shù)據(jù)的一致性。
  • boltdb
    boltdb是一個(gè)開(kāi)源的key-value存儲(chǔ)數(shù)據(jù)庫(kù)晨抡,etcd基于boltdb存儲(chǔ)用戶的key-value數(shù)據(jù)氛悬。etcd數(shù)據(jù)目錄中member/snap/db就是key-value數(shù)據(jù)在磁盤(pán)上的文件则剃。etcd可以保存一個(gè)key的多個(gè)歷史版本,為了提高性能如捅,boltdb存儲(chǔ)的是etcd版本號(hào)與key-value的對(duì)應(yīng)的關(guān)系棍现,并不是key與value的對(duì)應(yīng)關(guān)系。
  • keyIndex
    etcd的查詢操作也可以理解為兩階段查詢镜遣,首先從keyIndex中根據(jù)key查找到key的revisions己肮,然后再根據(jù)revisions從boltdb中查詢。

etcd的snapshot

在etcd中悲关,多個(gè)場(chǎng)景下的操作都叫snapshot谎僻,這樣不加區(qū)分的命名,增加了我們理解的難度寓辱。

  • raft中的snapshot
    raft的穩(wěn)定存儲(chǔ)是基于內(nèi)存和數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)進(jìn)行存儲(chǔ)的艘绍,每一次對(duì)于key-value的變更事件都會(huì)保存到raft的穩(wěn)定存儲(chǔ)中,久而久之讶舰,etcd肯定會(huì)因?yàn)閮?nèi)存占用超限被oom掉鞍盗,所以需要有一定的機(jī)制清理raft的穩(wěn)定存儲(chǔ),etcd中的snapshot-count(默認(rèn)值為100000)的配置就是這個(gè)意義跳昼,當(dāng)變更次數(shù)達(dá)到這個(gè)值時(shí)般甲,etcd就會(huì)做一次清理操作,這個(gè)操作叫做snapshot是否合理呢鹅颊?
  • etcd中的snapshot
    當(dāng)集群新加入一個(gè)節(jié)點(diǎn)時(shí)敷存,leader需要向新節(jié)點(diǎn)同步數(shù)據(jù),同步數(shù)據(jù)的方式也叫snapshot堪伍,其實(shí)就是將db文件發(fā)送給新節(jié)點(diǎn)锚烦,用于新節(jié)點(diǎn)快速跟上leader的數(shù)據(jù)。
  • etcdctl中的snapshot
    etcdctl有個(gè)子命令叫做snapshot帝雇,這里的snapshot是指對(duì)etcd的數(shù)據(jù)做一個(gè)快照涮俄,為什么不叫備份呢?是因?yàn)閟napshot會(huì)多存儲(chǔ)一些元數(shù)據(jù)信息嗎尸闸?

etcd的壓縮機(jī)制

etcd具有保存key的多個(gè)版本的能力彻亲,keyIndex中存儲(chǔ)的是key與revision的關(guān)系,boltdb中存儲(chǔ)的是revision與key-value的關(guān)系吮廉,那么隨著變更次數(shù)的增加苞尝,etcd內(nèi)存和占用磁盤(pán)的空間很快就會(huì)超限,所以要有機(jī)制來(lái)定期清理歷史的key宦芦,這個(gè)操作叫做compact宙址,etcd支持周期性或者版本號(hào)的壓縮策略。etcd中默認(rèn)配置中是沒(méi)有配置壓縮策略的调卑,但是在kubernetes的環(huán)境中抡砂,查看etcd的日志大咱,發(fā)現(xiàn)每5min中就會(huì)有一條壓縮的日志,這個(gè)日志是kube-apiserver的配置etcd-compaction-interval注益,默認(rèn)值就是5min徽级。

源碼調(diào)試etcd

要想更深入的學(xué)習(xí)etcd相關(guān)的知識(shí),還是要深入到源碼中聊浅。etcd已經(jīng)走過(guò)了近10個(gè)年頭,相關(guān)的代碼抽象度也是很高的现使,沒(méi)有一定的實(shí)踐低匙,也不太容易厘清e(cuò)tcd的代碼結(jié)構(gòu)。幸運(yùn)的是etcd是golang編寫(xiě)的碳锈,也可以在windows下運(yùn)行顽冶,因此通過(guò)使用goland 源碼 debug etcd,學(xué)習(xí)起來(lái)效率會(huì)更高售碳。最簡(jiǎn)單的可以單節(jié)點(diǎn)運(yùn)行强重,學(xué)習(xí)etcd的讀寫(xiě)事務(wù)操作的流程,后面可以在一臺(tái)機(jī)器上通過(guò)多個(gè)不同的端口部署多個(gè)etcd贸人,調(diào)整選舉的超時(shí)時(shí)間间景,選擇其中的一個(gè)進(jìn)程進(jìn)行調(diào)試即可。

debug的方式比較簡(jiǎn)單艺智,goland的界面也是簡(jiǎn)單易懂倘要,按照正常的go程序的debug方式操作就可以 了

image.png

etcd 的監(jiān)控

etcd提供了非常多的metrics用來(lái)觀測(cè)etcd集群,社區(qū)也提供了相應(yīng)的grafana的dashboard簡(jiǎn)化配置的復(fù)雜度十拣。

如果不理解etcd的整個(gè)讀寫(xiě)流程封拧,相關(guān)的metrics也不容易看懂,最好的方式還是到源碼中查看metrics在什么流程下更新夭问,才能更好的理解metrics的含義泽西。

一些常用的metrics,比如db文件大小缰趋、網(wǎng)絡(luò)流量大小捧杉,節(jié)點(diǎn)間的ttl延遲、磁盤(pán)延遲埠胖、B+樹(shù)的分裂與重平衡的耗時(shí)糠溜,提交的提案數(shù)等等。下面四張圖是從《etcd實(shí)戰(zhàn)課》中貼過(guò)來(lái)的直撤。


disk.png
network.png
mvcc.png
server.png

更多的metrics可以在代碼中搜索prometheus.MustRegister非竿。

func init() {
    prometheus.MustRegister(rangeCounter)
    prometheus.MustRegister(rangeCounterDebug)
    prometheus.MustRegister(putCounter)
    prometheus.MustRegister(deleteCounter)
    prometheus.MustRegister(txnCounter)
    prometheus.MustRegister(keysGauge)
    prometheus.MustRegister(watchStreamGauge)
    prometheus.MustRegister(watcherGauge)
    prometheus.MustRegister(slowWatcherGauge)
    prometheus.MustRegister(totalEventsCounter)
    prometheus.MustRegister(pendingEventsGauge)
    prometheus.MustRegister(indexCompactionPauseMs)
    prometheus.MustRegister(dbCompactionPauseMs)
    prometheus.MustRegister(dbCompactionTotalMs)
    prometheus.MustRegister(dbCompactionLast)
    prometheus.MustRegister(dbCompactionKeysCounter)
    prometheus.MustRegister(dbTotalSize)
    prometheus.MustRegister(dbTotalSizeInUse)
    prometheus.MustRegister(dbOpenReadTxN)
    prometheus.MustRegister(hashSec)
    prometheus.MustRegister(hashRevSec)
    prometheus.MustRegister(currentRev)
    prometheus.MustRegister(compactRev)
    prometheus.MustRegister(totalPutSizeGauge)
}

func init() {
    prometheus.MustRegister(walFsyncSec)
    prometheus.MustRegister(walWriteBytes)
}

func init() {
    prometheus.MustRegister(leaseGranted)
    prometheus.MustRegister(leaseRevoked)
    prometheus.MustRegister(leaseRenewed)
    prometheus.MustRegister(leaseTotalTTLs)
}

總結(jié)

本文從技術(shù)演進(jìn)的角度概括了etcd的功能點(diǎn),一些注意事項(xiàng)谋竖,以及etcd大概的工作流程红柱。水平有高低承匣,細(xì)節(jié)深似海,表達(dá)有出入锤悄,有錯(cuò)誤也在所難免韧骗,不同的時(shí)間,有不同的理解零聚。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末袍暴,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子隶症,更是在濱河造成了極大的恐慌政模,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蚂会,死亡現(xiàn)場(chǎng)離奇詭異淋样,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)胁住,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)趁猴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人彪见,你說(shuō)我怎么就攤上這事儡司。” “怎么了企巢?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵枫慷,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我浪规,道長(zhǎng)或听,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任笋婿,我火速辦了婚禮誉裆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘缸濒。我一直安慰自己足丢,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布庇配。 她就那樣靜靜地躺著斩跌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪捞慌。 梳的紋絲不亂的頭發(fā)上耀鸦,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼袖订。 笑死氮帐,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的洛姑。 我是一名探鬼主播上沐,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼楞艾!你這毒婦竟也來(lái)了参咙?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤硫眯,失蹤者是張志新(化名)和其女友劉穎昂勒,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體舟铜,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年奠衔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了谆刨。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡归斤,死狀恐怖痊夭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情脏里,我是刑警寧澤她我,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站迫横,受9級(jí)特大地震影響番舆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜矾踱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一恨狈、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧呛讲,春花似錦禾怠、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至雷逆,卻和暖如春弦讽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背关面。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工坦袍, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留十厢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓捂齐,卻偏偏與公主長(zhǎng)得像蛮放,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奠宜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容