從2020年到現(xiàn)在琅锻,對(duì)于etcd的技術(shù)恐懼持續(xù)了很長(zhǎng)時(shí)間,偶然發(fā)現(xiàn)極客時(shí)間有一門(mén)課程《etcd實(shí)戰(zhàn)課》向胡,讀了下開(kāi)篇詞恼蓬,深有感觸,是時(shí)候踏出舒適區(qū)僵芹,系統(tǒng)性的學(xué)習(xí)一下etcd了处硬。本文正是對(duì)etcd學(xué)習(xí)的一個(gè)總結(jié),從一個(gè)新手的角度回顧一下etcd學(xué)習(xí)的知識(shí)點(diǎn)拇派。
etcd是什么
按照官網(wǎng)的描述荷辕,etcd是一個(gè)分布式的key-value存儲(chǔ)系統(tǒng)。分布式和存儲(chǔ)這兩個(gè)關(guān)鍵字哪個(gè)都不簡(jiǎn)單件豌,組合到一起更是讓人望而生畏疮方。
如果只是一個(gè)簡(jiǎn)單的key-value存儲(chǔ)系統(tǒng),etcd用不到花這么多年的時(shí)間持續(xù)的優(yōu)化茧彤。那么在這個(gè)key-value的基礎(chǔ)上案站,etcd又?jǐn)U充了哪些能力,導(dǎo)致etcd給人的感覺(jué)這么的復(fù)雜呢棘街?
etcd的技術(shù)棧
etcd與raft的關(guān)系
簡(jiǎn)單來(lái)說(shuō),raft是共識(shí)算法的一種實(shí)現(xiàn)承边,有l(wèi)eader選舉遭殉、日志復(fù)制、日志存儲(chǔ)博助。raft提供了輸入险污、輸出的相關(guān)接口,比如raft輸出的日志同步消息(Ready接口)要經(jīng)過(guò)etcdserver提供的網(wǎng)絡(luò)功能進(jìn)行傳輸,etcdserver處理完請(qǐng)求之后蛔糯,要驅(qū)使raft進(jìn)行下一個(gè)消息的處理拯腮。
etcd技術(shù)演進(jìn)
etcd做為一個(gè)基礎(chǔ)組件,本身必須具備一定的高可用蚁飒,需要多副本部署动壤。etcd引入了raft算法,raft算法包括leader選舉淮逻、日志復(fù)制琼懊、狀態(tài)機(jī)。這樣etcd首先具備了多副本部署的數(shù)據(jù)協(xié)調(diào)能力爬早。為了設(shè)計(jì)上的簡(jiǎn)單化哼丈,寫(xiě)操作只能由leader進(jìn)行處理,由leader將數(shù)據(jù)同步到各個(gè)follower節(jié)點(diǎn)筛严。這樣一份數(shù)據(jù)就在多個(gè)節(jié)點(diǎn)上都存在醉旦,讀請(qǐng)求任意節(jié)點(diǎn)都可以處理,這就是分布式存儲(chǔ)的意義嗎桨啃?
接觸過(guò)openstack的知道车胡,openstack社區(qū)推薦的一個(gè)集群大小建議是小于500臺(tái),然而kubernetes社區(qū)推薦的一個(gè)集群大小建議是小于5000臺(tái)优幸,10倍的差距一方面得益于kubernetes優(yōu)良的設(shè)計(jì)吨拍,etcd在性能提升中也扮演了非常重要的角色。
etcd 基于raft 實(shí)現(xiàn)了 分布式网杆,基于boltdb實(shí)現(xiàn)key-value存儲(chǔ)羹饰,那么etcd又在此之上擴(kuò)充了哪些能力呢?
-
lease
lease是etcd提供的一個(gè)附加了ttl(time to live)屬性的功能碳却。比如創(chuàng)建了一個(gè)過(guò)期時(shí)期600秒的lease队秩,又將幾個(gè)key附加到了這個(gè)lease上,那么在600s之后昼浦,這個(gè)lease和這個(gè)lease關(guān)聯(lián)的key都會(huì)被etcd自動(dòng)清理掉馍资,根據(jù)業(yè)務(wù)需要,所以需要保持lease关噪,需要client定期為lease續(xù)期(keepalive)鸟蟹。lease相關(guān)的接口,包括 創(chuàng)建使兔、撤銷(xiāo)(刪除)建钥、續(xù)期、關(guān)聯(lián)(attach key to lease)操作虐沥。相應(yīng)得熊经,etcd有兩個(gè)goroutine來(lái)管理lease泽艘,一是定期更新lease的到期時(shí)間,二是刪除過(guò)期的lease镐依,當(dāng)集群的lease數(shù)非常多時(shí)匹涮,效率也是個(gè)問(wèn)題,為此etcd使用最小堆這種數(shù)據(jù)結(jié)構(gòu)來(lái)管理lease槐壳,最小堆的查詢時(shí)間復(fù)雜度為O(1)然低,這樣每次只需要遍歷堆頂lease是否過(guò)期即可,大大減少了cpu的消耗宏粤。
-
watch
watch是指etcd可以實(shí)時(shí)將key的變更通知到client脚翘。比如client通過(guò)watch接口告知etcd自己關(guān)注money的變化,假如money有變化的話绍哎,etcd會(huì)實(shí)時(shí)的推送給client money的變化来农。etcd支持監(jiān)聽(tīng)key以及范圍key,如何高效的根據(jù)key查找到對(duì)應(yīng)的client watcher呢崇堰?etcd使用了map和
區(qū)間樹(shù)
兩種數(shù)據(jù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)高效的查找沃于。watch是如何監(jiān)測(cè)到key變化并進(jìn)行通知呢?是在事務(wù)結(jié)束時(shí)海诲,將變更打包成event繁莹,通知到etcdserver。
func (tw *watchableStoreTxnWrite) End() {
changes := tw.Changes()
rev := tw.Rev() + 1
evs := make([]mvccpb.Event, len(changes))
for i, change := range changes {
evs[i].Kv = &changes[i]
}
// end write txn under watchable store lock so the updates are visible
// when asynchronous event posting checks the current store revision
tw.s.notify(rev, evs)
}
- 認(rèn)證鑒權(quán)
在一些場(chǎng)景中特幔,etcd要為多個(gè)用戶服務(wù)咨演,這就必然涉及到認(rèn)證鑒權(quán)的問(wèn)題,認(rèn)證和鑒權(quán)需要區(qū)分一下蚯斯,認(rèn)證是指一個(gè)用戶是否是合法用戶薄风,鑒權(quán)是指一個(gè)用戶是否具有操作一個(gè)key的權(quán)限,這里的操作可以指讀寫(xiě)刪除拍嵌。比如一個(gè)公司內(nèi)的員工佩戴工牌可以自由進(jìn)出公司的大門(mén)遭赂,但是銷(xiāo)售人員進(jìn)不了機(jī)房,普通員工進(jìn)不了董事長(zhǎng)的辦公室横辆。 - 限制
etcd存儲(chǔ)的是一些關(guān)鍵的配置信息撇他,并不是數(shù)據(jù),所以沒(méi)有數(shù)據(jù)分片的能力狈蚤,boltdb大小建議是 小于8GB困肩,單個(gè)key的value大小限制是1.5M。正是etcd的產(chǎn)品定位和這些限制脆侮,保證了etcd的高性能僻弹。 - 限速
etcd目前的限速是比較簡(jiǎn)單的,這里的限速不是指限制客戶端訪問(wèn)的qps他嚷,而是指apply與commit的差值,這個(gè)差值是代碼中寫(xiě)死的5000。如果差值超過(guò)5000筋蓖,etcd將拒絕寫(xiě)入卸耘。apply是指數(shù)據(jù)已經(jīng)更新到boltdb持續(xù)化存儲(chǔ)中,commit是指數(shù)據(jù)已經(jīng)提交到raft日志中粘咖。 - mvcc (Multi-Version Concurrency Control)
etcd可以保存一個(gè)key的多個(gè)歷史版本蚣抗,并基于mvcc實(shí)現(xiàn)了簡(jiǎn)單的事務(wù)隔離。
etcd 的存儲(chǔ)
etcd的存儲(chǔ)是讓人很容易迷惑的地方瓮下,這里首先接受一個(gè)etcd寫(xiě)入一個(gè)key-value的流程翰铡。leader收到一個(gè)put hello=world請(qǐng)求,leader將此put操作打包成一個(gè)提案(proposal)遞交給raft模塊讽坏,raft模塊將此提案同步給各個(gè)follower節(jié)點(diǎn)锭魔,各個(gè)follower節(jié)點(diǎn)從raft模塊獲取到這個(gè)提案,應(yīng)用到raft的存儲(chǔ)中路呜,并追加到wal中迷捧,隨后回復(fù)給leader此提案已提交。leader收到follower節(jié)點(diǎn)的已提交回復(fù)后胀葱,如果集群中的多數(shù)節(jié)點(diǎn)都為已提交漠秋,那么各個(gè)節(jié)點(diǎn)的etcdserver 就可以將此提案更新到boltdb持久化存儲(chǔ)中。
- raft unstable 存儲(chǔ)
leader接受到提案后抵屿,再未同步到其他follower之前庆锦,需要保存提案,此時(shí)提案保存在leader raft中的unstable存儲(chǔ)中轧葛,就是一個(gè)數(shù)組 - raft 穩(wěn)定存儲(chǔ)
當(dāng)提案被raft模塊同步到各個(gè)節(jié)點(diǎn)時(shí)搂抒,節(jié)點(diǎn)需要保存這些已經(jīng)被提交的提案,此時(shí)這些變更的提案被保存在raft的穩(wěn)定存儲(chǔ)中朝群,也是一個(gè)數(shù)組燕耿。
目前etcd raft存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)是MemoryStorage。
// MemoryStorage implements the Storage interface backed by an
// in-memory array.
type MemoryStorage struct {
// Protects access to all fields. Most methods of MemoryStorage are
// run on the raft goroutine, but Append() is run on an application
// goroutine.
sync.Mutex
hardState pb.HardState
snapshot pb.Snapshot
// ents[i] has raft log position i+snapshot.Metadata.Index
ents []pb.Entry
}
- wal
當(dāng)follower節(jié)點(diǎn)收到提案時(shí)姜胖,首先會(huì)將提案內(nèi)容保存到wal中誉帅,并調(diào)用fsync將提案持久化到磁盤(pán)中,之后再追加到raft 基于內(nèi)存的穩(wěn)定內(nèi)存中右莱,wal這個(gè)詞并不陌生蚜锨,二階段提交的一種解決方案,節(jié)點(diǎn)異常時(shí)慢蜓,通過(guò)重放wal中的變更亚再,可以保證數(shù)據(jù)的一致性。 - boltdb
boltdb是一個(gè)開(kāi)源的key-value存儲(chǔ)數(shù)據(jù)庫(kù)晨抡,etcd基于boltdb存儲(chǔ)用戶的key-value數(shù)據(jù)氛悬。etcd數(shù)據(jù)目錄中member/snap/db就是key-value數(shù)據(jù)在磁盤(pán)上的文件则剃。etcd可以保存一個(gè)key的多個(gè)歷史版本,為了提高性能如捅,boltdb存儲(chǔ)的是etcd版本號(hào)與key-value的對(duì)應(yīng)的關(guān)系棍现,并不是key與value的對(duì)應(yīng)關(guān)系。 - keyIndex
etcd的查詢操作也可以理解為兩階段查詢镜遣,首先從keyIndex中根據(jù)key查找到key的revisions己肮,然后再根據(jù)revisions從boltdb中查詢。
etcd的snapshot
在etcd中悲关,多個(gè)場(chǎng)景下的操作都叫snapshot谎僻,這樣不加區(qū)分的命名,增加了我們理解的難度寓辱。
- raft中的snapshot
raft的穩(wěn)定存儲(chǔ)是基于內(nèi)存和數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)進(jìn)行存儲(chǔ)的艘绍,每一次對(duì)于key-value的變更事件都會(huì)保存到raft的穩(wěn)定存儲(chǔ)中,久而久之讶舰,etcd肯定會(huì)因?yàn)閮?nèi)存占用超限被oom掉鞍盗,所以需要有一定的機(jī)制清理raft的穩(wěn)定存儲(chǔ),etcd中的snapshot-count(默認(rèn)值為100000)的配置就是這個(gè)意義跳昼,當(dāng)變更次數(shù)達(dá)到這個(gè)值時(shí)般甲,etcd就會(huì)做一次清理操作,這個(gè)操作叫做snapshot是否合理呢鹅颊? - etcd中的snapshot
當(dāng)集群新加入一個(gè)節(jié)點(diǎn)時(shí)敷存,leader需要向新節(jié)點(diǎn)同步數(shù)據(jù),同步數(shù)據(jù)的方式也叫snapshot堪伍,其實(shí)就是將db文件發(fā)送給新節(jié)點(diǎn)锚烦,用于新節(jié)點(diǎn)快速跟上leader的數(shù)據(jù)。 - etcdctl中的snapshot
etcdctl有個(gè)子命令叫做snapshot帝雇,這里的snapshot是指對(duì)etcd的數(shù)據(jù)做一個(gè)快照涮俄,為什么不叫備份呢?是因?yàn)閟napshot會(huì)多存儲(chǔ)一些元數(shù)據(jù)信息嗎尸闸?
etcd的壓縮機(jī)制
etcd具有保存key的多個(gè)版本的能力彻亲,keyIndex中存儲(chǔ)的是key與revision的關(guān)系,boltdb中存儲(chǔ)的是revision與key-value的關(guān)系吮廉,那么隨著變更次數(shù)的增加苞尝,etcd內(nèi)存和占用磁盤(pán)的空間很快就會(huì)超限,所以要有機(jī)制來(lái)定期清理歷史的key宦芦,這個(gè)操作叫做compact宙址,etcd支持周期性或者版本號(hào)的壓縮策略。etcd中默認(rèn)配置中是沒(méi)有配置壓縮策略的调卑,但是在kubernetes的環(huán)境中抡砂,查看etcd的日志大咱,發(fā)現(xiàn)每5min中就會(huì)有一條壓縮的日志,這個(gè)日志是kube-apiserver的配置etcd-compaction-interval注益,默認(rèn)值就是5min徽级。
源碼調(diào)試etcd
要想更深入的學(xué)習(xí)etcd相關(guān)的知識(shí),還是要深入到源碼中聊浅。etcd已經(jīng)走過(guò)了近10個(gè)年頭,相關(guān)的代碼抽象度也是很高的现使,沒(méi)有一定的實(shí)踐低匙,也不太容易厘清e(cuò)tcd的代碼結(jié)構(gòu)。幸運(yùn)的是etcd是golang編寫(xiě)的碳锈,也可以在windows下運(yùn)行顽冶,因此通過(guò)使用goland 源碼 debug etcd,學(xué)習(xí)起來(lái)效率會(huì)更高售碳。最簡(jiǎn)單的可以單節(jié)點(diǎn)運(yùn)行强重,學(xué)習(xí)etcd的讀寫(xiě)事務(wù)操作的流程,后面可以在一臺(tái)機(jī)器上通過(guò)多個(gè)不同的端口部署多個(gè)etcd贸人,調(diào)整選舉的超時(shí)時(shí)間间景,選擇其中的一個(gè)進(jìn)程進(jìn)行調(diào)試即可。
debug的方式比較簡(jiǎn)單艺智,goland的界面也是簡(jiǎn)單易懂倘要,按照正常的go程序的debug方式操作就可以 了
etcd 的監(jiān)控
etcd提供了非常多的metrics用來(lái)觀測(cè)etcd集群,社區(qū)也提供了相應(yīng)的grafana的dashboard簡(jiǎn)化配置的復(fù)雜度十拣。
如果不理解etcd的整個(gè)讀寫(xiě)流程封拧,相關(guān)的metrics也不容易看懂,最好的方式還是到源碼中查看metrics在什么流程下更新夭问,才能更好的理解metrics的含義泽西。
一些常用的metrics,比如db文件大小缰趋、網(wǎng)絡(luò)流量大小捧杉,節(jié)點(diǎn)間的ttl延遲、磁盤(pán)延遲埠胖、B+樹(shù)的分裂與重平衡的耗時(shí)糠溜,提交的提案數(shù)等等。下面四張圖是從《etcd實(shí)戰(zhàn)課》中貼過(guò)來(lái)的直撤。
更多的metrics可以在代碼中搜索prometheus.MustRegister
非竿。
func init() {
prometheus.MustRegister(rangeCounter)
prometheus.MustRegister(rangeCounterDebug)
prometheus.MustRegister(putCounter)
prometheus.MustRegister(deleteCounter)
prometheus.MustRegister(txnCounter)
prometheus.MustRegister(keysGauge)
prometheus.MustRegister(watchStreamGauge)
prometheus.MustRegister(watcherGauge)
prometheus.MustRegister(slowWatcherGauge)
prometheus.MustRegister(totalEventsCounter)
prometheus.MustRegister(pendingEventsGauge)
prometheus.MustRegister(indexCompactionPauseMs)
prometheus.MustRegister(dbCompactionPauseMs)
prometheus.MustRegister(dbCompactionTotalMs)
prometheus.MustRegister(dbCompactionLast)
prometheus.MustRegister(dbCompactionKeysCounter)
prometheus.MustRegister(dbTotalSize)
prometheus.MustRegister(dbTotalSizeInUse)
prometheus.MustRegister(dbOpenReadTxN)
prometheus.MustRegister(hashSec)
prometheus.MustRegister(hashRevSec)
prometheus.MustRegister(currentRev)
prometheus.MustRegister(compactRev)
prometheus.MustRegister(totalPutSizeGauge)
}
func init() {
prometheus.MustRegister(walFsyncSec)
prometheus.MustRegister(walWriteBytes)
}
func init() {
prometheus.MustRegister(leaseGranted)
prometheus.MustRegister(leaseRevoked)
prometheus.MustRegister(leaseRenewed)
prometheus.MustRegister(leaseTotalTTLs)
}
總結(jié)
本文從技術(shù)演進(jìn)的角度概括了etcd的功能點(diǎn),一些注意事項(xiàng)谋竖,以及etcd大概的工作流程红柱。水平有高低承匣,細(xì)節(jié)深似海,表達(dá)有出入锤悄,有錯(cuò)誤也在所難免韧骗,不同的時(shí)間,有不同的理解零聚。