BlueFS is a super-simple “file system”
- all metadata loaded in RAM on start/mount
- no need to store block free list
- coarse allocation unit (1 MB blocks)
- all metadata lives in written to a journal
- journal rewritten/compacted when it gets large
metadata
bluefs的元數(shù)據(jù)主要有superblock、dir斟叼、fnode半开。
其中superblock是固定位置的饿敲,放在BDEV::DB設(shè)備的頭部姐仅。
superblock 中除了記錄一些必要的標(biāo)示外唯卖,最重要的就是journal文件的fnode眠寿,這個(gè)fnode比較特別型酥,它的inode是1山憨。
journal文件不僅實(shí)現(xiàn)了bluefs的事務(wù),同時(shí)其本身也是bluefs元數(shù)據(jù)的載體冕末。
how to
journal一般是循環(huán)使用的順序?qū)懳募记福獢?shù)據(jù)如何存在journal中呢? 原來bluefs的元數(shù)據(jù)平時(shí)全部存到內(nèi)存中档桃,重啟的時(shí)候通過replay,遍歷journal文件然后重建出bluefs的元數(shù)據(jù)憔晒。
這個(gè)文件是循環(huán)使用的藻肄,journal每次做checkpoint的時(shí)候會(huì)持久化下當(dāng)前的dirmap和filemap,這樣下次重啟后replay可以不必管之前的那些journal了拒担。bluefs mount的時(shí)候最重要的事件就是執(zhí)行replay嘹屯,構(gòu)建dirmap和filemap,以及通過filemap得到空間管理的元數(shù)據(jù)从撼。
checkpoint
既然是循環(huán)使用州弟,順序?qū)懀⑶疫€要重啟replay低零,那肯定要checkpoint來提到replay的效率婆翔。
這里元數(shù)據(jù)有一個(gè)特殊處理,在做checkpoint的時(shí)候掏婶,會(huì)重寫下所有元數(shù)據(jù)啃奴,就有就不用依賴以前的journal了。實(shí)現(xiàn)參考BlueFS::_compact_log_dump_metadata函數(shù)雄妥。
- 注意journal fnode里面的size并不是journal 的實(shí)際大小最蕾,而是當(dāng)前寫入位置。get_allocated返回的才是journal file的真正size老厌。
checkpoint是通過compact log來實(shí)現(xiàn)的瘟则。如果啟動(dòng)compact會(huì)釋放以前的journal空間,重新分配空間枝秤。這里對(duì)于log_seq的處理有點(diǎn)別扭醋拧,新設(shè)備上的journal第一條seq是1,然后又jump到當(dāng)前使用的seq(因此我們?cè)趓eplay的時(shí)候會(huì)看到第一條journal entry的log seq必須為1)。
為什么不在super block中直接記錄當(dāng)前的seq呢趁仙?
這兩種方式都可以實(shí)現(xiàn)洪添。
為什么bluefs的log的切換,使用sync_metadata觸發(fā)雀费? 而不是寫到多少數(shù)據(jù)自動(dòng)觸發(fā)?
這樣實(shí)現(xiàn)意味著將bluefs的元數(shù)據(jù)作為rocksdb目錄的元數(shù)據(jù)看待干奢,這樣也是合理的。
切換的時(shí)候故障了怎么處理盏袄?
有些操作順序需要保證忿峻,比如必須log fnode持久化成功之后,才能釋放之前的journal空間辕羽。其實(shí)這種順序本身也是wal逛尚。fnode記錄了空間分配操作,只有記錄持久化成功了刁愿,才能去真正實(shí)施修改绰寞。否則中間掛了就完了。
空間管理
由于bluefs是在裸盤之上的铣口,因而必須自己管理空間滤钱。
bluefs沒有使用freelist來管理空間,空間的使用情況記錄在每個(gè)文件的fnode中脑题。
bluefs默認(rèn)使用bitmap allocator件缸,最小分配空間是1MB。由于bluefs默認(rèn)可支持多個(gè)設(shè)備叔遂,因而分配后的extent需要記錄其空間來自哪個(gè)設(shè)備他炊,bluefs_extent_t記錄了這個(gè)信息。
rocksdb結(jié)合
在RocksDbStore中做了一些調(diào)整已艰,比如wal路徑痊末,option.env等。 BlueRocksEnv是通過目錄來區(qū)分BDEV的使用的旗芬。
如果想單獨(dú)跑rocksdb + bluefs怎么搞呢舌胶?
Copy bluestoredirectory and several dependent source files from Cephsource code, and compiled BlueFSas a standalone library libbluefs.a.
Replace db_benchtest tool’s default POSIX environment with BlueRocksEnv
bluefs的價(jià)值
這個(gè)有待測(cè)試驗(yàn)證了,從性能角度來說個(gè)人覺得效果有限疮丛,原因有2點(diǎn):
一是因?yàn)閞ocksdb本身用到的文件并不多幔嫂,bluefs在這種情況下不見得比xfs等優(yōu)化多少。
二是在ssd上誊薄,rocksdb本身加上dio支持后性能也優(yōu)化了一些履恩。