bluefs

BlueFS is a super-simple “file system”

  • all metadata loaded in RAM on start/mount
  • no need to store block free list
  • coarse allocation unit (1 MB blocks)
  • all metadata lives in written to a journal
  • journal rewritten/compacted when it gets large

metadata

bluefs的元數(shù)據(jù)主要有superblock、dir斟叼、fnode半开。
其中superblock是固定位置的饿敲,放在BDEV::DB設(shè)備的頭部姐仅。
superblock 中除了記錄一些必要的標(biāo)示外唯卖,最重要的就是journal文件的fnode眠寿,這個(gè)fnode比較特別型酥,它的inode是1山憨。
journal文件不僅實(shí)現(xiàn)了bluefs的事務(wù),同時(shí)其本身也是bluefs元數(shù)據(jù)的載體冕末。

how to

journal一般是循環(huán)使用的順序?qū)懳募记福獢?shù)據(jù)如何存在journal中呢? 原來bluefs的元數(shù)據(jù)平時(shí)全部存到內(nèi)存中档桃,重啟的時(shí)候通過replay,遍歷journal文件然后重建出bluefs的元數(shù)據(jù)憔晒。

這個(gè)文件是循環(huán)使用的藻肄,journal每次做checkpoint的時(shí)候會(huì)持久化下當(dāng)前的dirmap和filemap,這樣下次重啟后replay可以不必管之前的那些journal了拒担。bluefs mount的時(shí)候最重要的事件就是執(zhí)行replay嘹屯,構(gòu)建dirmap和filemap,以及通過filemap得到空間管理的元數(shù)據(jù)从撼。

checkpoint

既然是循環(huán)使用州弟,順序?qū)懀⑶疫€要重啟replay低零,那肯定要checkpoint來提到replay的效率婆翔。
這里元數(shù)據(jù)有一個(gè)特殊處理,在做checkpoint的時(shí)候掏婶,會(huì)重寫下所有元數(shù)據(jù)啃奴,就有就不用依賴以前的journal了。實(shí)現(xiàn)參考BlueFS::_compact_log_dump_metadata函數(shù)雄妥。

  • 注意journal fnode里面的size并不是journal 的實(shí)際大小最蕾,而是當(dāng)前寫入位置。get_allocated返回的才是journal file的真正size老厌。

checkpoint是通過compact log來實(shí)現(xiàn)的瘟则。如果啟動(dòng)compact會(huì)釋放以前的journal空間,重新分配空間枝秤。這里對(duì)于log_seq的處理有點(diǎn)別扭醋拧,新設(shè)備上的journal第一條seq是1,然后又jump到當(dāng)前使用的seq(因此我們?cè)趓eplay的時(shí)候會(huì)看到第一條journal entry的log seq必須為1)。

為什么不在super block中直接記錄當(dāng)前的seq呢趁仙?

這兩種方式都可以實(shí)現(xiàn)洪添。

為什么bluefs的log的切換,使用sync_metadata觸發(fā)雀费? 而不是寫到多少數(shù)據(jù)自動(dòng)觸發(fā)?

這樣實(shí)現(xiàn)意味著將bluefs的元數(shù)據(jù)作為rocksdb目錄的元數(shù)據(jù)看待干奢,這樣也是合理的。

切換的時(shí)候故障了怎么處理盏袄?

有些操作順序需要保證忿峻,比如必須log fnode持久化成功之后,才能釋放之前的journal空間辕羽。其實(shí)這種順序本身也是wal逛尚。fnode記錄了空間分配操作,只有記錄持久化成功了刁愿,才能去真正實(shí)施修改绰寞。否則中間掛了就完了。

空間管理

由于bluefs是在裸盤之上的铣口,因而必須自己管理空間滤钱。
bluefs沒有使用freelist來管理空間,空間的使用情況記錄在每個(gè)文件的fnode中脑题。

bluefs默認(rèn)使用bitmap allocator件缸,最小分配空間是1MB。由于bluefs默認(rèn)可支持多個(gè)設(shè)備叔遂,因而分配后的extent需要記錄其空間來自哪個(gè)設(shè)備他炊,bluefs_extent_t記錄了這個(gè)信息。

rocksdb結(jié)合

在RocksDbStore中做了一些調(diào)整已艰,比如wal路徑痊末,option.env等。 BlueRocksEnv是通過目錄來區(qū)分BDEV的使用的旗芬。

如果想單獨(dú)跑rocksdb + bluefs怎么搞呢舌胶?

Copy bluestoredirectory and several dependent source files from Cephsource code, and compiled BlueFSas a standalone library libbluefs.a.
Replace db_benchtest tool’s default POSIX environment with BlueRocksEnv

bluefs的價(jià)值

這個(gè)有待測(cè)試驗(yàn)證了,從性能角度來說個(gè)人覺得效果有限疮丛,原因有2點(diǎn):
一是因?yàn)閞ocksdb本身用到的文件并不多幔嫂,bluefs在這種情況下不見得比xfs等優(yōu)化多少。
二是在ssd上誊薄,rocksdb本身加上dio支持后性能也優(yōu)化了一些履恩。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市呢蔫,隨后出現(xiàn)的幾起案子切心,更是在濱河造成了極大的恐慌飒筑,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件绽昏,死亡現(xiàn)場離奇詭異协屡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)全谤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門肤晓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人认然,你說我怎么就攤上這事补憾。” “怎么了卷员?”我有些...
    開封第一講書人閱讀 157,285評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵盈匾,是天一觀的道長。 經(jīng)常有香客問我毕骡,道長削饵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,485評(píng)論 1 283
  • 正文 為了忘掉前任未巫,我火速辦了婚禮葵孤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘橱赠。我一直安慰自己,他們只是感情好箫津,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評(píng)論 6 386
  • 文/花漫 我一把揭開白布狭姨。 她就那樣靜靜地躺著,像睡著了一般苏遥。 火紅的嫁衣襯著肌膚如雪饼拍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,821評(píng)論 1 290
  • 那天田炭,我揣著相機(jī)與錄音师抄,去河邊找鬼。 笑死教硫,一個(gè)胖子當(dāng)著我的面吹牛叨吮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播瞬矩,決...
    沈念sama閱讀 38,960評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼茶鉴,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了景用?” 一聲冷哼從身側(cè)響起涵叮,我...
    開封第一講書人閱讀 37,719評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后割粮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盾碗,經(jīng)...
    沈念sama閱讀 44,186評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評(píng)論 2 327
  • 正文 我和宋清朗相戀三年舀瓢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了廷雅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,650評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡氢伟,死狀恐怖榜轿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情朵锣,我是刑警寧澤谬盐,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站诚些,受9級(jí)特大地震影響飞傀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜诬烹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評(píng)論 3 313
  • 文/蒙蒙 一砸烦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧绞吁,春花似錦幢痘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至汰聋,卻和暖如春门粪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背烹困。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評(píng)論 1 266
  • 我被黑心中介騙來泰國打工玄妈, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人髓梅。 一個(gè)月前我還...
    沈念sama閱讀 46,370評(píng)論 2 360
  • 正文 我出身青樓拟蜻,卻偏偏與公主長得像,于是被迫代替她去往敵國和親女淑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子瞭郑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容