RocksDB. Leveled Compaction原理分析

一 RocksDB的磁盤數(shù)據(jù)組織層次

1 磁盤文件的組織方式

rocksdb在磁盤上的文件是分為多層的寥枝,分別叫做level-0, level-1等等
level0上包含的文件锨推,是由內(nèi)存中的memtable dump到磁盤上生成的既琴,單個文件內(nèi)部按key有序,文件之間無序。
其它level上的多個文件都是按照key有序的柑船。

sst文件在磁盤上的組織方式

2 data range partition

非0 level上的key佃延,按序分片现诀,保存在不同的文件中。

data range partition

3 key在SST文件中查找

每個level的文件都是整體有序履肃,并且文件內(nèi)有序的仔沿。
要在某個level上查找某個key時:

  • 先根據(jù)每個文件的start/end key對所有文件進(jìn)行二分查找來確定哪些文件可能包含key
  • 再通過二分查找在候選的文件中定位key的準(zhǔn)確位置
    這是一次對一個level上所有文件的二分查找的過程。

二 數(shù)據(jù)壓縮 Compaction

1 L0 compaction

當(dāng)L0的文件數(shù)量達(dá)到level0_file_num_compaction_trigger的值時尺棋,觸發(fā)L0和L1的合并封锉。通常必須將所有L0的文件合并到L1中,因?yàn)長0的文件的key是有交疊的(overlapping)膘螟。

L0與L1的compaction

2 高層Compaction

當(dāng)L0 compaction完成后成福,L1的文件總size或者文件數(shù)量可能會超過閾值,觸發(fā)L1向L2的合并荆残。從L1至少選擇一個文件奴艾,合并到L2中key有交疊的文件中。

L1向L2合并

同樣的内斯,合并后可能會觸發(fā)下一各level的compaction蕴潦。

合并后的L2
L2向L3合并

合并后的L3也需要做Compaction.


合并后的L3

3 并行Compaction

并行compaction

max_background_compactions控制了并行compaction的最大數(shù)量。

4 L0 subcompaction

L0向L1的compaction不可以與其他level compaction并行俘闯。這可能成為整體compaction速度的瓶頸潭苞,可以通過設(shè)置max_subcompactions來加速L0到L1的compaction。

subcompaction

5 Compaction的選擇策略

當(dāng)多個level都滿足觸發(fā)compaction的條件真朗,rocksdb通過計(jì)算得分來選擇先做哪一個level的compaction萄传。

  • 對于非0 level,score = 該level文件的總長度 / 閾值。已經(jīng)正在做compaction的文件不計(jì)入總長度中秀菱。
  • 對于L0振诬,score = max{文件數(shù)量 / level0_file_num_compaction_trigger, L0文件總長度 / max_bytes_for_level_base} 并且 L0文件數(shù)量 > level0_file_num_compaction_trigger衍菱。
    得分最高的level有限做compaction赶么。

6 compaction觸發(fā)閾值

每一層的compaction閾值設(shè)置策略由level_compaction_dynamic_level_bytes來決定。

當(dāng)level_compaction_dynamic_level_bytes為false

L1 觸發(fā)閾值:max_bytes_for_level_base
下面的level觸發(fā)閾值通過公式計(jì)算:Target_Size(Ln+1) = Target_Size(Ln) * max_bytes_for_level_multiplier * max_bytes_for_level_multiplier_additional[n]. max_bytes_for_level_multiplier_additional

例如:
max_bytes_for_level_base = 16384
max_bytes_for_level_multiplier = 10
max_bytes_for_level_multiplier_additional = 1
那么每個level的觸發(fā)閾值為 L1, L2, L3 and L4 分別為 16384, 163840, 1638400, and 16384000

當(dāng)level_compaction_dynamic_level_bytes為true

最后一個level的文件長度總是固定的脊串。
上面level觸發(fā)閾值通過公式計(jì)算:Target_Size(Ln-1) = Target_Size(Ln) / max_bytes_for_level_multiplier
如果計(jì)算得到的值小于 max_bytes_for_level_base / max_bytes_for_level_multiplier辫呻, 那么該level將維持為空,L0做compaction時將直接merge到第一個有合法閾值的level上琼锋。
例如:
max_bytes_for_level_base = 1G
num_levels = 6
level 6 size = 276G
那么從L1到L6的觸發(fā)閾值分別為:0放闺, 0, 0.276G缕坎, 2.76G怖侦, 27.6G,276G谜叹。

這樣分配匾寝,保證了穩(wěn)定的LSM-tree結(jié)構(gòu)。并且有90%的數(shù)據(jù)存儲在最后一層荷腊,9%的數(shù)據(jù)保存在倒數(shù)第二層艳悔。

image.png

參考資料:官方wiki

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市女仰,隨后出現(xiàn)的幾起案子猜年,更是在濱河造成了極大的恐慌,老刑警劉巖疾忍,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乔外,死亡現(xiàn)場離奇詭異,居然都是意外死亡锭碳,警方通過查閱死者的電腦和手機(jī)袁稽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來擒抛,“玉大人推汽,你說我怎么就攤上這事∑缁Γ” “怎么了歹撒?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長诊胞。 經(jīng)常有香客問我怎爵,道長,這世上最難降的妖魔是什么驯鳖? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮竭望,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘裕菠。我一直安慰自己咬清,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布奴潘。 她就那樣靜靜地躺著旧烧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪画髓。 梳的紋絲不亂的頭發(fā)上掘剪,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音奈虾,去河邊找鬼夺谁。 笑死,一個胖子當(dāng)著我的面吹牛愚墓,可吹牛的內(nèi)容都是我干的予权。 我是一名探鬼主播昂勉,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼浪册,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了岗照?” 一聲冷哼從身側(cè)響起村象,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎攒至,沒想到半個月后厚者,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡迫吐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年库菲,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片志膀。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡熙宇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出溉浙,到底是詐尸還是另有隱情烫止,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布戳稽,位于F島的核電站馆蠕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜互躬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一播赁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧吼渡,春花似錦行拢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至房维,卻和暖如春沼瘫,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背咙俩。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工耿戚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人阿趁。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓膜蛔,卻偏偏與公主長得像,于是被迫代替她去往敵國和親脖阵。 傳聞我的和親對象是個殘疾皇子皂股,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)命黔,斷路器呜呐,智...
    卡卡羅2017閱讀 134,599評論 18 139
  • 背景 一年多以前我在知乎上答了有關(guān)LeetCode的問題, 分享了一些自己做題目的經(jīng)驗(yàn)。 張土汪:刷leetcod...
    土汪閱讀 12,724評論 0 33
  • 在先前我們討論了 RocksDB 的 statistics 和 write stall悍募,但這些只能讓我們發(fā)現(xiàn)問題蘑辑,...
    siddontang閱讀 8,043評論 2 16
  • linux資料總章2.1 1.0寫的不好抱歉 但是2.0已經(jīng)改了很多 但是錯誤還是無法避免 以后資料會慢慢更新 大...
    數(shù)據(jù)革命閱讀 12,134評論 2 34
  • - 0x00 寫在前面 JSON轉(zhuǎn)Model對于我們iOS開發(fā)來說有多重要就不贅述啦,而在Github上比較出名的...
    Resory閱讀 2,774評論 2 51