LSM Tree/MemTable/SSTable基本原理

LSM Tree/MemTable/SSTable基本原理

時光飛逝,截至今天具滴,2018的進(jìn)度條已經(jīng)毫不留情的燃燒掉了8.5%。

2017接觸了很多新事物,也實(shí)踐和落地了一些有意思的技術(shù)毙籽、產(chǎn)品和框架。要想走得快毡庆,一個人走坑赡,要想走得遠(yuǎn),得學(xué)會多回頭看么抗,多總結(jié)毅否。這也是接下來一系列文章的初衷。當(dāng)然蝇刀,前提是自己能夠堅持寫下去螟加,??

是為記。


背景

2017年吞琐,做調(diào)用鏈服務(wù)的時候捆探,為了存儲整個系統(tǒng)的調(diào)用事件數(shù)據(jù),遇到了一個存儲上的問題:數(shù)據(jù)每天的寫入量大概在10億級別站粟,也就是1.1w rps(record per second), 加上高峰期流量波動和系統(tǒng)冗余黍图,我們把及格線定為3w rps。這是一個典型的寫多讀少的場景奴烙,自然直接放棄了關(guān)系型數(shù)據(jù)庫助被;同時考慮到寫入的時序特性剖张,選型基本鎖定到基于LSM Tree為存儲引擎的數(shù)據(jù)庫上。挑戰(zhàn)依然在恰起,但是基于LSM Tree的數(shù)據(jù)庫一大把(HBase, Cassandra, RockDB, LevelDB, SQLite...)修械,解決問題無非是時間問題。

我們先嘗試了ssdb检盼,號稱可以替代redis, 一些指標(biāo)上快過redis. 結(jié)果被坑得體無完膚:

  1. key不支持過期(2017.04)肯污;
  2. 寫入性能壓測只有2w qps,如果數(shù)據(jù)記錄增大吨枉,性能迅速下降蹦渣;
  3. 翻了下代碼實(shí)現(xiàn),雖然很失望貌亭,但是感覺因此避開了一個定時炸彈而慶幸??

在同事推薦下柬唯,我們嘗試了Cassandra. 雖然國內(nèi)用得不多,但是在《微服務(wù)架構(gòu)》中圃庭,看到了奈飛(Netflix)的大規(guī)模使用案例锄奢,信心還是有的。實(shí)際壓測結(jié)果:單節(jié)點(diǎn)寫入性能在8w qps剧腻,超出預(yù)期拘央。此外,系統(tǒng)上線后书在,同事花了大量時間調(diào)優(yōu)參數(shù)灰伟,目前線上的單節(jié)點(diǎn)性能應(yīng)該遠(yuǎn)超8w qps.

基本概念

LSM Tree (Log-structured merge-tree) :這個名稱挺容易讓人困惑的,因?yàn)槟憧慈魏我粋€介紹LSM Tree的文章很難直接將之與樹對應(yīng)起來儒旬。事實(shí)上栏账,它只是一種分層的組織數(shù)據(jù)的結(jié)構(gòu),具體到實(shí)際實(shí)現(xiàn)上栈源,就是一些按照邏輯分層的有序文件挡爵。

MemTable: LSM Tree的樹節(jié)點(diǎn)可以分為兩種,保存在內(nèi)存中的稱之為MemTable, 保存在磁盤上的稱之為SSTable. 嚴(yán)格講甚垦,MemTable與SSTable還有很多細(xì)節(jié)區(qū)別茶鹃,這里不展開討論。

基本原理

image
  • 寫操作直接作用于MemTable, 因此寫入性能接近寫內(nèi)存制轰。
  • 每層SSTable文件到達(dá)一定條件后前计,進(jìn)行合并操作胞谭,然后放置到更高層垃杖。合并操作在實(shí)現(xiàn)上一般是策略驅(qū)動、可插件化的丈屹。比如Cassandra的合并策略可以選擇SizeTieredCompactionStrategyLeveledCompactionStrategy.
image
  • Level 0可以認(rèn)為是MemTable的文件映射內(nèi)存, 因此每個Level 0的SSTable之間的key range可能會有重疊调俘。其他Level的SSTable key range不存在重疊伶棒。
  • Level 0的寫入是簡單的創(chuàng)建-->順序?qū)?/code>流程,因此理論上彩库,寫磁盤的速度可以接近磁盤的理論速度肤无。
image
  • SSTable合并類似于簡單的歸并排序:根據(jù)key值確定要merge的文件,然后進(jìn)行合并骇钦。因此宛渐,合并一個文件到更高層,可能會需要寫多個文件眯搭。存在一定程度的寫放大窥翩。是非常昂貴的I/O操作行為。Cassandra除了提供策略進(jìn)行合并文件的選擇鳞仙,還提供了合并時I/O的限制寇蚊,以期減少合并操作對上層業(yè)務(wù)的影響。
image
  • 讀操作優(yōu)先判斷key是否在MemTable, 如果不在的話棍好,則把覆蓋該key range的所有SSTable都查找一遍仗岸。簡單,但是低效借笙。因此扒怖,在工程實(shí)現(xiàn)上,一般會為SSTable加入索引——布隆過濾器(Bloom Filter)提澎。它有一個特性:如果bloom說一個key不存在姚垃,就一定不存在,而當(dāng)bloom說一個key存在于這個文件盼忌,可能是不存在的积糯。實(shí)現(xiàn)層面上,布隆過濾器就是key--比特位的映射谦纱。理想情況下看成,當(dāng)然是一個key對應(yīng)一個比特實(shí)現(xiàn)全映射,但是太消耗內(nèi)存跨嘉。因此川慌,一般通過控制假陽性概率來節(jié)約內(nèi)存,代價是犧牲了一定的讀性能祠乃。對于我們的應(yīng)用場景梦重,我們將該概率從0.99降低到0.8,布隆過濾器的內(nèi)存消耗從2GB+下降到了300MB亮瓷,數(shù)據(jù)讀取速度有所降低琴拧,但在感知層面可忽略。

Q&A

  • 基于LSM Tree存儲引擎的數(shù)據(jù)適用于哪些場景嘱支?

    (key or key-range), 且key/key-range整體大致有序蚓胸。

  • LSM Tree自從Google BigTable問世后挣饥,如此牛x, 為什么沒有替代B Tree呀?

    LSM Tree本質(zhì)上也是一種二分查找的思想沛膳,只是這種二分局限在key的大致有序這個假設(shè)上扔枫,并充分利用了磁盤順序?qū)懙男阅埽瞧者m性一般锹安。B Tree對于寫多讀少的場景短荐,大部分代價開銷在Tree的維護(hù)上,但是具有更強(qiáng)的普適性叹哭。

  • 看起來搓侄,你們已經(jīng)將Cassandra玩得很溜了,你們線上用了多大集群支持當(dāng)前業(yè)務(wù)话速?

    其實(shí)……還可以吧讶踪,主要是隊(duì)友給力。還有就是國外有獨(dú)角獸奈飛領(lǐng)頭泊交,遇到問題其實(shí)還是容易解決的乳讥。我們目前線上用了3*(4 core, 16G), 系統(tǒng)冗余還很大。最近奈飛出了一篇關(guān)于Cassandra優(yōu)化的深度博文廓俭,如果有對Cassandra有興趣云石,可以閱讀Scaling Time Series Data Storage.

擴(kuò)展閱讀

同步自我的博客 LSM Tree/MemTable/SSTable基本原理

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市研乒,隨后出現(xiàn)的幾起案子汹忠,更是在濱河造成了極大的恐慌,老刑警劉巖雹熬,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宽菜,死亡現(xiàn)場離奇詭異,居然都是意外死亡竿报,警方通過查閱死者的電腦和手機(jī)铅乡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來烈菌,“玉大人阵幸,你說我怎么就攤上這事⊙渴溃” “怎么了挚赊?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長济瓢。 經(jīng)常有香客問我荠割,道長,這世上最難降的妖魔是什么葬荷? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任涨共,我火速辦了婚禮,結(jié)果婚禮上宠漩,老公的妹妹穿的比我還像新娘举反。我一直安慰自己,他們只是感情好扒吁,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布火鼻。 她就那樣靜靜地躺著,像睡著了一般雕崩。 火紅的嫁衣襯著肌膚如雪魁索。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天盼铁,我揣著相機(jī)與錄音粗蔚,去河邊找鬼。 笑死饶火,一個胖子當(dāng)著我的面吹牛鹏控,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播肤寝,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼当辐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了鲤看?” 一聲冷哼從身側(cè)響起缘揪,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎义桂,沒想到半個月后找筝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡慷吊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年呻征,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片罢浇。...
    茶點(diǎn)故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡陆赋,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出嚷闭,到底是詐尸還是另有隱情攒岛,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布胞锰,位于F島的核電站灾锯,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏嗅榕。R本人自食惡果不足惜顺饮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一吵聪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧兼雄,春花似錦吟逝、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至佃乘,卻和暖如春囱井,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背趣避。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工庞呕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人程帕。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓千扶,卻偏偏與公主長得像,于是被迫代替她去往敵國和親骆捧。 傳聞我的和親對象是個殘疾皇子澎羞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內(nèi)容