阿里云TimeStream系列--TimeStream數(shù)據(jù)壓縮優(yōu)化

前面在介紹ES做TSDB的問題剖析中宪赶,說到了ES存儲時(shí)序數(shù)據(jù)的存儲容量特別大。

針對時(shí)序數(shù)據(jù)的存儲容量大的問題哥放。ES時(shí)序引擎以及TimeStream做了很多的優(yōu)化工作智嚷,最終能將ES的存儲容量降低到之前的十分之一寒随。

存儲容量的優(yōu)化是如何做到的呢糠悯?

先來復(fù)習(xí)下ES存儲容量大的幾個(gè)原因:

  • ES默認(rèn)配置,創(chuàng)建了很多時(shí)序場景不需要的索引數(shù)據(jù)
  • ES存儲時(shí)序數(shù)據(jù)妻往,元數(shù)據(jù)本身的存儲容量使用空間過大互艾。
  • ES針對指標(biāo)數(shù)據(jù),在doc_values的壓縮上效果不佳讯泣。

我將之前給出的基準(zhǔn)數(shù)據(jù)的存儲明細(xì)再貼出來忘朝,用以對比優(yōu)化后的效果:

image.png

其中ES Synthetic Source(合成source)優(yōu)化后,索引可以不再存儲_source判帮,這個(gè)優(yōu)化是最明顯的,存儲空間直接減少了49.3%溉箕。

接下來是TimeStream的一些優(yōu)化晦墙。

TimeStream支持通過參數(shù),來去掉_id肴茄、_seq_no的存儲晌畅。

不存儲_id后,數(shù)據(jù)不再支持針對doc的刪除和更新寡痰,但是這在時(shí)序場景抗楔,一般是不必須的。

不存儲_seq_no拦坠,TimeStream使用阿里云自研的物理復(fù)制连躏,可以不依賴_seq_no進(jìn)行數(shù)據(jù)的復(fù)制和恢復(fù),所以去掉_seq_no對ES功能影響不大贞滨,只是不能再使用CCR功能入热。如果不使用CCR,是可以關(guān)閉_seq_no的。

這樣索引存儲空間分別繼續(xù)降低了9.6%和5.3%勺良。整體的存儲空間從1.2gb降低到了437.5mb绰播。

接下來針對doc_values類型,阿里云codec插件(https://help.aliyun.com/document_detail/363036.html)支持對doc_values使用zstd壓縮算法尚困,通過將列式數(shù)據(jù)分成block蠢箩,每個(gè)block使用zstd壓縮,doc_values的數(shù)據(jù)可以得到極大的壓縮事甜,下面是開啟doc_values后谬泌,字段的壓縮效果:

  • 指標(biāo)字段:128.8mb -> 87.3mb
  • 維度字段:34.8mb -> 163kb
  • 時(shí)間字段:14.8mb -> 6mb

然后針對指標(biāo)字段,不再需要存儲BKD索引讳侨,如果真的有對指標(biāo)數(shù)據(jù)進(jìn)行query的需求呵萨,比如一些范圍查詢,可以通過ES的doc_values only的query能力支持跨跨。這樣存儲空間又進(jìn)一步降低了129.7mb潮峦。

針對維度字段,首先只使用keyword索引勇婴,然后倒排索引也是用阿里云codec插件忱嘹,將posting數(shù)據(jù)使用zstd壓縮,存儲空間可以從108.7mb降低為398.1kb耕渴。

所以優(yōu)化后拘悦,整體的存儲容量如下:


image.png

經(jīng)過優(yōu)化,存儲空間從1.2gb降低到了114.5mb橱脸,存儲容量直接減少到之前的十分之一础米。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市添诉,隨后出現(xiàn)的幾起案子屁桑,更是在濱河造成了極大的恐慌,老刑警劉巖栏赴,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蘑斧,死亡現(xiàn)場離奇詭異,居然都是意外死亡须眷,警方通過查閱死者的電腦和手機(jī)竖瘾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來花颗,“玉大人捕传,你說我怎么就攤上這事±┤埃” “怎么了乐横?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵求橄,是天一觀的道長。 經(jīng)常有香客問我葡公,道長罐农,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任催什,我火速辦了婚禮涵亏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蒲凶。我一直安慰自己气筋,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布旋圆。 她就那樣靜靜地躺著宠默,像睡著了一般。 火紅的嫁衣襯著肌膚如雪灵巧。 梳的紋絲不亂的頭發(fā)上搀矫,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天,我揣著相機(jī)與錄音刻肄,去河邊找鬼颜懊。 笑死憋飞,一個(gè)胖子當(dāng)著我的面吹牛诫舅,可吹牛的內(nèi)容都是我干的鲁森。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼麦到,長吁一口氣:“原來是場噩夢啊……” “哼绿饵!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瓶颠,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蝴罪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后步清,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡虏肾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年廓啊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片封豪。...
    茶點(diǎn)故事閱讀 40,117評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡谴轮,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出吹埠,到底是詐尸還是另有隱情第步,我是刑警寧澤疮装,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站粘都,受9級特大地震影響廓推,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜翩隧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一樊展、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧堆生,春花似錦专缠、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蔗怠,卻和暖如春墩弯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蟀淮。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工最住, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人怠惶。 一個(gè)月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓涨缚,卻偏偏與公主長得像,于是被迫代替她去往敵國和親策治。 傳聞我的和親對象是個(gè)殘疾皇子脓魏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容