對Paimon的理解

Paimon在寫入垫桂、存儲、查詢的優(yōu)化

1. 寫入優(yōu)化:

  • LSM寫入(Log-Structured Merge Tree)
    • 數據首先寫入內存(MemTable)骑篙,然后批量刷新到磁盤叶圃,減少磁盤的隨機寫入操作席舍。
    • 后臺會執(zhí)行合并(Compaction)操作,將小的SSTable文件合并成大的文件奠蹬,減少文件碎片化朝聋,提升查詢性能。
  • 批量寫入(Bulk Load)
    • 多個小寫操作合并為批量操作囤躁,減少磁盤I/O冀痕,提高寫入效率。
  • 寫入壓縮(Write Compression)
    • 寫入數據時進行壓縮狸演,減少存儲空間言蛇,同時提升讀取效率。
  • 高效的寫入順序(Write Ordering)
    • 通過對數據按某些字段(如時間宵距、ID)排序寫入腊尚,優(yōu)化后續(xù)查詢時的讀取順序,減少數據掃描量满哪。

2. 存儲優(yōu)化:

  • 列式存儲
    • 數據按列存儲婿斥,優(yōu)化查詢性能,尤其是在需要大量讀取某些列數據時哨鸭。列式存儲有助于壓縮和減少磁盤I/O民宿。
  • 分區(qū)設計
    • 數據按某些字段(如時間戳、ID)分區(qū)像鸡,減少查詢時需要掃描的數據量活鹰,提高并行處理效率。
  • 分桶(Bucketing)
    • 數據進一步細分為桶只估,在某些查詢場景下志群,通過桶的設計提高數據查找效率。
  • 數據合并仅乓、壓縮與清理
    • 定期執(zhí)行數據合并和壓縮操作,減少存儲碎片蓬戚。清理過時或無效數據夸楣,保持存儲的高效性。

3. 查詢優(yōu)化:

  • Skipping By Order
    • 通過排序跳過不相關的數據塊,減少磁盤I/O豫喧,加速查詢石洗,尤其適用于范圍查詢和排序查詢。
  • 布隆過濾器(Bloom Filter)
    • 使用布隆過濾器在內存中快速判斷某個元素是否存在紧显,避免不必要的磁盤I/O讲衫,提升查詢性能,尤其在海量數據中尤為有效孵班。

2. PK表和Append 表寫入

  • 關于PK(主鍵)涉兽,在Paimon中,主鍵控制的是數據的唯一性篙程,確保寫入數據的一致性和去重枷畏。這也影響了數據的合并和壓縮策略,尤其是在基于主鍵的表結構中虱饿。
  • 對于順序寫入拥诡,Paimon采用了分區(qū)(Partition)和桶(Bucket)機制來保證寫入的順序。這種設計使得數據能夠根據分區(qū)進行存儲氮发,減少了數據沖突渴肉,提高了寫入效率,同時也能在查詢時進行高效的索引檢索爽冕。

3. ChangeLog

  • Paimon中的ChangeLog是一個重要的特性仇祭,類似于Debezium等數據變更捕獲工具,能夠記錄數據的增扇售、刪前塔、改操作。這為實時數據同步提供了支持承冰,尤其是能夠減少對Kafka等消息中間件的依賴华弓,從而簡化架構,降低維護成本困乒。值得注意的是寂屏,Paimon中的ChangeLog有有效期,即Snapshot的有效期娜搂,這意味著數據變更日志在一定時間后會過期迁霎,因此需要管理和清理過期的日志。

4. Branch 和 Tag

  • BranchTag是Paimon的重要特性百宇,Paimon通過Tag和Branch機制實現(xiàn)數據版本管理和并行處理考廉,同時避免了因版本控制而引入過多的存儲開銷。這些機制并不復制數據携御,而是通過引用和增量更新來管理數據版本昌粤,配合后臺的合并和清理操作既绕,有效地優(yōu)化了存儲使用。因此涮坐,Tag和Branch增加的存儲量非常小凄贩,并不會導致顯著的存儲開銷增長。

    離線數倉數據備份的成本就大大減少了

5. Metrics

  • Paimon的Metrics系統(tǒng)提供了詳細的數據性能監(jiān)控袱讹,能夠幫助分析數據存儲和處理的瓶頸疲扎。這對于優(yōu)化系統(tǒng)性能、檢測問題捷雕、調整配置是非常有幫助的椒丧。通過監(jiān)控指標,用戶可以了解Paimon的實時狀態(tài)非区,并采取措施進行性能優(yōu)化瓜挽。

6. 外部計算引擎的依賴

  • Paimon并不提供內建的計算引擎,它主要關注數據存儲和管理征绸,而計算部分需要依賴外部計算引擎(如Flink久橙、Spark等)。這意味著管怠,所有的異步操作(如壓縮淆衷、清理等)都需要外部計算引擎的支持增加了系統(tǒng)的復雜性和維護成本
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市渤弛,隨后出現(xiàn)的幾起案子祝拯,更是在濱河造成了極大的恐慌,老刑警劉巖她肯,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件佳头,死亡現(xiàn)場離奇詭異,居然都是意外死亡晴氨,警方通過查閱死者的電腦和手機康嘉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來籽前,“玉大人亭珍,你說我怎么就攤上這事≈澹” “怎么了肄梨?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長挠锥。 經常有香客問我众羡,道長,這世上最難降的妖魔是什么蓖租? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任粱侣,我火速辦了婚禮辆毡,結果婚禮上,老公的妹妹穿的比我還像新娘甜害。我一直安慰自己,他們只是感情好球昨,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布尔店。 她就那樣靜靜地躺著,像睡著了一般主慰。 火紅的嫁衣襯著肌膚如雪嚣州。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天共螺,我揣著相機與錄音该肴,去河邊找鬼。 笑死藐不,一個胖子當著我的面吹牛匀哄,可吹牛的內容都是我干的。 我是一名探鬼主播雏蛮,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼涎嚼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了挑秉?” 一聲冷哼從身側響起法梯,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎犀概,沒想到半個月后立哑,有當地人在樹林里發(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡姻灶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年铛绰,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片木蹬。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡至耻,死狀恐怖,靈堂內的尸體忽然破棺而出镊叁,到底是詐尸還是另有隱情尘颓,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布晦譬,位于F島的核電站疤苹,受9級特大地震影響,放射性物質發(fā)生泄漏敛腌。R本人自食惡果不足惜卧土,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一惫皱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧尤莺,春花似錦旅敷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至友酱,卻和暖如春晴音,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背缔杉。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工锤躁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人或详。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓系羞,卻偏偏與公主長得像,于是被迫代替她去往敵國和親霸琴。 傳聞我的和親對象是個殘疾皇子觉啊,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內容

  • 本文是對《ClickHouse原理解析與應用實踐》一書的概括性總結,整體章節(jié)和結構尊重原文沈贝,由于書的出版在2019...
    Caucher閱讀 4,357評論 1 12
  • 一提到關系型數據庫杠人,我禁不住想:有些東西被忽視了。關系型數據庫無處不在宋下,而且種類繁多嗡善,從小巧實用的 SQLite ...
    Zal哥哥閱讀 818評論 0 2
  • 一、Elasticsearch是什么学歧? Elasticsearch(簡稱ES)是一個分布式罩引、可擴展、實時的搜索與數...
    Rick617閱讀 14,983評論 0 11
  • 在MySQL中的引擎一文中說了枝笨,我們在幾乎所有的情況下其實用的都是InnoDB引擎袁铐,這里我們就重點再看一下這個引擎...
    david161閱讀 499評論 0 1
  • 背景 LSM樹應用場景太多了,個人接觸過的就有這些横浑。剔桨。戳個FLAG,一定要弄明白徙融。 HBASE LevelDB/R...
    蘇柏亞的星空閱讀 1,174評論 0 1