對Paimon的理解

Paimon在寫入垫桂、存儲、查詢的優(yōu)化

1. 寫入優(yōu)化：

LSM寫入（Log-Structured Merge Tree）：
- 數據首先寫入內存（MemTable）骑篙，然后批量刷新到磁盤叶圃，減少磁盤的隨機寫入操作席舍。
- 后臺會執(zhí)行合并（Compaction）操作，將小的SSTable文件合并成大的文件奠蹬，減少文件碎片化朝聋，提升查詢性能。
批量寫入（Bulk Load）：
- 多個小寫操作合并為批量操作囤躁，減少磁盤I/O冀痕，提高寫入效率。
寫入壓縮（Write Compression）：
- 寫入數據時進行壓縮狸演，減少存儲空間言蛇，同時提升讀取效率。
高效的寫入順序（Write Ordering）：
- 通過對數據按某些字段（如時間宵距、ID）排序寫入腊尚，優(yōu)化后續(xù)查詢時的讀取順序，減少數據掃描量满哪。

2. 存儲優(yōu)化：

列式存儲：
- 數據按列存儲婿斥，優(yōu)化查詢性能，尤其是在需要大量讀取某些列數據時哨鸭。列式存儲有助于壓縮和減少磁盤I/O民宿。
分區(qū)設計：
- 數據按某些字段（如時間戳、ID）分區(qū)像鸡，減少查詢時需要掃描的數據量活鹰，提高并行處理效率。
分桶（Bucketing）：
- 數據進一步細分為桶只估，在某些查詢場景下志群，通過桶的設計提高數據查找效率。
數據合并仅乓、壓縮與清理：
- 定期執(zhí)行數據合并和壓縮操作，減少存儲碎片蓬戚。清理過時或無效數據夸楣，保持存儲的高效性。

3. 查詢優(yōu)化：

Skipping By Order：
- 通過排序跳過不相關的數據塊，減少磁盤I/O豫喧，加速查詢石洗，尤其適用于范圍查詢和排序查詢。
布隆過濾器（Bloom Filter）：
- 使用布隆過濾器在內存中快速判斷某個元素是否存在紧显，避免不必要的磁盤I/O讲衫，提升查詢性能，尤其在海量數據中尤為有效孵班。

2. PK表和Append 表寫入

關于PK（主鍵）涉兽，在Paimon中，主鍵控制的是數據的唯一性篙程，確保寫入數據的一致性和去重枷畏。這也影響了數據的合并和壓縮策略，尤其是在基于主鍵的表結構中虱饿。
對于順序寫入拥诡，Paimon采用了分區(qū)（Partition）和桶（Bucket）機制來保證寫入的順序。這種設計使得數據能夠根據分區(qū)進行存儲氮发，減少了數據沖突渴肉，提高了寫入效率，同時也能在查詢時進行高效的索引檢索爽冕。

3. ChangeLog

Paimon中的ChangeLog是一個重要的特性仇祭，類似于Debezium等數據變更捕獲工具，能夠記錄數據的增扇售、刪前塔、改操作。這為實時數據同步提供了支持承冰，尤其是能夠減少對Kafka等消息中間件的依賴华弓，從而簡化架構，降低維護成本困乒。值得注意的是寂屏，Paimon中的ChangeLog有有效期，即Snapshot的有效期娜搂，這意味著數據變更日志在一定時間后會過期迁霎，因此需要管理和清理過期的日志。

4. Branch 和 Tag

Branch和Tag是Paimon的重要特性百宇，Paimon通過Tag和Branch機制實現(xiàn)數據版本管理和并行處理考廉，同時避免了因版本控制而引入過多的存儲開銷。這些機制并不復制數據携御，而是通過引用和增量更新來管理數據版本昌粤，配合后臺的合并和清理操作既绕，有效地優(yōu)化了存儲使用。因此涮坐，Tag和Branch增加的存儲量非常小凄贩，并不會導致顯著的存儲開銷增長。

離線數倉數據備份的成本就大大減少了

5. Metrics

Paimon的Metrics系統(tǒng)提供了詳細的數據性能監(jiān)控袱讹，能夠幫助分析數據存儲和處理的瓶頸疲扎。這對于優(yōu)化系統(tǒng)性能、檢測問題捷雕、調整配置是非常有幫助的椒丧。通過監(jiān)控指標，用戶可以了解Paimon的實時狀態(tài)非区，并采取措施進行性能優(yōu)化瓜挽。

6. 外部計算引擎的依賴

Paimon并不提供內建的計算引擎，它主要關注數據存儲和管理征绸，而計算部分需要依賴外部計算引擎（如Flink久橙、Spark等）。這意味著管怠，所有的異步操作（如壓縮淆衷、清理等）都需要外部計算引擎的支持增加了系統(tǒng)的復雜性和維護成本

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市渤弛，隨后出現(xiàn)的幾起案子祝拯，更是在濱河造成了極大的恐慌，老刑警劉巖她肯，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件佳头，死亡現(xiàn)場離奇詭異，居然都是意外死亡晴氨，警方通過查閱死者的電腦和手機康嘉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來籽前，“玉大人亭珍，你說我怎么就攤上這事≈澹” “怎么了肄梨？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長挠锥。經常有香客問我众羡，道長，這世上最難降的妖魔是什么蓖租？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任粱侣，我火速辦了婚禮辆毡，結果婚禮上，老公的妹妹穿的比我還像新娘甜害。我一直安慰自己，他們只是感情好球昨，可當我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布尔店。她就那樣靜靜地躺著，像睡著了一般主慰。火紅的嫁衣襯著肌膚如雪嚣州。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天共螺，我揣著相機與錄音该肴，去河邊找鬼。笑死藐不，一個胖子當著我的面吹牛匀哄，可吹牛的內容都是我干的。我是一名探鬼主播雏蛮，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼涎嚼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了挑秉？” 一聲冷哼從身側響起法梯，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎犀概，沒想到半個月后立哑，有當地人在樹林里發(fā)現(xiàn)了一具尸體，經...
沈念sama閱讀 45,834評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡姻灶，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年铛绰，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片木蹬。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡至耻，死狀恐怖，靈堂內的尸體忽然破棺而出镊叁，到底是詐尸還是另有隱情尘颓，我是刑警寧澤，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布晦譬，位于F島的核電站疤苹，受9級特大地震影響，放射性物質發(fā)生泄漏敛腌。R本人自食惡果不足惜卧土，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一惫皱、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧尤莺，春花似錦旅敷、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案媳谁，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至友酱，卻和暖如春晴音，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背缔杉。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工锤躁，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人或详。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓系羞，卻偏偏與公主長得像，于是被迫代替她去往敵國和親霸琴。傳聞我的和親對象是個殘疾皇子觉啊，可洞房花燭夜當晚...
茶點故事閱讀 45,077評論 2贊 355

對Paimon的理解

Paimon在寫入垫桂、存儲、查詢的優(yōu)化

1. 寫入優(yōu)化：

2. 存儲優(yōu)化：

3. 查詢優(yōu)化：

2. PK表和Append 表寫入

3. ChangeLog

4. Branch 和 Tag

5. Metrics

6. 外部計算引擎的依賴

推薦閱讀更多精彩內容