Apache Hudi - 初步了解

知乎上看到的這個文章，視野開闊欧募，轉(zhuǎn)載一下糜工。

URL：
https://zhuanlan.zhihu.com/p/149706105?utm_source=com.ucmobile

自己關(guān)于 Apache Hudi 的一些簡單的了解和想法颂斜。

背景

Hudi 是 Uber 主導(dǎo)開發(fā)的開源數(shù)據(jù)湖框架为迈。所以大部分的出發(fā)點都來源于 Uber 自身場景，比如司機數(shù)據(jù)和乘客數(shù)據(jù)通過訂單 Id 來做 Join 等箩兽。在 Hudi 過去的使用場景里津肛，和大部分公司的架構(gòu)類似，采用批式和流式共存的 Lambda 架構(gòu)汗贫，我們先從 延遲身坐，數(shù)據(jù)完整度還有成本 三個方面來對比一下批式和流式計算模型的區(qū)別秸脱。

批式模型

批式模型就是使用 MapReduce、Hive部蛇、Spark 等典型的批計算引擎摊唇，以小時任務(wù)或者天任務(wù)的形式來做數(shù)據(jù)計算。

延遲：小時級延遲或者天級別延遲涯鲁。這里的延遲不單單指的是定時任務(wù)的時間遏片，在數(shù)據(jù)架構(gòu)里，這里的延遲時間通常是定時任務(wù)間隔時間 + 一系列依賴任務(wù)的計算時間 + 數(shù)據(jù)平臺最終可以展示結(jié)果的時間撮竿。數(shù)據(jù)量大、邏輯復(fù)雜的情況下笔呀，小時任務(wù)計算的數(shù)據(jù)通常真正延遲的時間是 2-3 小時幢踏。
數(shù)據(jù)完整度：數(shù)據(jù)較完整。以處理時間為例许师，小時級別的任務(wù)房蝉，通常計算的原始數(shù)據(jù)已經(jīng)包含了小時內(nèi)的所有數(shù)據(jù)，所以得到的數(shù)據(jù)相對較完整微渠。但如果業(yè)務(wù)需求是事件時間搭幻，這里涉及到終端的一些延遲上報機制，在這里逞盆，批式計算任務(wù)就很難派上用場檀蹋。
成本：成本很低。只有在做任務(wù)計算時云芦，才會占用資源俯逾，如果不做任務(wù)計算，可以將這部分批式計算資源出讓給在線業(yè)務(wù)使用舅逸。但從另一個角度來說成本是挺高的桌肴，比如原始數(shù)據(jù)做了一些增刪改查，數(shù)據(jù)晚到的情況琉历，那么批式任務(wù)是要全量重新計算坠七。

流式模型

流式模型，典型的就是使用 Flink 來進行實時的數(shù)據(jù)計算旗笔。

延遲：很短彪置，甚至是實時。
數(shù)據(jù)完整度：較差蝇恶。因為流式引擎不會等到所有數(shù)據(jù)到齊之后再開始計算悉稠，所以有一個 watermark 的概念，當數(shù)據(jù)的時間小于 watermark 時艘包，就會被丟棄的猛，這樣是無法對數(shù)據(jù)完整度有一個絕對的報障耀盗。在互聯(lián)網(wǎng)場景中，流式模型主要用于活動時的數(shù)據(jù)大盤展示卦尊，對數(shù)據(jù)的完整度要求并不算很高叛拷。在大部分場景中，用戶需要開發(fā)兩個程序岂却，一是流式數(shù)據(jù)生產(chǎn)流式結(jié)果忿薇，二是批式計算任務(wù)，用于次日修復(fù)實時結(jié)果躏哩。
成本：很高署浩。因為流式任務(wù)是常駐的，并且對于多流 Join 的場景扫尺，通常要借助內(nèi)存或者數(shù)據(jù)庫來做 state 的存儲筋栋，不管是序列化開銷，還是和外部組件交互產(chǎn)生的額外 IO正驻，在大數(shù)據(jù)量下都是不容忽視的弊攘。

增量模型

針對批式和流式的優(yōu)缺點，Uber 提出了增量模型姑曙，相對批式來講襟交，更加實時，相對流式而言伤靠，更加經(jīng)濟捣域。

增量模型，簡單來講宴合，是以 mini batch 的形式來跑準實時任務(wù)竟宋。Hudi 在增量模型中支持了兩個最重要的特性，

Upsert：這個主要是解決批式模型中形纺，數(shù)據(jù)不能插入丘侠、更新的問題，有了這個特性逐样，我們可以往 Hive 中寫入增量數(shù)據(jù)蜗字，而不是每次進行完全的覆蓋。（Hudi 自身維護了 key->file 的映射脂新，所以當 upsert 時很容易找到 key 對應(yīng)的文件）
Incremental Query：增量查詢挪捕，減少計算的原始數(shù)據(jù)量。以 Uber 中司機和乘客的數(shù)據(jù)流 Join 為例争便，每次抓取兩條數(shù)據(jù)流中的增量數(shù)據(jù)進行批式的 Join 即可级零，相比流式數(shù)據(jù)而言，成本要降低幾個數(shù)量級。

在增量模型中奏纪，Hudi 提供了兩種 Table鉴嗤，分別為 Copy-On-Write 和 Merge-On-Read 兩種。

Copy-On-Write Table

對于 Copy-On-Write Table序调，用戶的 update 會重寫數(shù)據(jù)所在的文件醉锅，所以是一個寫放大很高，但是讀放大為 0发绢，適合寫少讀多的場景硬耍。對于這種 Table，提供了兩種查詢：

Snapshot Query: 查詢最近一次 snapshot 的數(shù)據(jù)边酒，也就是最新的數(shù)據(jù)经柴。
Incrementabl Query:用戶需要指定一個 commit time，然后 Hudi 會掃描文件中的記錄墩朦，過濾出 commit_time > 用戶指定的 commit time 的記錄坯认。

具體的流程見下圖 gif:

[圖片上傳失敗...(image-defbd0-1649294241693)]

Merge-On-Read Table

對于 Merge-On-Read Table，整體的結(jié)構(gòu)有點像 LSM-Tree介杆，用戶的寫入先寫入到 delta data 中，這部分數(shù)據(jù)使用行存韭寸，這部分 delta data 可以手動 merge 到存量文件中春哨，整理為 parquet 的列存結(jié)構(gòu)。對于這類 Tabel恩伺，提供了三種查詢：

Snapshot Query: 查詢最近一次 snapshot 的數(shù)據(jù)赴背，也就是最新的數(shù)據(jù)。這里是一個行列數(shù)據(jù)混合的查詢晶渠。
Incrementabl Query:用戶需要指定一個 commit time凰荚，然后 Hudi 會掃描文件中的記錄，過濾出 commit_time > 用戶指定的 commit time 的記錄褒脯。這里是一個行列數(shù)據(jù)混合的查詢便瑟。
Read Optimized Query: 只查存量數(shù)據(jù)，不查增量數(shù)據(jù)番川，因為使用的都是列式文件格式到涂，所以效率較高。

具體的流程見下圖 gif:

[圖片上傳失敗...(image-1b5dc0-1649294241692)]

想法

關(guān)于上述的內(nèi)容颁督，Hudi 自身提供了一個比較便捷的 Docker Demo践啄，讓用戶可以很快地上手。

談到數(shù)據(jù)湖框架沉御，大家都會說出現(xiàn)在比較流行的三個開源軟件屿讽，分別為 Delta Lake、Apache Hudi 和 Apache Iceberg吠裆。雖然經(jīng)常把他們拿來一起比較伐谈，但是實際上每個框架的背景都是不一樣的烂完。

比如 Iceberg 的初衷是解決 Netflix 內(nèi)部文件格式混亂的問題，Hive Table 中即可能是 csv衩婚，也可能是 parquet 文件格式窜护，用戶在做一些 metadata 的修改時，需要清楚的知道自己所操作 Table 的很多屬性非春，針對這個痛點柱徙，Iceberg 提出了 everything can be a table 的概念，期望用 Iceberg Table 來統(tǒng)一所有的 Table奇昙。

而 Hudi 提出的則是批流兩種計算模型的折中方案护侮，Delta 我了解的不算太多，但是總體跟 Hudi 比較類似储耐。目前 Apache Iceberg 也在積極地做 Row-Level Update羊初，也就是類似 Hudi 的 upsert 功能。

雖然出發(fā)點不同什湘，但是三種框架無一例外都是指向了 Hive 這個統(tǒng)治數(shù)倉數(shù)十年长赞，但是數(shù)十年來變化并不大的框架，隨著數(shù)十年來 Hadoop 生態(tài)的發(fā)展闽撤，Hadoop 生態(tài)支持的數(shù)據(jù)量得哆、數(shù)據(jù)類型都有一個很大的提升，以 Hive 做數(shù)倉必然是比較簡單哟旗，但是 Hive 本身對 Table 中的內(nèi)容掌控度是比較小的贩据。以倉儲為例，Hive 相當于只是提供了一個倉庫闸餐，但是沒有利用倉庫中的內(nèi)容去做一些優(yōu)化饱亮，大家只是把東西放到倉庫里，但是倉庫的東西一多舍沙，大家找東西就會比較亂近上，而新興的數(shù)據(jù)湖框架，既提供了一個倉庫的功能拂铡，同時還給倉庫配上了標簽信息戈锻、監(jiān)控工具、智能運輸?shù)裙δ芎拖保词箓}庫裝的很滿格遭，用戶也可以輕松根據(jù)標簽定位到具體的貨架。

最后編輯于：2022.04.07 09:19:41

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末留瞳，一起剝皮案震驚了整個濱河市拒迅，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖璧微，帶你破解...
沈念sama閱讀 217,084評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異前硫，居然都是意外死亡胞得，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,623評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事乏奥⌒剑” “怎么了？”我有些...
開封第一講書人閱讀 163,450評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵旨别，是天一觀的道長叼屠。經(jīng)常有香客問我荚坞，道長亿汞，這世上最難降的妖魔是什么吴裤？我笑而不...
開封第一講書人閱讀 58,322評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任吱晒，我火速辦了婚禮叹话，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘涣旨。我一直安慰自己烹棉，他們只是感情好塔淤，可當我...
茶點故事閱讀 67,370評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布露泊。她就那樣靜靜地躺著喉镰，像睡著了一般。火紅的嫁衣襯著肌膚如雪滤淳。梳的紋絲不亂的頭發(fā)上梧喷，一...
開封第一講書人閱讀 51,274評論 1贊 300
城市分裂傳說
那天砌左，我揣著相機與錄音脖咐，去河邊找鬼。笑死汇歹，一個胖子當著我的面吹牛屁擅，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播产弹，決...
沈念sama閱讀 40,126評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼派歌，長吁一口氣：“原來是場噩夢啊……” “哼弯囊！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起胶果，我...
開封第一講書人閱讀 38,980評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤匾嘱，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后早抠，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體霎烙，經(jīng)...
沈念sama閱讀 45,414評論 1贊 313
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,599評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年蕊连，在試婚紗的時候發(fā)現(xiàn)自己被綠了悬垃。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,773評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡甘苍，死狀恐怖尝蠕，靈堂內(nèi)的尸體忽然破棺而出乌庶，到底是詐尸還是另有隱情迹恐，我是刑警寧澤，帶...
沈念sama閱讀 35,470評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布叭喜，位于F島的核電站囚聚，受9級特大地震影響闲昭，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜靡挥，卻給世界環(huán)境...
茶點故事閱讀 41,080評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望跋破。院中可真熱鬧簸淀，春花似錦、人聲如沸毒返。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,713評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽拧簸。三九已至劲绪，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間盆赤，已是汗流浹背贾富。一陣腳步聲響...
開封第一講書人閱讀 32,852評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留牺六，地道東北人颤枪。一個月前我還...
沈念sama閱讀 47,865評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像淑际，于是被迫代替她去往敵國和親畏纲。傳聞我的和親對象是個殘疾皇子扇住，可洞房花燭夜當晚...
茶點故事閱讀 44,689評論 2贊 354