Hudi系列1:Hudi介紹

一. 什么是Hudi

Apache Hudi（發(fā)音“hoodie”）是下一代流數(shù)據(jù)湖平臺。Apache Hudi將核心倉庫和數(shù)據(jù)庫功能直接帶到數(shù)據(jù)湖中东囚。Hudi提供了表跺嗽，事務(wù)，高效upserts /刪除，高級索引桨嫁，流式攝取服務(wù)植兰，數(shù)據(jù)群集/壓縮優(yōu)化以及并發(fā)，同時保持?jǐn)?shù)據(jù)以開源文件格式保留璃吧。

Apache Hudi不僅用于流媒體工作負載楣导，還允許創(chuàng)建有效的增量批量流水線。包括 Uber, Amazon, ByteDance, Robinhood等以及更多的公司都在使用Hudi改造他們的生產(chǎn)數(shù)據(jù)湖泊畜挨。

Apache Hudi可以輕松使用在任何云存儲平臺上筒繁。Hudi的高級性能優(yōu)化，使用任何流行的查詢引擎進行分析工作負載巴元，包括Apache Spark毡咏，F(xiàn)link翩活，Presto蔓挖，Trino，Hive等筒愚。

Hudi（Hadoop Upserts and Incrementals縮寫）：用于管理分布式文件系統(tǒng)DFS上大型分析數(shù)據(jù)集存儲修己。
一言以蔽之恢总，Hudi是一種針對分析型業(yè)務(wù)的、掃描優(yōu)化的數(shù)據(jù)存儲抽象箩退，它能夠使DFS數(shù)據(jù)集在分鐘級的時延內(nèi)支持變更离熏，也支持下游系統(tǒng)對這個數(shù)據(jù)集的增量處理佳谦。
官網(wǎng)地址：https://hudi.apache.org/

image.png

二. 發(fā)展歷史

2015 年：發(fā)表了增量處理的核心思想/原則（O'reilly 文章）

2016 年：由 Uber 創(chuàng)建并為所有數(shù)據(jù)庫/關(guān)鍵業(yè)務(wù)提供支持

2017 年：由 Uber 開源戴涝，并支撐 100PB 數(shù)據(jù)湖

2018 年：吸引大量使用者，并因云計算普及

2019 年：成為 ASF 孵化項目钻蔑，并增加更多平臺組件

2020 年：畢業(yè)成為 Apache 頂級項目啥刻，社區(qū)、下載量咪笑、采用率增長超過 10 倍

2021 年：支持 Uber 500PB 數(shù)據(jù)湖可帽，SQL DML、Flink 集成窗怒、索引映跟、元服務(wù)器、緩存扬虚。

三. Hudi 功能和特性

快速upsert,可插入索引
以原子方式操作數(shù)據(jù)并具有回滾功能
寫入器之和查詢之間的快照隔離
savepoint用戶數(shù)據(jù)恢復(fù)的保存點
管理文件大小努隙，使用統(tǒng)計數(shù)據(jù)布局
異步壓縮行列數(shù)據(jù)
具有時間線來追蹤元數(shù)據(jù)血統(tǒng)
通過聚類優(yōu)化數(shù)據(jù)集

image.png

四. Hudi 基礎(chǔ)架構(gòu)

image.png

通過DeltaStreammer、Flink辜昵、Spark等工具荸镊，將數(shù)據(jù)攝取到數(shù)據(jù)湖存儲。
支持 HDFS、S3躬存、Azure张惹、云等等作為數(shù)據(jù)湖的數(shù)據(jù)存儲。
支持不同查詢引擎岭洲，如：Spark宛逗、Flink、Presto钦椭、Hive拧额、Impala、Aliyun DLA彪腔。
支持 spark侥锦、flink、map-reduce 等計算引擎對 hudi 的數(shù)據(jù)進行讀寫操作德挣。

五. 使用公司

image.png

六. 小結(jié)

Apache Hudi 本身不存儲數(shù)據(jù)恭垦，僅僅管理數(shù)據(jù)，借助外部存儲引擎存儲數(shù)據(jù)格嗅，比如HDFS番挺、S3；
此外屯掖，Apache Hudi 也不分析數(shù)據(jù)玄柏，需要使用計算分析引擎，查詢和保存數(shù)據(jù)贴铜，比如Spark或Flink

參考:

https://hudi.apache.org/docs/overview/
https://www.bilibili.com/video/BV1ue4y1i7na/
https://blog.csdn.net/yang_shibiao/article/details/122910318
https://blog.csdn.net/NC_NE/article/details/124789211

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末粪摘，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子绍坝，更是在濱河造成了極大的恐慌徘意，老刑警劉巖，帶你破解...
沈念sama閱讀 212,599評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件轩褐，死亡現(xiàn)場離奇詭異椎咧，居然都是意外死亡，警方通過查閱死者的電腦和手機把介，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,629評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門勤讽，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人拗踢，你說我怎么就攤上這事脚牍。” “怎么了秒拔？”我有些...
開封第一講書人閱讀 158,084評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵莫矗，是天一觀的道長飒硅。經(jīng)常有香客問我，道長作谚，這世上最難降的妖魔是什么三娩？我笑而不...
開封第一講書人閱讀 56,708評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮妹懒，結(jié)果婚禮上雀监，老公的妹妹穿的比我還像新娘。我一直安慰自己眨唬，他們只是感情好会前，可當(dāng)我...
茶點故事閱讀 65,813評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著匾竿，像睡著了一般瓦宜。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上岭妖，一...
開封第一講書人閱讀 50,021評論 1贊 291
城市分裂傳說
那天临庇，我揣著相機與錄音，去河邊找鬼昵慌。笑死假夺，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的斋攀。我是一名探鬼主播已卷，決...
沈念sama閱讀 39,120評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼淳蔼！你這毒婦竟也來了侧蘸？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,866評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤肖方，失蹤者是張志新（化名）和其女友劉穎闺魏，沒想到半個月后未状，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體俯画，經(jīng)...
沈念sama閱讀 44,308評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,633評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年司草，在試婚紗的時候發(fā)現(xiàn)自己被綠了艰垂。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,768評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡埋虹，死狀恐怖猜憎，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情搔课，我是刑警寧澤胰柑，帶...
沈念sama閱讀 34,461評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響柬讨，放射性物質(zhì)發(fā)生泄漏崩瓤。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,094評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一踩官、第九天我趴在偏房一處隱蔽的房頂上張望却桶。院中可真熱鬧，春花似錦蔗牡、人聲如沸颖系。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,850評論 0贊 21
一樁弒父案辩越，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽嘁扼。三九已至，卻和暖如春黔攒，著一層夾襖步出監(jiān)牢的瞬間偷拔，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,082評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工亏钩，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留莲绰，地道東北人。一個月前我還...
沈念sama閱讀 46,571評論 2贊 362
代替公主和親
正文我出身青樓姑丑，卻偏偏與公主長得像蛤签，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子栅哀，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,666評論 2贊 350

Hudi系列1:Hudi介紹

一. 什么是Hudi

二. 發(fā)展歷史

三. Hudi 功能和特性

四. Hudi 基礎(chǔ)架構(gòu)

五. 使用公司

六. 小結(jié)

參考:

推薦閱讀更多精彩內(nèi)容