2022數(shù)據(jù)湖技術(shù)摘要

DataFunSummit 2022 數(shù)據(jù)湖論壇 數(shù)據(jù)湖技術(shù)論壇 (xiaoe-tech.com)

1. 美團(tuán)增量數(shù)倉(cāng)的探索和實(shí)踐

美團(tuán)離線增量數(shù)據(jù)的探索和實(shí)踐

Hadoop沒(méi)有主鍵概念

hive沒(méi)有主鍵概念

  1. upsert(replace),delete,MVCC(Multi Version concurrency Control)受限
  2. 有主鍵的數(shù)據(jù)在hive中,無(wú)法形成增量數(shù)據(jù)生產(chǎn)鏈路,必須全量數(shù)據(jù)參與

HDFS文件不支持修改

  1. Btree+覆蓋寫(xiě)的方式行不通
  2. 只能增量+存量進(jìn)行Merge產(chǎn)生最終數(shù)據(jù)集
架構(gòu)選型-數(shù)據(jù)模型
  1. MOR架構(gòu) -- 降低生產(chǎn)成本:讀數(shù)據(jù)時(shí)產(chǎn)生冗余IO + 離線compact
  2. 支持主鍵
  3. 支持復(fù)雜MVCC,不支持事物:同步任務(wù)模型:有調(diào)度的亂時(shí)間序?qū)懭?/li>
  4. sharding策略:1.差異化讀寫(xiě)并發(fā) 2.彈性伸縮:hash主鍵前綴 + range打散
架構(gòu)選型-HIDI

hadoop incremental dataformat implemtation
HFile + Bulkload + SnapshotinputFormat + 離線compact


HIDI架構(gòu)

美團(tuán)實(shí)時(shí)增量數(shù)據(jù)的探索和實(shí)踐

從增量數(shù)倉(cāng)到批流融合

批計(jì)算和流計(jì)算
成本與時(shí)效性的權(quán)衡
批流一體的數(shù)倉(cāng)模型
  1. 開(kāi)發(fā)模型融合 -- Flink
  2. 調(diào)度融合 1. 批到流 mini batch by kafka 2. 流到批 mini batch by hudi logfile
  3. 存儲(chǔ)融合 1. 流join 2. 點(diǎn) + 批 + 增量 + 全量 + 離線 + 實(shí)時(shí)
  4. 批流應(yīng)能靈活切換
問(wèn)題
  1. level0 和 level1 區(qū)別
  2. 為什么選取hudi

2. 實(shí)時(shí)數(shù)倉(cāng)場(chǎng)景與架構(gòu)搭建實(shí)戰(zhàn)

數(shù)倉(cāng)設(shè)計(jì)架構(gòu)演進(jìn)

數(shù)倉(cāng)架構(gòu)演進(jìn)
實(shí)時(shí)數(shù)倉(cāng)架構(gòu)
實(shí)時(shí)數(shù)倉(cāng)架構(gòu)
是否需要實(shí)時(shí)計(jì)算
  1. 當(dāng)前的業(yè)務(wù)場(chǎng)景是否需要
  2. 業(yè)務(wù)價(jià)值是什么
是否需要更輕的服務(wù)
  1. 更輕的運(yùn)維
  2. 更好的彈性伸縮能力
  3. 更好的系統(tǒng)穩(wěn)定性
  4. 成本節(jié)省
  5. 安全
  6. 減一點(diǎn)配置

Amazon Analytics Serverless

Amazon Analytics Serverless 服務(wù)
無(wú)服務(wù)器的實(shí)時(shí)數(shù)倉(cāng)架構(gòu)
還需要什么

Amazon Redshift 更強(qiáng)勁的云原生實(shí)時(shí)數(shù)倉(cāng)架構(gòu)

Redshift 架構(gòu)
Redshift 實(shí)時(shí)數(shù)據(jù)攝入能力
實(shí)時(shí)數(shù)據(jù)攝取能力
Redshift 實(shí)時(shí)數(shù)倉(cāng)
Redshift實(shí)時(shí)數(shù)倉(cāng)與實(shí)時(shí)計(jì)算

Redshift實(shí)時(shí)數(shù)倉(cāng) + ML

3. Delta技術(shù)原理及其在EBAY的應(yīng)用

Lakehouse架構(gòu)
Lakehouse架構(gòu)
Delta Lake技術(shù)原理
Delta Lake技術(shù)原理

4. Icebege在微視實(shí)時(shí)場(chǎng)景的應(yīng)用

為何用Icebege

背景-數(shù)倉(cāng)架構(gòu)
微視數(shù)倉(cāng)架構(gòu)
  1. 實(shí)時(shí)數(shù)倉(cāng)成本高
  2. 兩套計(jì)算存儲(chǔ)的數(shù)據(jù)一致性和成本問(wèn)題
原因分析
原因分析
Icebege與傳統(tǒng)存儲(chǔ)對(duì)比
Icebege與傳統(tǒng)存儲(chǔ)對(duì)比

如何用Icebege

落地結(jié)構(gòu)
Icebege落地結(jié)構(gòu)
使用Icebege支持實(shí)時(shí)需求
使用Icebege支持實(shí)時(shí)需求
  1. 使用Icebege基礎(chǔ)核心模型建設(shè),為更多業(yè)務(wù)落地打基礎(chǔ)
  2. 成本降低超99%
數(shù)據(jù)回溯
  1. 新增指標(biāo)
  2. 修改計(jì)算口徑
  3. 數(shù)據(jù)修復(fù)
數(shù)據(jù)回溯功能的實(shí)現(xiàn)
流轉(zhuǎn)批場(chǎng)景
流體一體

維護(hù)Icebege

數(shù)據(jù)維護(hù)
  1. 清除過(guò)期數(shù)據(jù)
  2. 清除過(guò)期快照
  3. 小文件合并 1. binpack策略 2. sort策略:例如:使用用戶ID做分組排序
  4. 元數(shù)據(jù)合并
  5. 清除孤兒文件

小文件合并原理

原理

問(wèn)題

  1. 每次維表更新率在萬(wàn)分之一在Icebege如何更新
  2. flink中的數(shù)據(jù)回溯功能是如何實(shí)現(xiàn)的
  3. Icebege底層和hive的區(qū)別,存儲(chǔ)格式
  4. iceberg小文件合并占用多少資源
  5. upsert

5. Juice FS在數(shù)據(jù)湖存儲(chǔ)架構(gòu)上的探索

大數(shù)據(jù)存儲(chǔ)架構(gòu)概覽

大數(shù)據(jù)存儲(chǔ)架構(gòu)的變遷
大數(shù)據(jù)存儲(chǔ)架構(gòu)的變遷
為什么要有數(shù)據(jù)湖
  1. 數(shù)據(jù)孤島
  2. 多樣的數(shù)據(jù)格式(結(jié)構(gòu)化,半結(jié)構(gòu)化,非結(jié)構(gòu)化)
  3. 分散的數(shù)據(jù)管理
  4. 存儲(chǔ)計(jì)算耦合,缺乏彈性
  5. 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)
什么是數(shù)據(jù)湖
  1. A data lake is a system or repository of data stored in its natural / raw format ,usually object blobs or files
  2. 一個(gè)足夠便宜,可靠且能支撐海量數(shù)據(jù)的底層存儲(chǔ)(對(duì)象存儲(chǔ))
  3. everything in one place
  4. 后置ETL
  5. 存儲(chǔ)計(jì)算分離,更加云原生
為什么要有湖倉(cāng)一體
  1. 數(shù)據(jù)倉(cāng)庫(kù)依然存在,只是后置了
  2. 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)滯后性
  3. 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的問(wèn)題依然存在
  4. 數(shù)據(jù)重復(fù)拷貝和重復(fù)ETL
  5. ACID事務(wù),多版本數(shù)據(jù),索引,零拷貝克隆等
什么是湖倉(cāng)一體
  1. 開(kāi)放統(tǒng)一的底層文件格式
  2. 開(kāi)發(fā)的存儲(chǔ)層
  3. 開(kāi)發(fā)的計(jì)算引擎集成
  4. 與深度學(xué)習(xí)框架的結(jié)合

Juice FS與Lakehouse

Juice FS簡(jiǎn)介

簡(jiǎn)介
簡(jiǎn)介
架構(gòu)
Juice FS與HDFS,對(duì)象存儲(chǔ)的比較
Juice FS與HDFS,對(duì)象存儲(chǔ)的比較

Juice FS與數(shù)據(jù)湖生態(tài)

6. Icebege在小紅書(shū)的探索和實(shí)踐

APM日志入湖

數(shù)據(jù)平臺(tái)概覽
小紅書(shū)數(shù)據(jù)平臺(tái)概覽
日志數(shù)據(jù)入湖
APM case
  1. 動(dòng)態(tài)分區(qū)流量極不均勻,keyby數(shù)據(jù)傾斜,不keyby小文件多
  2. 小文件多 1.distcp延遲 2. 下游讀取效率差
Evenpartionshuffle
  1. 引入shuffle
  2. 流量動(dòng)態(tài)變化
日志數(shù)據(jù)入湖
  1. 異步:下游ETL任務(wù)已觸發(fā)
  2. 跨云讀寫(xiě),OI&OOM風(fēng)險(xiǎn)
Cloud Native Table
日志數(shù)據(jù)入湖 - Cloud Native Table
S3FileIO
S3FileIO
下游集成
下游集成
日志數(shù)據(jù)入湖

實(shí)時(shí)湖分析探索

實(shí)時(shí)分析鏈路
流批一體存儲(chǔ)
IcebegeMergeTree

CDC實(shí)時(shí)入湖

Mysql全量入倉(cāng)
Mysql全量入倉(cāng)
CDC增量入倉(cāng)
CDC增量入倉(cāng)
CDC實(shí)時(shí)入湖
Exactly once語(yǔ)義
Exactly once語(yǔ)義
MoR
Deduper
Hidden Partition
Hidden Partition

問(wèn)題

  1. CDC入湖方案
  2. 美團(tuán)DB數(shù)據(jù)同步到數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)與實(shí)踐
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末论矾,一起剝皮案震驚了整個(gè)濱河市援制,隨后出現(xiàn)的幾起案子倦畅,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尤辱,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)未蝌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)茧妒,“玉大人萧吠,你說(shuō)我怎么就攤上這事⊥┓ぃ” “怎么了纸型?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)梅忌。 經(jīng)常有香客問(wèn)我狰腌,道長(zhǎng),這世上最難降的妖魔是什么牧氮? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任琼腔,我火速辦了婚禮,結(jié)果婚禮上踱葛,老公的妹妹穿的比我還像新娘丹莲。我一直安慰自己光坝,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布甥材。 她就那樣靜靜地躺著盯另,像睡著了一般。 火紅的嫁衣襯著肌膚如雪擂达。 梳的紋絲不亂的頭發(fā)上土铺,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音板鬓,去河邊找鬼悲敷。 笑死,一個(gè)胖子當(dāng)著我的面吹牛俭令,可吹牛的內(nèi)容都是我干的后德。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼抄腔,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼瓢湃!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起赫蛇,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤绵患,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后悟耘,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體落蝙,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年暂幼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了筏勒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡旺嬉,死狀恐怖管行,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情邪媳,我是刑警寧澤捐顷,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站悲酷,受9級(jí)特大地震影響套菜,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜设易,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蛹头。 院中可真熱鬧顿肺,春花似錦戏溺、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至讼昆,卻和暖如春托享,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背浸赫。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工闰围, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人既峡。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓羡榴,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親运敢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子校仑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348