本文整理自阿里云高級(jí)專(zhuān)家喻良灭将,在 Flink Forward Asia 2023 主會(huì)場(chǎng)的分享角寸。本次分享將為大家介紹 Flink + Paimon + Hologres 構(gòu)建湖倉(cāng)一體數(shù)據(jù)分析猴誊。Hologres 是阿里云自研一站式實(shí)時(shí)數(shù)倉(cāng)產(chǎn)品凛膏,通過(guò)和 Paimon 的深度合作神僵,提供分鐘級(jí)/秒級(jí)時(shí)效性+秒級(jí) OLAP 性能,實(shí)現(xiàn)流式湖倉(cāng)的分層建模呕诉,降低開(kāi)發(fā)運(yùn)維成本,打破數(shù)據(jù)孤島吃度,實(shí)現(xiàn)業(yè)務(wù)洞察甩挫。內(nèi)容主要分為以下五部分:
- 數(shù)據(jù)分析架構(gòu)的實(shí)時(shí)性演進(jìn)
- Hologres 湖倉(cāng)架構(gòu)的三個(gè)能力創(chuàng)新
- Flink+Paimon+Hologres:實(shí)時(shí)湖倉(cāng)五個(gè)典型應(yīng)用場(chǎng)景
- Hologres 湖倉(cāng)分析未來(lái)規(guī)劃
- Hologres+Flink:企業(yè)級(jí)實(shí)時(shí)數(shù)倉(cāng)最佳實(shí)踐
一、數(shù)據(jù)分析架構(gòu)的實(shí)時(shí)性演進(jìn)
目前很多用戶(hù)都在考慮將湖倉(cāng)分析從 Hive 架構(gòu)遷移到 Lakehouse椿每,在 Lakehouse 上出現(xiàn)了 Iceberg伊者、 Dalta Lake英遭、Hudi 三劍客,讓傳統(tǒng)方式改善了很多亦渗,比如操作更方便挖诸、有 ACID、Time Travel法精、查詢(xún)效率更高多律、 Upsert 能力更強(qiáng)等。
隨著企業(yè)對(duì)于數(shù)據(jù)更新處理的時(shí)效性要求越來(lái)越高搂蜓,同時(shí)又提出了高吞吐入湖狼荞、低延時(shí)數(shù)據(jù)、具備流式的訂閱帮碰、高性能的實(shí)時(shí)查詢(xún)等需求相味,這類(lèi)需求可以歸為流式數(shù)倉(cāng)。
湖倉(cāng)架構(gòu)中 Table Format 層要應(yīng)對(duì)這些需求殉挽,需要更加面向流式湖倉(cāng)設(shè)計(jì)丰涉,另外從引擎上來(lái)看,需要更高性能的查詢(xún)分析能力斯碌。
Paimon 是為實(shí)時(shí)而生的 Table Format一死,最主要的特點(diǎn)是引入了 LSM Tree。Paimon 和 Hudi 相比输拇, Upsert 性能提升了 4 倍摘符,Scan 性能提升了 10 倍,具備低延時(shí)策吠、低成本入湖逛裤、開(kāi)發(fā)效率高等特點(diǎn)。另外大家對(duì) Paimon 適配熱情都非常高猴抹,各家產(chǎn)品適配工作都推進(jìn)地比較快带族,所以它的生態(tài)較其他幾個(gè)Table Format 發(fā)展得更快。
Hologres 是面向數(shù)據(jù)服務(wù)層設(shè)計(jì)的統(tǒng)一的數(shù)據(jù)平臺(tái)蟀给,可以將 OLAP 引擎查詢(xún)蝙砌、即席分析、在線服務(wù)跋理、向量計(jì)算等多個(gè)數(shù)據(jù)應(yīng)用構(gòu)建在統(tǒng)一存儲(chǔ)上择克,實(shí)現(xiàn)一份數(shù)據(jù)多種計(jì)算。在性能上前普,Hologres 在 TPC-H 30TB 上排名世界第一肚邢,近兩年的雙十一 Hologres 在集團(tuán)內(nèi)部的峰值寫(xiě)入達(dá)到 10 億每秒。在信通院的測(cè)試中,Hologres 基于 Serverless 能力骡湖,可以把節(jié)點(diǎn)的規(guī)模推到 8192 節(jié)點(diǎn)贱纠,實(shí)現(xiàn)了超大規(guī)模的 OLAP 引擎。
Flink + Paimon + Hologres 流式湖倉(cāng)方案是將 3 個(gè)產(chǎn)品做了非常緊密的結(jié)合响蕴,首先使用 Flink 將數(shù)倉(cāng)以 Paimon 這種 Table Format 在湖上構(gòu)建谆焊,使用 Flink 進(jìn)行流計(jì)算、使用 Hologres 對(duì)各層數(shù)倉(cāng)做統(tǒng)一的 OLAP 查詢(xún)和 ADS 層在線分析浦夷∠绞裕基于 Paimon 可以實(shí)現(xiàn)高吞吐入湖;基于 Flink 可以實(shí)現(xiàn)全鏈路的實(shí)時(shí)計(jì)算军拟,基于 Hologres 可以實(shí)現(xiàn)高性能的 OLAP 查詢(xún)剃执,所以整個(gè)鏈路從實(shí)時(shí)性、時(shí)效性懈息、成本幾個(gè)方面都可以取得比較好的平衡肾档。
二、Hologres 流式湖倉(cāng)架構(gòu)的三個(gè)能力創(chuàng)新
Hologres 是標(biāo)準(zhǔn)的 MPP 數(shù)據(jù)庫(kù)辫继,主要由兩個(gè)模塊組成怒见, FE(Frontend) 和 QE(Query Engine), FE 負(fù)責(zé)接收 SQL姑宽,并通過(guò)優(yōu)化器生成物理 Plan遣耍, QE 負(fù)責(zé)高效率運(yùn)行 Plan。為了適配 LakeHouse炮车, 引入 DLF-FDW舵变,這個(gè)組件在元數(shù)據(jù)上打通了 DLF 和 HMS,在數(shù)據(jù)鏈路上打通了 OSS 和 OSS-HDFS 瘦穆,支持訪問(wèn)湖上 Paimon纪隙、Hudi 、Delta 等數(shù)據(jù)格式扛或。
針對(duì)實(shí)時(shí)湖倉(cāng)場(chǎng)景绵咱,Hologres 專(zhuān)門(mén)設(shè)計(jì)了一些新特性,以滿足用戶(hù)對(duì)實(shí)時(shí)湖倉(cāng)成本熙兔、性能悲伶、隔離方面的需求。
第一個(gè)特性住涉,基于 Serverless 湖加速的能力麸锉。當(dāng)用戶(hù)的數(shù)據(jù)在以 Paimon 格式在湖上構(gòu)建好后, 希望 OLAP 引擎能以更低成本去做加速查詢(xún)舆声,為此我們推出 Serverless 方案淮椰。首先為用戶(hù)免費(fèi)提供一個(gè) Frontend 節(jié)點(diǎn),用于存儲(chǔ)元數(shù)據(jù)和權(quán)限等,每個(gè)用戶(hù)獨(dú)享 Frontend 節(jié)點(diǎn)主穗,用戶(hù)的元數(shù)據(jù)是獨(dú)立的、完全隔離的毙芜。后端提供多組共享資源池忽媒,為 SQL 提供實(shí)際的計(jì)算資源。在實(shí)際 SQL 運(yùn)行中腋粥,應(yīng)用層 SQL 提交到 Frontend 上晦雨, 經(jīng)過(guò)優(yōu)化器生成物理 Plan,根據(jù)負(fù)載選擇一個(gè)后端共享資源池進(jìn)行運(yùn)行隘冲,完成后會(huì)原路返回執(zhí)行結(jié)果闹瞧。基于這個(gè)方案可以實(shí)現(xiàn)高性能數(shù)據(jù)湖查詢(xún)加速展辞,該方案最大的特點(diǎn)是用戶(hù)的查詢(xún)成本低奥邮,用戶(hù)手上不需要持有資源,當(dāng) SQL 運(yùn)行時(shí)罗珍,系統(tǒng)會(huì)自動(dòng)記錄 SQL 讀取了多少數(shù)據(jù)洽腺,根據(jù)實(shí)際處理的數(shù)據(jù)量進(jìn)行計(jì)費(fèi),根據(jù)實(shí)際使用付費(fèi)覆旱,不使用不付費(fèi)蘸朋。
第二個(gè)特性,彈性與隔離扣唱。數(shù)倉(cāng)上有各種各樣的業(yè)務(wù)藕坯,各業(yè)務(wù)負(fù)載的類(lèi)型不一樣,有的 App 在線查詢(xún)噪沙,查詢(xún)響應(yīng)要求毫秒級(jí)炼彪,要求數(shù)百數(shù)千 QPS,有的業(yè)務(wù)是 ETL 數(shù)據(jù)加工作業(yè)曲聂,執(zhí)行時(shí)間長(zhǎng)霹购,消耗資源多,有的業(yè)務(wù)是復(fù)雜的聚合指標(biāo)等等朋腋,為了更好解決這個(gè)問(wèn)題齐疙,Hologres 提供了彈性計(jì)算資源組模式,這是一種徹底的計(jì)算負(fù)載和存儲(chǔ)能力解耦的架構(gòu)旭咽。
首先在實(shí)例中引入 Gateway 作為統(tǒng)一 SQL 網(wǎng)關(guān)接入層贞奋,下層把資源分成了多個(gè)獨(dú)立的計(jì)算組,每組都可以獨(dú)立運(yùn)行 SQL穷绵。比如說(shuō)第一個(gè)計(jì)算資源組用于加工和計(jì)算轿塔、第二個(gè)用于 OLAP 查詢(xún)、第三個(gè)用于在線的業(yè)務(wù)查詢(xún)。另外計(jì)算資源組是共享同一份存儲(chǔ)勾缭,計(jì)算資源組在授權(quán)后可以訪問(wèn)所有的數(shù)據(jù)揍障,在實(shí)際運(yùn)行過(guò)程中 SQL 通過(guò) Gateway 接入進(jìn)來(lái),提前配置好路由規(guī)則(定義好用戶(hù)與計(jì)算資源組的對(duì)應(yīng)關(guān)系)俩由,它會(huì)根據(jù)這個(gè)規(guī)則去路由到具體的計(jì)算組毒嫡。
基于彈性計(jì)算資源組可以實(shí)現(xiàn)按需擴(kuò)容。當(dāng)業(yè)務(wù)高峰時(shí)幻梯,可以對(duì)其中任意計(jì)算組擴(kuò)容兜畸,也可以對(duì)這個(gè)實(shí)例增加資源組,當(dāng)業(yè)務(wù)低峰期碘梢,可以直接對(duì)資源組進(jìn)行刪除咬摇、縮容操作。相關(guān)變更操作對(duì)查詢(xún)沒(méi)有影響煞躬,對(duì)實(shí)時(shí)寫(xiě)入僅有 5 秒鐘的影響肛鹏。通過(guò)這種方式用戶(hù)持有的資源可以做到最小化,從而達(dá)到降本增效汰翠。因?yàn)橛?jì)算組天然物理隔離龄坪,所以避免了業(yè)務(wù)和業(yè)務(wù)相互干擾,讓查詢(xún)更穩(wěn)定复唤。
第三個(gè)特性健田, JSON 數(shù)據(jù)列式存儲(chǔ)優(yōu)化。在支持用戶(hù)處理數(shù)據(jù)湖查詢(xún)的時(shí)候會(huì)遇到大量半結(jié)構(gòu)化數(shù)據(jù)佛纫,主要是 JSON 數(shù)據(jù)妓局,處理 JSON 數(shù)據(jù)有兩種方式:
第一種方式在入庫(kù)的時(shí)候把 JSON 打成大寬表,該方案存在一些缺點(diǎn)呈宇,如一旦業(yè)務(wù)上有變化好爬,要加字段的時(shí)候整個(gè)業(yè)務(wù)就得停下來(lái),然后全鏈路改完后再上線
第二種方式直接往庫(kù)里寫(xiě)入 JSON甥啄,在業(yè)務(wù)上方便存炮,任務(wù)也簡(jiǎn)單,業(yè)務(wù)直接在 JSON 中增加字段即可蜈漓,但引擎查詢(xún)的時(shí)候就會(huì)非常慢穆桂,因?yàn)樵谧x數(shù)據(jù)的時(shí)候,需要將 JSON 展開(kāi)去分析
Hologres JSON 數(shù)據(jù)列式存儲(chǔ)優(yōu)化方案可以同時(shí)解決入庫(kù)方便融虽,滿足壓縮存儲(chǔ)享完、高性能計(jì)算需求,方案具體為:
應(yīng)用直接以 JSON 方式寫(xiě)到數(shù)據(jù)庫(kù)
Hologres 有超高的實(shí)時(shí)性有额,數(shù)據(jù)直接寫(xiě)入到內(nèi)存里般又,并生成 WAL Log彼绷,當(dāng)內(nèi)存攢到一定大小后會(huì)落成文件
后臺(tái)異步啟動(dòng) Compaction 任務(wù)分析文件中的 JSON 字段,字段重復(fù)率低于閾值就會(huì)被重新放到新的 JSON 里面茴迁,重復(fù)率高于標(biāo)準(zhǔn)的字段抽出來(lái)形成列存寄悯,以 ORC 格式存成文件,Compaction 后就可以當(dāng)做列存處理堕义,對(duì)它的各列進(jìn)行自動(dòng)索引热某、壓縮。這種抽取是底層存儲(chǔ)層的自動(dòng)轉(zhuǎn)換胳螟,在邏輯上仍然是同一個(gè) JSON 字段,不改變?cè)杏脩?hù)原有使用 JSON 的函數(shù)和操作符筹吐。
基于索引和壓縮糖耸,可以高效處理數(shù)據(jù)讀取、Filter 等操作丘薛,這些操作對(duì)業(yè)務(wù)無(wú)感嘉竟,后臺(tái)異步進(jìn)行且整個(gè)查詢(xún)過(guò)程中數(shù)據(jù)也是一致的
2022 年雙十一期間,淘寶搜索部門(mén)使用了該方案洋侨,查詢(xún)效率有 400% 提升舍扰,同時(shí)列存化使壓縮率大幅提升,存儲(chǔ)成本下降 45%希坚。
三边苹、Flink+Paimon+Hologres 構(gòu)建實(shí)時(shí)湖倉(cāng)的五個(gè)典型應(yīng)用場(chǎng)景
下面介紹基于 Flink+Paimon+Hologres 實(shí)踐湖倉(cāng)一體數(shù)據(jù)分析的經(jīng)典場(chǎng)景。
第一個(gè)場(chǎng)景數(shù)據(jù)湖查詢(xún)加速
上圖展示通過(guò) SQL 實(shí)現(xiàn)數(shù)據(jù)湖查詢(xún)加速的 Demo:
首先上圖最左邊是 Flink 的 SQL 腳本裁僧,先創(chuàng)建 Paimon 表个束,再去對(duì) Paimon 表進(jìn)行數(shù)據(jù)寫(xiě)入。
-
中間是 Hologres 查詢(xún)加速 SQL 展示
批量導(dǎo)入外表聊疲,可以同步 DLF 下所有的表信息茬底,這只是關(guān)聯(lián)元數(shù)據(jù)信息,沒(méi)有做實(shí)際數(shù)據(jù)入庫(kù)
使用圖中查詢(xún) SQL 對(duì)它進(jìn)行直接查詢(xún)获洲,也可以用 Insert Into Select 語(yǔ)句把數(shù)據(jù)導(dǎo)入到 Hologres 的內(nèi)部存儲(chǔ)中進(jìn)行查詢(xún)阱表。
使用圖中查詢(xún) SQL 對(duì)它進(jìn)行直接查詢(xún),也可以用 Insert Into Select 語(yǔ)句把數(shù)據(jù)導(dǎo)入到 Hologres 的內(nèi)部存儲(chǔ)中進(jìn)行查詢(xún)贡珊。
第二個(gè)場(chǎng)景為湖倉(cāng)聯(lián)合查詢(xún)
左邊是聯(lián)合查詢(xún)的物理 Plan最爬,可以看到下面是 Hologres 內(nèi)表的 Scan 算子,中間是 Paimon 外表 Scan 算子飞崖,最上面為 Join烂叔。
第三個(gè)場(chǎng)景為湖倉(cāng)冷熱分層
業(yè)務(wù)在進(jìn)行湖倉(cāng)查詢(xún)的時(shí)候,會(huì)頻繁查詢(xún)最近七天的數(shù)據(jù)固歪,偶爾查詢(xún)七天以前的數(shù)據(jù)蒜鸡。因此需要低成本的冷熱分層查詢(xún)方案胯努。
上圖右側(cè)提供了 SQL Demo 例子
創(chuàng)建外表无埃,將 Paimon 這個(gè)表的元數(shù)據(jù)信息導(dǎo)入進(jìn)來(lái)签杈,Paimon 里存了全量的歷史數(shù)據(jù)
創(chuàng)建 Hologres 內(nèi)表昔头,里面存放了最近 7 天的業(yè)務(wù)熱數(shù)據(jù)
通過(guò)視圖將近 7 天的熱數(shù)據(jù)和 7 天前的冷數(shù)據(jù)做視圖關(guān)聯(lián)起來(lái)
基于這個(gè)視圖進(jìn)行范圍查詢(xún)室琢,當(dāng)查詢(xún)范圍落到了熱數(shù)據(jù)上并炮,就會(huì)直接去查詢(xún) Hologres 內(nèi)表禽最,當(dāng)這個(gè)時(shí)間范圍落到了 7 天以前赁濒,就會(huì)直接查詢(xún) Paimon 表为鳄。當(dāng)兩個(gè)范圍都包含了局嘁,就會(huì)形成上圖左邊的查詢(xún)計(jì)劃溉箕,下面是 Paimon 外表 Scan,中間是 Hologres 的 Scan 算子悦昵,上面會(huì)有 Append 將它們 Union 起來(lái)肴茄。
該方案可以降本增效,提升開(kāi)發(fā)效率但指。再補(bǔ)充一下寡痰,在 Hologres 內(nèi)表上有自動(dòng)冷熱分層功能,在分區(qū)表上定義熱數(shù)據(jù)保留時(shí)間棋凳,超期后系統(tǒng)會(huì)自動(dòng)搬遷到冷數(shù)據(jù)中拦坠,對(duì)運(yùn)維和查詢(xún)無(wú)感。Holo 的冷存存儲(chǔ)成本幾乎與 OSS 是一致的剩岳,且無(wú)需手動(dòng)搬遷贞滨,體驗(yàn)更優(yōu)。
第四個(gè)場(chǎng)景為基于湖數(shù)據(jù)構(gòu)建 Dynamic Table
Dynamic Table 是 Hologres 近期內(nèi)部的邀測(cè)功能卢肃,類(lèi)似于物化視圖疲迂,融合了實(shí)時(shí)更新與批量更新,具備批流一體的更新體驗(yàn)莫湘。
基于Dynamic Table 構(gòu)建湖倉(cāng)分層過(guò)程:
在 DWS 層數(shù)倉(cāng)使用 Paimon 在湖上構(gòu)建數(shù)據(jù)表和維表
在 ADS 層尤蒿、DWD 層使用 Dynamic Table 逐層構(gòu)建數(shù)倉(cāng)
基于Dynamic Table,可以提供高 QPS幅垮、 高性能查詢(xún)腰池。當(dāng)希望對(duì) Dynamic Table 進(jìn)行更新的時(shí)候,就可以用 Refresh Table 命令去刷新忙芒。
Dynamic Table 更新能力:如果數(shù)據(jù)源為 Hologres 內(nèi)表示弓,可以提供增量更新能力,如果是 Paimon 表可以提供全量更新能力呵萨。后面計(jì)劃將 Paimon Binlog 日志接上奏属,之后湖上的數(shù)據(jù)也可以去做增量更新場(chǎng)景。
第五個(gè)場(chǎng)景為流式湖倉(cāng)的分層實(shí)踐
通過(guò) Flink 的流計(jì)算能力潮峦,將數(shù)倉(cāng)的 ODS 層囱皿、 DWD 直接構(gòu)建在湖上勇婴,以 Paimon 來(lái)存儲(chǔ),后面兩層可以構(gòu)建在 Hologres 上嘱腥,上層業(yè)務(wù)層通過(guò) Flink 提供流計(jì)算的能力耕渴,通過(guò) Hologres 提供 OLAP 在線查詢(xún)的能力。Hologres 和 Paimon 都具備流式訪問(wèn)能力齿兔,故數(shù)倉(cāng)分層可以根據(jù)存儲(chǔ)成本和數(shù)據(jù)時(shí)效性進(jìn)行選擇橱脸。直接將數(shù)據(jù)放在 Hologres 上,可以提供秒級(jí)時(shí)效性以及極致 OLAP 性能分苇;如果將數(shù)據(jù)構(gòu)建在 Paimon 上添诉,使用 Hologres 來(lái)進(jìn)行查詢(xún)加速,可以提供分鐘級(jí)的時(shí)效性和秒級(jí) OLAP 性能医寿。
四吻商、Hologres 湖倉(cāng)分析未來(lái)規(guī)劃
Hologres 湖倉(cāng)一體規(guī)劃重點(diǎn)將圍繞 Paimon 格式展開(kāi),有兩個(gè)目標(biāo)糟红,希望把基于 Paimon 的查詢(xún)性能從秒級(jí)推向亞秒級(jí)體驗(yàn)。
通過(guò)支持如下功能優(yōu)化查詢(xún)性能
C ++ Native Reader
引入多級(jí)的智能緩存
支持更多統(tǒng)計(jì)信息乌叶,幫助優(yōu)化器生成更好 Plan
我們希望對(duì) Paimon 的接入功能更完整
支持Paimon格式入湖
支持消費(fèi)Paimon的 Binlog 能力
適配元數(shù)據(jù):自動(dòng)發(fā)現(xiàn)Maxcompute元數(shù)據(jù)在云上已是標(biāo)配能力盆偿,但對(duì)Paimon還未支持,后面需要適配准浴。
五事扭、Hologres+Flink:企業(yè)級(jí)實(shí)時(shí)數(shù)倉(cāng)最佳實(shí)踐
這是 Hologres 加 Flink 流式分層方案,和湖倉(cāng)分層的方案是比較類(lèi)似的乐横,區(qū)別是整個(gè)數(shù)倉(cāng)都構(gòu)建在了 Hologres 上求橄。這個(gè)方案可以支持高性能的數(shù)據(jù)實(shí)時(shí)寫(xiě)入、實(shí)時(shí)更新葡公、實(shí)時(shí)查詢(xún)罐农,將數(shù)據(jù)的新鮮度保持在秒級(jí)甚至毫秒級(jí),幫助有極致需求的企業(yè)實(shí)現(xiàn)業(yè)務(wù)分析的極致實(shí)時(shí)化催什。
Hologres+Flink 這套組合是在阿里集團(tuán)內(nèi)部經(jīng)過(guò)多年實(shí)時(shí)化場(chǎng)景打磨探索出來(lái)的最佳架構(gòu)涵亏,例如淘天用戶(hù)增長(zhǎng)團(tuán)隊(duì)成功讓 3-5min 的畫(huà)像分析提升到 10s 左右,CCO 客戶(hù)服務(wù)團(tuán)隊(duì)數(shù)據(jù)分析效率提升 10 倍蒲凶,淘菜菜一年成本降低幾百萬(wàn)气筋。通過(guò)多年的積累,Hologres+Flink 產(chǎn)品功能逐漸互補(bǔ)旋圆,以實(shí)時(shí)計(jì)算 Flink 為中心宠默,實(shí)時(shí)數(shù)倉(cāng) Hologres 圍繞其有多項(xiàng)產(chǎn)品使用路徑:Hologres 能夠作為 Flink 的維表來(lái)使用;通過(guò) Flink 能夠把加工好的結(jié)果寫(xiě)入 Hologres灵巧;Hologres 提供 binlog 能夠被 Flink 消費(fèi)搀矫;Hologres Catalog 支持元數(shù)據(jù)服務(wù)抹沪、整庫(kù)同步、SchemaEvolution 等艾君。
Hologres 搭配 Flink 可以支持非常高性能的實(shí)時(shí)寫(xiě)入與更新采够,第一支持 PK 查詢(xún),提供高性能的 Upsert 能力冰垄; 第二支持寬表 merge 和局部列更新蹬癌;第三新增 Check And Put 操作,亂序數(shù)據(jù)也能保證和上游最終一致性虹茶;第四新增 Fixed_Copy 模式逝薪,寫(xiě)入性能更好。 Flink 都是實(shí)時(shí)入庫(kù)蝴罪,增加了基于 Hologres 的批量入庫(kù)的能力董济。右圖展示 128 Core 的 Hologres 性能:在 Append Only 的情況下無(wú)主鍵表的時(shí)候可以達(dá)到 230 萬(wàn)的 RPS; 在 Insert 有主鍵表要门,沖突就丟棄新行的模式下可以達(dá)到 200 萬(wàn)RPS虏肾;在 Update 的場(chǎng)景下,根據(jù)主鍵沖突比例不一樣欢搜,可以達(dá)到 70-80 萬(wàn)的 RPS封豪。
隨著大數(shù)據(jù)從規(guī)模化走向?qū)崟r(shí)化炒瘟,實(shí)時(shí)數(shù)據(jù)的需求覆蓋互聯(lián)網(wǎng)吹埠、交通、傳媒疮装、金融缘琅、政府等各個(gè)領(lǐng)域。實(shí)時(shí)計(jì)算在企業(yè)大數(shù)據(jù)平臺(tái)的比重也在不斷提高廓推,部分行業(yè)已經(jīng)達(dá)到了 50%刷袍。Hologres+Flink 通過(guò)豐富企業(yè)級(jí)能力,替換開(kāi)源復(fù)雜的各類(lèi)技術(shù)組件樊展,減少多種技術(shù)棧學(xué)習(xí)做个、多種集群運(yùn)維、多處數(shù)據(jù)一致性維護(hù)等成本滚局,讓企業(yè)專(zhuān)注于業(yè)務(wù)居暖,實(shí)現(xiàn)降本增效。
小紅書(shū) OLAP 場(chǎng)景通過(guò) Hologres 替換 Clickhouse藤肢,查詢(xún)性能大幅提升太闺,在推薦場(chǎng)景下基于 Hologres+Flink 實(shí)時(shí)分析用戶(hù) A/B 分組測(cè)試結(jié)果,實(shí)時(shí)調(diào)整推薦策略嘁圈,更新推薦模型省骂。
小邁科技通過(guò) Hologres+Flink 構(gòu)建百億級(jí)廣告實(shí)時(shí)數(shù)倉(cāng)蟀淮,滿足高性能寫(xiě)入、極速?gòu)?fù)雜查詢(xún)钞澳、高可用等需求怠惶,讓用戶(hù)行為分析實(shí)現(xiàn)秒級(jí)響應(yīng),快速響應(yīng)業(yè)務(wù)需求轧粟。
金蝶管易云升級(jí)實(shí)時(shí)數(shù)倉(cāng)到 Hologres+Flink策治,數(shù)據(jù)延遲從 30S+ 降低到秒級(jí),借助 Hologres 強(qiáng)大的實(shí)時(shí)分析聚合能力兰吟,解決數(shù)據(jù)統(tǒng)計(jì)延遲問(wèn)題通惫,并且整體資源成本降低 50%。
好未來(lái)將 Kudu 作為 OLAP 引擎混蔼,使用 Impala 進(jìn)行數(shù)據(jù)加載履腋、運(yùn)算,通過(guò) Hologres 同時(shí)替換 Kudu/Impala 實(shí)現(xiàn)百萬(wàn)級(jí)寫(xiě)入和毫秒級(jí)查詢(xún)能力惭嚣,降低成本近百萬(wàn)/年遵湖。
樂(lè)元素通過(guò)測(cè)試發(fā)現(xiàn)對(duì)比 Presto 性能提升了 5~10 倍,64 核 Holgores 可直接替換 96 核 Presto 集群晚吞,升級(jí)數(shù)倉(cāng)架構(gòu)奄侠,讓業(yè)務(wù)運(yùn)營(yíng)效率提升 10 倍+。
最后總結(jié)一下载矿,使用 Flink+Paimon+Hologres 讓我們?cè)诹魇胶}(cāng)、實(shí)時(shí)數(shù)倉(cāng)都有一站式的體驗(yàn)烹卒。全鏈路都用 SQL 來(lái)進(jìn)行操作闷盔,每層數(shù)據(jù)都是可修改、可復(fù)用旅急,整個(gè)方案組件比較少逢勾,整個(gè)開(kāi)發(fā)以及維護(hù)的難度都比較低。這個(gè)方案最大的特色是讓開(kāi)發(fā)者藐吮、業(yè)務(wù)方在數(shù)據(jù)的新鮮度溺拱、成本、時(shí)效三個(gè)維度有更大范圍的選擇谣辞,可以自由選擇分鐘級(jí)迫摔、秒級(jí)的方案。從性能上泥从,基于直讀和向量引擎可以實(shí)現(xiàn)高效湖加速句占,Paimon+Hologres 提供分鐘級(jí)的時(shí)效性和秒級(jí)的 OLAP 能力。最后 Hologres + Flink 具備整套企業(yè)級(jí)能力躯嫉,在高可用纱烘、資源彈性杨拐、故障處理、運(yùn)維擂啥、負(fù)載隔離哄陶、可觀測(cè)、安全性都是非常完備的哺壶。希望后續(xù) Hologres 攜手 Paimon 可以在湖倉(cāng)分析中實(shí)現(xiàn)更高的性能屋吨,更絲滑的用戶(hù)體驗(yàn)。
阿里云官網(wǎng)搜索 Hologres 進(jìn)入官網(wǎng)查看詳情变骡,復(fù)制下方鏈接領(lǐng)取 5000 CU時(shí)离赫,100 GB 存儲(chǔ)免費(fèi)試用資源進(jìn)行使用。