美團(tuán)買菜基于 Flink 的實時數(shù)倉建設(shè)

開發(fā)者社區(qū).jpg

摘要:本文整理自美團(tuán)買菜實時數(shù)倉技術(shù)負(fù)責(zé)人嚴(yán)書沐祷,在 Flink Forward Asia 2022 實時湖倉專場的分享。本篇內(nèi)容主要分為四個部分:

  1. 背景介紹

  2. 技術(shù)愿景和架構(gòu)設(shè)計

  3. 典型場景攒岛、挑戰(zhàn)與應(yīng)對

  4. 未來規(guī)劃

點擊查看原文視頻 & 演講PPT

一赖临、背景介紹

1.jpg

美團(tuán)買菜是美團(tuán)自營生鮮零售平臺,上面所有的商品都由美團(tuán)親自采購灾锯,并通過供應(yīng)鏈物流體系兢榨,運(yùn)輸?shù)骄嚯x用戶 3km 范圍內(nèi)的服務(wù)站。用戶從美團(tuán)買菜平臺下單后顺饮,商品會從服務(wù)站送到用戶手中吵聪,最快 30 分鐘內(nèi)。

上圖中兼雄,左側(cè)的時間軸展示了美團(tuán)買菜的發(fā)展歷程吟逝,右側(cè)展示了美團(tuán)買菜豐富的商品。目前赦肋,美團(tuán)買菜在北上廣深块攒、武漢等城市均有業(yè)務(wù)覆蓋,為人們?nèi)粘5纳钐峁┍憷璩恕T谝咔閳鼍跋戮质矗鸬搅朔浅V匾谋U厦裆饔谩?/p>

2.jpg

接下來,介紹一下實時數(shù)倉場景恕稠。美團(tuán)買菜的實時數(shù)倉場景分為三個部分琅绅。

  • 第一個應(yīng)用場景,數(shù)據(jù)分析部分鹅巍。其主要用戶是業(yè)務(wù)管理層千扶、數(shù)據(jù)分析師料祠、數(shù)據(jù)運(yùn)營人員等等。他們通過數(shù)據(jù)大盤澎羞、數(shù)據(jù)看板等形式髓绽,獲取數(shù)據(jù)指標(biāo),用于企業(yè)經(jīng)營妆绞、運(yùn)營顺呕、活動決策。
  • 第二個應(yīng)用場景括饶,業(yè)務(wù)監(jiān)控部分株茶。其主要用戶是大倉物流服務(wù)站的一線管理人員和總部的運(yùn)營中臺。他們會對線下作業(yè)情況進(jìn)行異常監(jiān)控图焰,及時了解并處理線下業(yè)務(wù)的異動启盛。
  • 第三個應(yīng)用場景,實時特征部分技羔。其主要面向算法模型的實時特征僵闯,例如供應(yīng)鏈場景的銷量預(yù)測、履約場景的動態(tài) ETA藤滥、用戶的搜索排序推薦等等鳖粟。

二、技術(shù)愿景和架構(gòu)設(shè)計

3.jpg

技術(shù)愿景和架構(gòu)設(shè)計拙绊。實時數(shù)倉的技術(shù)愿景是在新零售場景下向图,建設(shè)質(zhì)量可靠、運(yùn)行穩(wěn)定时呀、覆蓋核心鏈路環(huán)節(jié)的實時數(shù)據(jù)體系。這里著重強(qiáng)調(diào)質(zhì)量可靠晶默、運(yùn)行穩(wěn)定谨娜、覆蓋核心鏈路環(huán)節(jié)。

美團(tuán)買菜所處的新零售行業(yè)磺陡,是一個薄毛利率賽道趴梢,對數(shù)據(jù)準(zhǔn)確性的要求較高。由于買菜業(yè)務(wù)的正常運(yùn)轉(zhuǎn)币他,對數(shù)據(jù)有著強(qiáng)依賴坞靶,所以要求數(shù)據(jù)必須運(yùn)行穩(wěn)定。與此同時蝴悉,美團(tuán)買菜是自營的全鏈條業(yè)務(wù)彰阴,業(yè)務(wù)的鏈條環(huán)節(jié)較多,我們希望能夠覆蓋核心的鏈路環(huán)節(jié)拍冠。

4.jpg

基于上述的技術(shù)愿景尿这,我們著重建設(shè)了質(zhì)量保障體系簇抵、穩(wěn)定性保障體系。這兩個體系的主要目的是射众,提升實時數(shù)倉基線能力碟摆,讓數(shù)據(jù)穩(wěn)定生產(chǎn),質(zhì)量可信賴叨橱。希望質(zhì)量保障體系典蜕、穩(wěn)定性保障體系能夠成為實時數(shù)倉的基石,建設(shè)好實時數(shù)倉的基本功罗洗。

5.jpg

在做好實時數(shù)倉基本功的基礎(chǔ)上愉舔,我們希望數(shù)據(jù)發(fā)揮它的最大價值。根據(jù) DIKM 模型栖博,從數(shù)據(jù)到信息屑宠,信息到知識,知識到智慧仇让,價值會被不斷放大典奉。基于 DIKM 模型的理論指導(dǎo)丧叽,我們建立了全域數(shù)據(jù)中心卫玖、統(tǒng)一資產(chǎn)管理中心。

其中踊淳,全域數(shù)據(jù)中心會有效組織原始事實和原始數(shù)據(jù)假瞬,讓數(shù)據(jù)轉(zhuǎn)換成信息。統(tǒng)一資產(chǎn)管理中心對信息加以提煉迂尝,提升洞察力脱茉、創(chuàng)造力,幫助信息更好的轉(zhuǎn)換成知識垄开、智慧琴许。

6.jpg

接下來,介紹一下實時數(shù)倉的整體架構(gòu)溉躲。如上圖所示榜田,底層模塊是數(shù)據(jù)平臺部分,包含了數(shù)據(jù)的同步锻梳、加工箭券、質(zhì)量檢測、管理權(quán)限疑枯、數(shù)據(jù)治理等環(huán)節(jié)設(shè)計的數(shù)據(jù)工具鏈辩块。

在數(shù)據(jù)平臺工具模塊之上是全域數(shù)據(jù)中心、質(zhì)量保障體系、穩(wěn)定性保障體系三個模塊庆捺。其中古今,全域數(shù)據(jù)中心是基于數(shù)據(jù)源 ODS 層建設(shè)的數(shù)據(jù)倉庫嚷兔。在數(shù)據(jù)源 ODS 層举瑰,當(dāng)前主要包含買菜業(yè)務(wù)數(shù)據(jù)、美團(tuán)公共數(shù)據(jù)何陆、靈犀流量數(shù)據(jù)你画、外部數(shù)據(jù)四個部分抵碟。

數(shù)據(jù)倉庫主要有 DWD 層、DWS 層坏匪、APP 層和一致性的 DIM 層組成拟逮。其中,DWD 層主要還原業(yè)務(wù)的數(shù)據(jù)加工過程适滓,包含清洗敦迄、轉(zhuǎn)換、過濾凭迹。原子指標(biāo)的加工會在 DWD 層進(jìn)行收口罚屋。

DWS 層是面向分析場景建設(shè)的,主要的建模方式是維度建模嗅绸。在 DWS 層常見的數(shù)據(jù)加工過程包含多個業(yè)務(wù)主題的數(shù)據(jù)關(guān)聯(lián)脾猛,數(shù)據(jù)力度上的輕度匯總,衍生指標(biāo)的加工鱼鸠。

APP 層主要面向應(yīng)用場景建設(shè)寬表模型猛拴,其目的是更好地滿足應(yīng)用場景的個性化需求,提升數(shù)據(jù)應(yīng)用的效率和體驗蚀狰。

質(zhì)量保障體系主要包含流程規(guī)范愉昆、質(zhì)量監(jiān)控、問題處理麻蹋、持續(xù)改進(jìn)四個部分跛溉,形成了一個閉環(huán)的管理系統(tǒng)。穩(wěn)定性保障體系從預(yù)防哥蔚、發(fā)現(xiàn)倒谷、處理蛛蒙、規(guī)范四個角度建設(shè)糙箍。

統(tǒng)一資產(chǎn)管理中心基于全域數(shù)據(jù)管理中心質(zhì)量保障體系、穩(wěn)定性保障體系牵祟,其建設(shè)基礎(chǔ)是元數(shù)據(jù)管理深夯。元數(shù)據(jù)包含指標(biāo)、維度、實時流咕晋、畫像標(biāo)簽雹拄、實時特征、數(shù)據(jù)大盤掌呜、數(shù)據(jù)接口等等滓玖。

基于原數(shù)據(jù)之上是資產(chǎn)全景、資產(chǎn)應(yīng)用质蕉、資產(chǎn)優(yōu)化三個部分势篡。資產(chǎn)全景將數(shù)據(jù)資產(chǎn),通過分類檢索的形式展示出來模暗。數(shù)據(jù)應(yīng)用部分包含了應(yīng)用的管理禁悠、應(yīng)用的血緣。資產(chǎn)優(yōu)化部分包含模型優(yōu)化兑宇、接口優(yōu)化碍侦。

三、典型場景隶糕、挑戰(zhàn)與應(yīng)對

3.1 動態(tài) ETA 實時特征

7.jpg

實時數(shù)倉典型場景下的挑戰(zhàn)和應(yīng)對方法瓷产。首先,介紹一下動態(tài) ETA 實時特征場景若厚。

如上圖所示拦英,展示了用戶在美團(tuán)買菜下單的頁面情況。頁面中顯示的預(yù)計送達(dá)時間测秸,涉及到了動態(tài) ETA疤估。動態(tài) ETA 是動態(tài)的承諾送達(dá)時間。經(jīng)過研究發(fā)現(xiàn)霎冯,承諾用戶送達(dá)時間不準(zhǔn)铃拇,會影響用戶的下單意愿。與此同時沈撞,當(dāng)訂單預(yù)計送達(dá)時間和實際送達(dá)時間差異變大后慷荔,客訴率及取消率均有明顯攀升。

動態(tài) ETA 的實現(xiàn)依賴算法模型預(yù)估履約時效缠俺。算法模型預(yù)估履約時效需要用到天氣特征显晶、用戶下單商品特征、服務(wù)站內(nèi)作業(yè)實時特征壹士、配送實時特征磷雇。

8.jpg

動態(tài) ETA 算法模型需要的實時特征數(shù)量非常多。算法特征生產(chǎn)鏈路比較復(fù)雜躏救,任何一個實質(zhì)特征的缺失唯笙,都會影響到算法模型的準(zhǔn)確性螟蒸,從而直接影響 C 端用戶。因此實時特征數(shù)據(jù)穩(wěn)定性要求 3 個 9 以上崩掘。

9.jpg

那么什么是 3 個 9 的穩(wěn)定性呢七嫌?提升穩(wěn)定性的本質(zhì),是提高系統(tǒng)的可用性苞慢。系統(tǒng)的可用性等于诵原,平均無故障時間除以,平均無故障時間+平均故障修復(fù)時間挽放。想要實現(xiàn) 3 個 9 的穩(wěn)定性皮假,要求平均每天故障時間少于 1.44 分鐘。

10.jpg

接下來骂维,講一講提升數(shù)據(jù)穩(wěn)定性的方式惹资。提升數(shù)據(jù)穩(wěn)定性需要提升可用性。提升可用性的本質(zhì)是航闺,降低不確定性帶來的風(fēng)險褪测。降低不確定性帶來的風(fēng)險包含發(fā)現(xiàn)問題、解決問題兩個部分潦刃。

在發(fā)現(xiàn)問題方面侮措,需要思考如何識別風(fēng)險。在實時特征的生產(chǎn)中乖杠,我們會通過容量預(yù)估分扎、性能壓測、容災(zāi)演練胧洒、全鏈路監(jiān)控畏吓,實時對賬的方式,更好的識別風(fēng)險卫漫。

在解決問題方面菲饼,需要思考如何應(yīng)對風(fēng)險。一些常見應(yīng)對風(fēng)險的方式包含存儲計算列赎、雙鏈路備份宏悦、實時特征、易購存儲包吝、降級預(yù)案饼煞、故障處理 SOP、事故復(fù)盤诗越、完善工具和規(guī)范等砖瞧。

11.jpg

上圖展示了,在故障發(fā)生的不同階段掺喻,對穩(wěn)定性的影響芭届。事前階段發(fā)生故障,對穩(wěn)定性的影響最小感耙。所以實時特征場景穩(wěn)定性建設(shè)的關(guān)鍵策略是褂乍,盡可能在故障發(fā)生之前發(fā)現(xiàn)問題、解決問題即硼。

12.jpg

穩(wěn)定性保障體系全景逃片。穩(wěn)定性保障體系全景包含預(yù)防、發(fā)現(xiàn)只酥、處理褥实、規(guī)范四個部分。其中裂允,預(yù)防部分主要包括異構(gòu)存儲损离、雙鏈路備份、性能壓測绝编、容量預(yù)估僻澎、容災(zāi)演練、特征分級等等十饥。

異構(gòu)存儲是指窟勃,Doris 和 ES 作為應(yīng)用層的存儲引擎。雙鏈路備份是指逗堵,存儲和計算秉氧,多機(jī)房部署兩條數(shù)據(jù)生產(chǎn)鏈路。這兩條數(shù)據(jù)生產(chǎn)鏈路互為儲備蜒秤,任何一條鏈路出現(xiàn)問題汁咏,都可以快速切換到另一條鏈路,從而保障數(shù)據(jù)的持續(xù)生產(chǎn)作媚。在性能壓測部分梆暖,主要通過數(shù)據(jù)回放和流量控制實現(xiàn)。容量預(yù)估是指 Flink 的并發(fā)數(shù)和內(nèi)存配置掂骏。

在發(fā)現(xiàn)部分轰驳,我們除了在硬件、組件弟灼、服務(wù)層建立完善的監(jiān)控體系级解,還針對數(shù)據(jù)場景的常見風(fēng)險、異常情況田绑,著重建設(shè)了 ETL 任務(wù)監(jiān)控勤哗、端到端數(shù)據(jù)延遲監(jiān)控、實時離線 t+1 對賬掩驱。在風(fēng)險處理部分芒划,我們主要通過故障處理冬竟、兜底策略、降低預(yù)案來實現(xiàn)民逼。

在預(yù)防泵殴、發(fā)現(xiàn)、處理三個部分的經(jīng)驗拼苍,通過規(guī)范的形式進(jìn)行沉淀笑诅。規(guī)范部分主要包含事故的復(fù)盤規(guī)范、技術(shù)方案 review 規(guī)范疮鲫、代碼 review 機(jī)制吆你、上線發(fā)布流程規(guī)范、巡檢機(jī)制俊犯、值班制度妇多。

13.jpg

下面重點介紹一下性能壓測部分。如上圖所示燕侠,我們通過環(huán)境隔離的方式砌梆,建立了線上和測試兩條完整的數(shù)據(jù)鏈路。

在測試鏈路中贬循,我們通過回?fù)?Kafka Offset咸包,得到了非常大的數(shù)據(jù)流量。然后杖虾,通過流量控制模塊得到需要的測試流量烂瘫,從而實現(xiàn)按需構(gòu)建壓測流量。最后奇适,我們通過記錄不同流量下的鏈路性能坟比,得到了需要的性能壓測結(jié)果。

14.jpg

上圖展示了性能壓測結(jié)果的評估指標(biāo)體系嚷往,其中包含了過程指標(biāo)和結(jié)果指標(biāo)葛账。主要指標(biāo)有任務(wù)配置、機(jī)器狀態(tài)皮仁、Source QPS籍琳、Sink QPS、瓶頸算子 QPS贷祈、最大可支撐流量倍數(shù) N趋急、端到端耗時。

3.2 實時數(shù)據(jù)經(jīng)營分析

15.jpg

實時數(shù)據(jù)經(jīng)營分析場景势誊。美團(tuán)買菜業(yè)務(wù)經(jīng)常舉行營銷活動呜达,提升用戶的活躍度。在營銷大促場景下粟耻,運(yùn)營人員需要實時了解業(yè)務(wù)的經(jīng)營狀態(tài)查近,并制定運(yùn)營策略眉踱。

與此同時,買菜業(yè)務(wù)受工作日霜威、非工作日谈喳、節(jié)假日因素的影響,數(shù)據(jù)指標(biāo)波動較大侥祭。單純看指標(biāo)的大小,很難判斷指標(biāo)的好壞茄厘,往往需要結(jié)合周同比矮冬、年同比進(jìn)行輔助判斷。在近幾年的疫情場景下次哈,買菜業(yè)務(wù)經(jīng)常出現(xiàn)搶單模式胎署,流量短時間內(nèi)暴漲。

16.jpg

美團(tuán)買菜面臨的挑戰(zhàn)窑滞。一方面琼牧,數(shù)據(jù)質(zhì)量要求十分嚴(yán)苛。實時和離線數(shù)據(jù)差異不超過萬分之三哀卫,端到端的數(shù)據(jù)差異不超過萬分之一巨坊。在百萬 QPS 流量下,需要保障無數(shù)據(jù)延遲此改。

另一方面趾撵,數(shù)據(jù)架構(gòu)本身復(fù)雜度高。在實時共啃、離線兩條生產(chǎn)鏈路下占调,F(xiàn)link 只支持計算引擎內(nèi)的 exactly-once。

17.jpg

在上述情況下移剪,數(shù)據(jù)質(zhì)量的保障面臨了很大挑戰(zhàn)。數(shù)據(jù)質(zhì)量是指纵苛,數(shù)據(jù)的一組滿足固有特性(質(zhì)量維度)要求的程度剿涮。

上圖中想括,左邊展示了數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)不同程度缺失烙博,數(shù)據(jù)集成流程中的數(shù)據(jù)不等價瑟蜈,在數(shù)據(jù)需求期限內(nèi)未獲取最新數(shù)據(jù)烟逊,數(shù)據(jù)與目標(biāo)特征值之間的差異程度、數(shù)據(jù)標(biāo)識不唯一铺根。

由于這些數(shù)據(jù)質(zhì)量問題可以通過對應(yīng)的指標(biāo)來衡量宪躯,所以我們用數(shù)據(jù)完整性、數(shù)據(jù)一致性位迂、數(shù)據(jù)及時性访雪、數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)唯一性掂林,來衡量數(shù)據(jù)質(zhì)量的好壞臣缀。

18.jpg

數(shù)據(jù)質(zhì)量保障體系的建設(shè)思路是基于閉環(huán)管理,事前通過流程規(guī)范泻帮,減少質(zhì)量問題的發(fā)生精置。事中通過數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng),發(fā)現(xiàn)問題并處理問題锣杂。事后通過復(fù)盤的形式脂倦,將遇到的問題總結(jié)提煉,持續(xù)對流程規(guī)范進(jìn)行改進(jìn)元莫。由此可見赖阻,事前、事中踱蠢、事后組成了完整的閉環(huán)政供。

19.jpg

在數(shù)據(jù)保障體系的推進(jìn)策略上,我們整體上分為三個階段朽基。

  • 第一階段布隔,提廣度。我們建立了從需求分析稼虎、技術(shù)設(shè)計衅檀、數(shù)據(jù)模型開發(fā)、數(shù)據(jù)測試數(shù)據(jù)上線等等霎俩,覆蓋了數(shù)據(jù)研發(fā)全流程的規(guī)范體系哀军。在這個階段,我們重點提升質(zhì)量監(jiān)控覆蓋度打却,將數(shù)據(jù)生產(chǎn)過程進(jìn)行全面的監(jiān)控覆蓋杉适。

  • 第二階段,保核心柳击。在核心數(shù)據(jù)鏈路上猿推,增加貼近業(yè)務(wù)的指標(biāo)監(jiān)控。相對于第一階段的監(jiān)控,第二階段的監(jiān)控能更好的發(fā)現(xiàn)個性化的業(yè)務(wù)問題蹬叭。針對影響數(shù)據(jù)質(zhì)量較大的流程規(guī)范做加法藕咏,保證完整的落地,持續(xù)的改進(jìn)秽五。

  • 第三階段孽查,線上化、自動化坦喘。線上化是指盲再,將流程規(guī)范從線下轉(zhuǎn)變?yōu)榫€上管理。線上管理的好處是瓣铣,便于后續(xù)的統(tǒng)計分析答朋。自動化是指,問題的處理坯沪、追蹤绿映。從人工處理的方式擒滑,變成工具腐晾,自動化的方式實現(xiàn),避免遺漏并減少運(yùn)營成本丐一。

20.jpg

上圖是數(shù)據(jù)質(zhì)量保障體系的能力圖藻糖,數(shù)據(jù)質(zhì)量保障體系包含流程規(guī)范、質(zhì)量監(jiān)控库车、問題處理巨柒、持續(xù)改進(jìn)四個模塊兒。流程規(guī)范部分包含數(shù)據(jù)開發(fā)規(guī)范柠衍、工程開發(fā)流程規(guī)范洋满、產(chǎn)業(yè)合作機(jī)制運(yùn)營三個部分。

質(zhì)量監(jiān)控包含系統(tǒng)監(jiān)控和服務(wù)監(jiān)控珍坊。其中牺勾,系統(tǒng)監(jiān)控包含存儲引擎 Kafka 流量監(jiān)控、計算引擎 Flink 核心指標(biāo)監(jiān)控阵漏、基于數(shù)據(jù)埋點的 Raptor 異常監(jiān)控驻民。

在服務(wù)監(jiān)控方面,包含了主鏈路差值監(jiān)控履怯、APP 從同環(huán)比監(jiān)控回还、ODS 層同環(huán)比監(jiān)控。在問題處理方面叹洲,主要包括影響周知柠硕,告警處理、數(shù)據(jù)修復(fù)运提。在持續(xù)改進(jìn)方面仅叫,包含基于時間線梳理帜篇、聲音定位、問歸因诫咱、監(jiān)控告警優(yōu)化笙隙、作業(yè)調(diào)參優(yōu)化、資源配置優(yōu)化坎缭。

21.jpg

在實時離線數(shù)據(jù)的一致性方面竟痰,我們基于 Doris 實現(xiàn)了存儲一體架構(gòu)。存儲一體架構(gòu)是基于 Lambda 架構(gòu)改進(jìn)實現(xiàn)的掏呼。在數(shù)據(jù)源部分坏快,數(shù)據(jù)源通過兩種數(shù)據(jù)同步的方式,分別同步到實時數(shù)倉和離線數(shù)倉憎夷。

實時數(shù)倉通過 Flink 引擎莽鸿,對數(shù)據(jù)進(jìn)行分層加工。離線數(shù)倉通過 Spark 引擎拾给,對數(shù)據(jù)進(jìn)行分層加工祥得。實時數(shù)倉的數(shù)據(jù)和離線數(shù)倉的數(shù)據(jù),最終會寫到 Doris 存儲引擎的同一個數(shù)據(jù)模型上蒋得。

Doris 數(shù)據(jù)模型按天進(jìn)行分區(qū)级及,實時數(shù)倉的數(shù)據(jù)會寫到當(dāng)天分區(qū),離線數(shù)倉的數(shù)據(jù)會寫到歷史分區(qū)额衙。當(dāng)外部的數(shù)據(jù)查詢需要查詢當(dāng)天或歷史數(shù)據(jù)時饮焦,只需要通過時間分區(qū)路由。從而保證數(shù)據(jù)指標(biāo)窍侧、數(shù)據(jù)維度口徑完全一致县踢。

22.jpg

在數(shù)據(jù)準(zhǔn)確性方面,我們通過數(shù)據(jù)冪等和監(jiān)控來實現(xiàn)伟件。Kafka 只支持計算引擎內(nèi)的 exactly once硼啤。為了實現(xiàn)端到端的 exactly once,我們一方面使用 Doris 的約定模型锋爪,實現(xiàn)數(shù)據(jù)冪等丙曙。另一方面,在數(shù)據(jù)加工過程中其骄,按照業(yè)務(wù)組件進(jìn)行數(shù)據(jù)去重亏镰。數(shù)據(jù)去重通常采用 row number 或 last value 的方式實踐。

在質(zhì)量的監(jiān)控上拯爽,監(jiān)控指標(biāo)體系包含窗口統(tǒng)計指標(biāo)索抓、波動監(jiān)控窗口。窗口統(tǒng)計指標(biāo)是指,數(shù)據(jù)量逼肯、最大值耸黑、最小值、平均值篮幢、空值大刊、占比、正則匹配三椿。波動監(jiān)控是指缺菌,數(shù)據(jù)的同環(huán)比。

23.jpg

在數(shù)據(jù)的及時性方面搜锰,我們通過性能瓶頸的定位和優(yōu)化來解決伴郁。上圖展示了數(shù)據(jù)生產(chǎn)鏈路性能瓶頸定位的過程。我們在 Flink ETL 任務(wù)里蛋叼,植入算子處理的時間埋點焊傅。然后,將 ETL 任務(wù)輸出的 Kafka狈涮,同步一份埋點數(shù)據(jù)到 Hive 引擎里狐胎。基于 Hive 引擎進(jìn)行算子處理薯嗤、性能分析顽爹,從而定位性能瓶頸纤泵。

當(dāng)算子定位到性能瓶頸之后骆姐,我們采用的優(yōu)化方式包含 TM JVM 性能調(diào)優(yōu)、Doris 性能優(yōu)化捏题、Flink 任務(wù)優(yōu)化玻褪。具體的優(yōu)化方式包括調(diào)整新生代、老年代比例公荧;Doris 導(dǎo)入并發(fā)數(shù)带射;compaction 參數(shù)調(diào)優(yōu);模型合并循狰;RSU 數(shù)據(jù)緩存窟社;大狀態(tài)消除;代碼邏輯優(yōu)化等等绪钥。

四灿里、未來規(guī)劃

24.jpg

接下來,講一講未來規(guī)劃程腹。實時數(shù)倉的未來規(guī)劃主要包含三個部分匣吊。

  • 第一部分,數(shù)據(jù)的標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化的好處是色鸳,更好的保障數(shù)據(jù)口徑一致社痛,提升建模規(guī)范程度,數(shù)據(jù)的應(yīng)用性命雀。

  • 第二部分蒜哀,流批一體。流批一體能提升實時離線數(shù)據(jù)的一致性和數(shù)據(jù)開發(fā)效率吏砂。

  • 第三部分凡怎,自動化建模。自動化建模的好處是赊抖,統(tǒng)一模型設(shè)計并實現(xiàn)任務(wù)的智能構(gòu)建统倒。

<p style="text-align:center"><font color=FF6a00 size=4>點擊查看原文視頻 & 演講PPT</font>
</p>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市氛雪,隨后出現(xiàn)的幾起案子房匆,更是在濱河造成了極大的恐慌,老刑警劉巖报亩,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浴鸿,死亡現(xiàn)場離奇詭異,居然都是意外死亡弦追,警方通過查閱死者的電腦和手機(jī)岳链,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來劲件,“玉大人掸哑,你說我怎么就攤上這事×阍叮” “怎么了苗分?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長牵辣。 經(jīng)常有香客問我摔癣,道長,這世上最難降的妖魔是什么纬向? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任择浊,我火速辦了婚禮,結(jié)果婚禮上逾条,老公的妹妹穿的比我還像新娘琢岩。我一直安慰自己,他們只是感情好膳帕,可當(dāng)我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布粘捎。 她就那樣靜靜地躺著薇缅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪攒磨。 梳的紋絲不亂的頭發(fā)上泳桦,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天,我揣著相機(jī)與錄音娩缰,去河邊找鬼灸撰。 笑死,一個胖子當(dāng)著我的面吹牛拼坎,可吹牛的內(nèi)容都是我干的浮毯。 我是一名探鬼主播,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼泰鸡,長吁一口氣:“原來是場噩夢啊……” “哼债蓝!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盛龄,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤饰迹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后余舶,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體啊鸭,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年匿值,在試婚紗的時候發(fā)現(xiàn)自己被綠了赠制。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡挟憔,死狀恐怖钟些,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情曲楚,我是刑警寧澤厘唾,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布褥符,位于F島的核電站龙誊,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏喷楣。R本人自食惡果不足惜趟大,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望铣焊。 院中可真熱鬧逊朽,春花似錦、人聲如沸曲伊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至岛蚤,卻和暖如春邑狸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背涤妒。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工单雾, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人她紫。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓硅堆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親贿讹。 傳聞我的和親對象是個殘疾皇子渐逃,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,658評論 2 350

推薦閱讀更多精彩內(nèi)容