數(shù)據(jù)實時化是必要還是偏見?

數(shù)據(jù)實時化是必要還是偏見袁稽?

本文主要基于數(shù)據(jù)倉庫的起源和數(shù)據(jù)架構的演進來聊聊勿璃,數(shù)據(jù)實時化是否真的必要?是"過度優(yōu)化"推汽、"實時偏見"還是"合理"补疑!

一、前言

時常有小伙伴會問:

Q:實時數(shù)據(jù)倉庫是否真的有必要歹撒?T+1處理數(shù)據(jù)也不是不可莲组,為何一定要數(shù)據(jù)實時化?費時費力還費人暖夭!

A:存在即可能合理锹杈。

要不先來簡單聊聊數(shù)據(jù)倉庫的起源和數(shù)據(jù)架構的演進之路吧撵孤。

二、數(shù)據(jù)倉庫的起源

數(shù)據(jù)倉庫的起源可以追溯到20世紀70年代竭望,當時企業(yè)中的數(shù)據(jù)處理和存儲主要依靠傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)邪码。隨著企業(yè)數(shù)據(jù)量的不斷增長和復雜性的增加,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)開始無法滿足企業(yè)對數(shù)據(jù)的分析和決策支持的需求咬清。為了解決這些問題闭专,數(shù)據(jù)倉庫的概念應運而生。

數(shù)據(jù)倉庫(Data Warehouse)的概念最早由比爾·恩門(Bill Inmon)在1991年提出枫振。它被定義為一個面向主題喻圃、集成、非易失性的數(shù)據(jù)集合粪滤,用于支持管理層的決策制定過程斧拍。數(shù)據(jù)倉庫的設計旨在提供一個統(tǒng)一的數(shù)據(jù)視圖,使得企業(yè)能夠從多個角度對數(shù)據(jù)進行分析杖小,從而做出更加明智的業(yè)務決策肆汹。

在數(shù)據(jù)倉庫的早期實施階段,主要的挑戰(zhàn)在于如何有效地將各個業(yè)務系統(tǒng)的數(shù)據(jù)進行整合予权,以及如何解決數(shù)據(jù)格式不兼容昂勉、數(shù)據(jù)質(zhì)量不佳等問題。這個階段的主要目標是建立一個穩(wěn)定扫腺、可靠的數(shù)據(jù)倉庫基礎岗照。

隨著數(shù)據(jù)倉庫技術的成熟,人們開始關注如何更深入地理解和利用數(shù)據(jù)倉庫中的信息笆环。這個階段的發(fā)展帶來了數(shù)據(jù)挖掘和數(shù)據(jù)分析等技術的興起攒至,幫助用戶更深入地理解數(shù)據(jù)。

此外躁劣,隨著實時數(shù)據(jù)處理技術的發(fā)展迫吐,實時數(shù)據(jù)倉庫開始出現(xiàn),其主要目標是讓用戶能夠在任何時間點獲取到最新的數(shù)據(jù)信息账忘,以便做出更準確的決策志膀。

數(shù)據(jù)倉庫的發(fā)展歷程是一個不斷演進和創(chuàng)新的過程,它隨著技術的發(fā)展和企業(yè)需求的變化而不斷完善和擴展鳖擒。如今溉浙,數(shù)據(jù)倉庫已經(jīng)成為企業(yè)進行決策的關鍵基礎設施。

三蒋荚、數(shù)據(jù)架構的演進

20世紀90年代放航,比爾·恩門(Bill Inmon)提出了數(shù)據(jù)倉庫的概念,從而進入到經(jīng)典數(shù)倉架構的階段圆裕,相應的DB產(chǎn)品以OLTP主广鳍,例如Teradata、Vertica吓妆、Oracle等赊时。

隨著數(shù)據(jù)量的暴增、Google三大論文(大數(shù)據(jù)三駕馬車:Google FS行拢、MapReduce和BigTable)和開源文化的傳播祖秒,逐漸盛行以Hadoop體系為主的離線數(shù)倉架構。

離線數(shù)倉雖然能夠基于大量數(shù)據(jù)T+1地穩(wěn)定跑批計算出結果舟奠,但是實效性不高竭缝。而這期間,雙十一購物狂歡節(jié)推行沼瘫。各方英豪已經(jīng)不滿足于隔天出報表抬纸,分別想法設法地祭出實時大屏,實時地展現(xiàn)自家營業(yè)額的猛勢耿戚。既能zi嗨湿故,又能帶動網(wǎng)民們從眾一購。

于是乎膜蛔,Lambda架構來了坛猪。在原有離線數(shù)倉的基礎之間,為了在處理大規(guī)模數(shù)據(jù)時皂股,同時發(fā)揮流處理和批處理的優(yōu)勢墅茉,再開一條實時鏈路。通過批處理提供全面和準確的數(shù)據(jù)呜呐,通過實時流處理提供低延遲的數(shù)據(jù)從而達到平衡延遲就斤、吞吐量和容錯性的目的。

Lambda架構整體而言卵史,是需要兩份代碼+兩份存儲战转,并且需要保證批和流的數(shù)據(jù)結果一致。成本頗高以躯,且不易開發(fā)和維護槐秧,加上實時化的影響面越來越大,
隨即Kappa架構被推行忧设。

Kappa架構的原理即在Lambda的基礎上進行了優(yōu)化刁标,刪除了 Batch Layer 的架構,保留了速度層址晕,并取名實時處理膀懈。簡而言之就是去除Lambda架構中的離線批處理層,專注于實時流處理谨垃,提供了一種簡化Lambda架構的方法启搂。

但是硼控,Kappa架構全部以流式數(shù)據(jù)進行處理,會導致開發(fā)維護成本高胳赌,較難統(tǒng)一處理數(shù)據(jù)變更牢撼。例如一些IoT場景,所有的高頻數(shù)據(jù)都通過流式計算疑苫,即便通過加大并行度也很難適應數(shù)據(jù)查詢響應的即時性要求熏版,特別是對于歷史數(shù)據(jù)的高吞吐量處理顯得格外力不從心。

于是捍掺,以湖倉結合的混合架構盛行撼短,基于Hudi/Iceberg/Data Lake/Paimon數(shù)據(jù)湖組件作為流和批的同意存儲層,實現(xiàn)端到端的流批一體化挺勿。湖支撐數(shù)據(jù)并發(fā)寫入和海量多元存儲曲横,倉進行查詢加速。

然而满钟,湖倉混合雖然優(yōu)點諸多胜榔,但架構實施相對復雜。為去繁為簡湃番,又不失流批一體和高效性能夭织,Doris這類全場景的MPP數(shù)據(jù)庫應運而出,提供了一種平衡的解決方案吠撮。既能滿足海量的流批數(shù)據(jù)存儲尊惰,也能實現(xiàn)快速分析,可以作為新一代實時數(shù)據(jù)倉庫建設的優(yōu)選泥兰。

未來弄屡,數(shù)據(jù)架構又會如何演進?

四鞋诗、數(shù)據(jù)實時化的必要性

如果把T+1的數(shù)據(jù)鏈路比做綠皮火車膀捷,那么數(shù)據(jù)實時化就是高鐵。它們各有優(yōu)劣:

1?? 綠皮火車(普通火車):

  • 優(yōu)點:

    • 成本低廉:相比高鐵削彬,綠皮火車票價更為經(jīng)濟實惠全庸,適合預算有限的乘客。
    • 覆蓋面廣:綠皮火車網(wǎng)絡覆蓋了更多的小城市和鄉(xiāng)村地區(qū)融痛,方便偏遠地區(qū)的居民出行壶笼。
    • 旅行節(jié)奏慢:適合欣賞沿途風景,對于不急于到達目的地的旅客來說,是一種放松的旅行方式。
  • 缺點:

    • 速度慢:相比高鐵台谍,綠皮火車的運行速度較慢甩挫,旅行時間較長责语。
    • 設施陳舊:車內(nèi)設施相對落后炮障,舒適度不如高鐵。
    • 擁擠問題:在高峰時期鹦筹,綠皮火車可能會比較擁擠铝阐。

2?? 高鐵:

  • 優(yōu)點:

    • 速度快:高鐵的運行速度遠高于普通火車,大大縮短了旅行時間铐拐。
    • 準時率高:高鐵通常具有很高的準點率,適合對時間要求嚴格的旅客练对。
    • 服務水平高:高鐵提供高質(zhì)量的服務遍蟋,包括快速的檢票、清潔的車廂和良好的乘務服務螟凭。
  • 缺點:

    • 票價較高:相比綠皮火車虚青,高鐵的票價較高,可能不適合預算有限的乘客螺男。
    • 覆蓋范圍有限:高鐵網(wǎng)絡主要集中在大中型城市之間棒厘,對小城市和鄉(xiāng)村地區(qū)的覆蓋不足。
    • 旅行節(jié)奏快:由于速度快下隧,乘客可能沒有太多時間欣賞沿途風景奢人。

總的來說,綠皮火車和高鐵各有適用場景淆院,我們可以根據(jù)自己的需求何乎、預算和旅行目的選擇最合適的,數(shù)據(jù)是否實時化亦是如此土辩。

數(shù)據(jù)實時化的"優(yōu)點"包括:

  • 快速響應:能夠迅速對市場變化或用戶行為做出反應支救;例如短視頻智推行為,讓你越刷越嗨拷淘,根本停不下來各墨。
  • 提高效率:減少了數(shù)據(jù)處理和分析的時間,提高了整體運營效率启涯;例如智能營銷類系統(tǒng)贬堵,毫無隱私可言。
  • 增強用戶體驗:為用戶提供更加個性化和及時的服務逝嚎;例如網(wǎng)購實時精準推送扁瓢,主打一個買買買。
  • 風險管理:實時監(jiān)控可以幫助及時發(fā)現(xiàn)和應對潛在的風險补君;例如實時風控系統(tǒng)引几,高效一刀切。

然而,數(shù)據(jù)實時化也存在一些挑戰(zhàn)和缺點:

  • 技術復雜性:實現(xiàn)數(shù)據(jù)實時處理需要復雜的技術支持伟桅,如流處理敞掘、內(nèi)存計算等。
  • 成本問題:相比于傳統(tǒng)的批處理楣铁,實時數(shù)據(jù)處理可能需要更高的計算資源和成本玖雁。
  • 數(shù)據(jù)質(zhì)量問題:在高速處理數(shù)據(jù)的過程中,可能會遇到數(shù)據(jù)不準確或不完整的問題盖腕。
  • 系統(tǒng)穩(wěn)定性:實時系統(tǒng)對穩(wěn)定性要求更高赫冬,任何小的故障都可能影響整個系統(tǒng)的運行。

正如選擇綠皮火車還是高鐵一樣溃列,是否采用數(shù)據(jù)實時化技術劲厌,也需要根據(jù)具體的業(yè)務需求、資源狀況和預期目標來做出決策听隐。在某些場景下补鼻,傳統(tǒng)的批處理可能更適合;而在其它情況下雅任,實時數(shù)據(jù)處理則能帶來更大的價值风范。

五、總結

隨著人類文明的進步和科技的飛速發(fā)展沪么,數(shù)據(jù)的實時化變得越來越重要硼婿。在許多行業(yè)和領域,如金融交易成玫、社交媒體加酵、在線廣告、物聯(lián)網(wǎng)((IoT)等哭当,基于實時數(shù)據(jù)倉庫提高分析實時性猪腕、能夠提供即時的洞察和決策支持,從而增強競爭力和響應速度钦勘。

那么框啦啦有說了一堆陋葡,實時數(shù)據(jù)倉庫、數(shù)據(jù)實時化是否真的有必要彻采?我覺得還不到100%必要性腐缤,但確實越來越有必要!

未來實時數(shù)據(jù)處理將會變得更加普及和高效肛响。那么岭粤,你覺得當下數(shù)據(jù)實時化是否真的必要?

本文由mdnice多平臺發(fā)布

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末特笋,一起剝皮案震驚了整個濱河市剃浇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖虎囚,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件角塑,死亡現(xiàn)場離奇詭異,居然都是意外死亡淘讥,警方通過查閱死者的電腦和手機圃伶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蒲列,“玉大人窒朋,你說我怎么就攤上這事』柔” “怎么了炼邀?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長剪侮。 經(jīng)常有香客問我,道長洛退,這世上最難降的妖魔是什么瓣俯? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮兵怯,結果婚禮上彩匕,老公的妹妹穿的比我還像新娘。我一直安慰自己媒区,他們只是感情好驼仪,可當我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著袜漩,像睡著了一般绪爸。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上宙攻,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天奠货,我揣著相機與錄音,去河邊找鬼座掘。 笑死递惋,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的溢陪。 我是一名探鬼主播萍虽,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼形真!你這毒婦竟也來了杉编?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎王财,沒想到半個月后卵迂,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡绒净,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年见咒,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挂疆。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡改览,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缤言,到底是詐尸還是另有隱情宝当,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布胆萧,位于F島的核電站庆揩,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏跌穗。R本人自食惡果不足惜订晌,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蚌吸。 院中可真熱鬧锈拨,春花似錦、人聲如沸羹唠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽佩微。三九已至缝彬,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間喊衫,已是汗流浹背跌造。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留族购,地道東北人壳贪。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像寝杖,于是被迫代替她去往敵國和親违施。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容