[2/4]我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史(二):非互聯(lián)網(wǎng)時代 ? 下篇

//
我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史(二):非互聯(lián)網(wǎng)時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

編者按:本文是松子(李博源)的大數(shù)據(jù)平臺發(fā)展史系列文章的第二篇(共四篇),本系列以獨特的視角校辩,比較了非互聯(lián)網(wǎng)和互聯(lián)網(wǎng)兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)涩笤。是對數(shù)據(jù)平臺發(fā)展的一個回憶,對非互聯(lián)網(wǎng)稚配、互聯(lián)網(wǎng),從數(shù)據(jù)平臺的用戶角度、數(shù)據(jù)架構(gòu)演進(jìn)瞪慧、模型等進(jìn)行了闡述。
前言茅主,”數(shù)據(jù)模型“ 這個詞只要是跟數(shù)據(jù)沾邊就會出現(xiàn)的一個詞舞痰,在數(shù)據(jù)庫設(shè)計、數(shù)據(jù)倉庫诀姚、數(shù)據(jù)挖掘上响牛、業(yè)務(wù)里都存在,聚焦一下赫段,這里提到的是數(shù)據(jù)平臺中的”數(shù)據(jù)模型“呀打。 這是一個非常的抽象詞,個人也很難用簡單語言把他描述出來糯笙,這一章也是整個系列中較為抽象的一章節(jié)贬丛,同時這個章節(jié)將會回答非互聯(lián)網(wǎng)數(shù)據(jù)平臺數(shù)據(jù)模型是什么?如何需要數(shù)據(jù)模型给涕?如何簡單的建設(shè)豺憔?
在“我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史 上篇 非互聯(lián)網(wǎng)時代”曾經(jīng)提到Bill inmon與 Ralph kilmball兩位大師的設(shè)計理念,對業(yè)務(wù)的數(shù)據(jù)按照某種規(guī)則進(jìn)行有效組織并滿足業(yè)務(wù)需求够庙。

相關(guān)廠商內(nèi)容
關(guān)于紅包恭应、SSD云盤等核心技術(shù)集錦!
Cloudant DBaaS技術(shù)概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規(guī)劃這樣設(shè)計

Apache Beam 大規(guī)模流處理

相關(guān)贊助商

QCon北京2017首启,4月16-18日暮屡,北京·國家會議中心,精彩內(nèi)容搶先看

在構(gòu)建過程中毅桃,有一個角色理解業(yè)務(wù)并探索分散在各系統(tǒng)間的數(shù)據(jù)褒纲,并通過某條業(yè)務(wù)主線把這些分散在各角落的數(shù)據(jù)串聯(lián)并存儲同時讓業(yè)務(wù)使用,在設(shè)計時苦逼的地方除了考慮業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu)要素外钥飞,還得考慮可操作性莺掠、約束性(備注 約束性是完成數(shù)據(jù)質(zhì)量提升的一個關(guān)鍵要素,未來新話題主題會討論這些)读宙,這個既要顧業(yè)務(wù)洼怔、數(shù)據(jù)源摹察、合理的整合的角色是數(shù)據(jù)模型設(shè)計師,又叫數(shù)據(jù)模型師。
非互聯(lián)網(wǎng)時代的數(shù)據(jù)模型是一個高度智慧業(yè)務(wù)抽象結(jié)晶咙边,數(shù)據(jù)模型是整個系統(tǒng)建設(shè)過程的導(dǎo)航圖初斑。
(點擊放大圖像)

[圖片上傳中睬棚。抠忘。。(2)]
平臺中模型設(shè)計所關(guān)注的是企業(yè)分散在各角落數(shù)據(jù)结耀、未知的商業(yè)模式與未知的分析報表留夜,通過模型的步驟匙铡,理解業(yè)務(wù)并結(jié)合數(shù)據(jù)整合分析,建立數(shù)據(jù)模型為Data cleaning 指定清洗規(guī)則碍粥、為源數(shù)據(jù)與目標(biāo)提供ETL mapping (備注:ETL 代指數(shù)據(jù)從不同源到數(shù)據(jù)平臺的整個過程鳖眼,ETL Mapping 可理解為 數(shù)據(jù)加工算法,給數(shù)碼看的嚼摩,互聯(lián)網(wǎng)與非互聯(lián)網(wǎng)此處差異性也較為明顯钦讳,非互聯(lián)網(wǎng)數(shù)據(jù)平臺對ETL定義與架構(gòu)較為復(fù)雜)支持、 理清數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系低斋。(備注:Data cleaning 是指的數(shù)據(jù)清洗 數(shù)據(jù)質(zhì)量相關(guān)不管是在哪個行業(yè)蜂厅,是最令人頭痛的問題匪凡,分業(yè)務(wù)域膊畴、技術(shù)域的數(shù)據(jù)質(zhì)量問題,需要通過事前盤點病游、事中監(jiān)控唇跨、事后調(diào)養(yǎng),有機(jī)會在闡述)衬衬。
大家來看一張較為嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)模型關(guān)系圖:
(點擊放大圖像)
[圖片上傳中买猖。。滋尉。(3)]
數(shù)據(jù)模型是整個數(shù)據(jù)平臺的數(shù)據(jù)建設(shè)過程的導(dǎo)航圖玉控。
有利于數(shù)據(jù)的整合。數(shù)據(jù)模型是整合各種數(shù)據(jù)源指導(dǎo)圖狮惜,對現(xiàn)有業(yè)務(wù)與數(shù)據(jù)從邏輯層角度進(jìn)行了全面描述高诺,通過數(shù)據(jù)模型,可以建立業(yè)務(wù)系統(tǒng)與數(shù)據(jù)之間的映射與轉(zhuǎn)換關(guān)系碾篡。排除數(shù)據(jù)描述的不一致性虱而。如:同名異義、同物異名..开泽。
減少多余冗余數(shù)據(jù)牡拇,因為了解數(shù)據(jù)之間的關(guān)系,以及數(shù)據(jù)的作用穆律。在數(shù)據(jù)平臺中根據(jù)需求采集那些用于分析的數(shù)據(jù)惠呼,而不需要那些純粹用于操作的數(shù)據(jù)。

在面對企業(yè)復(fù)雜業(yè)務(wù)與成千上萬的數(shù)據(jù)項進(jìn)行設(shè)計時峦耘,沒有哪個牛逼的人都記得住的剔蹋,所以出現(xiàn)了按照某種層次規(guī)則去有組織并抽象與管理易用,由此誕生了概念模型贡歧、邏輯模型滩租、物理模型 (備注 數(shù)據(jù)平臺數(shù)據(jù)模型赋秀,而非數(shù)據(jù)挖掘的模型)。
數(shù)據(jù)模型在數(shù)據(jù)平臺的數(shù)據(jù)倉庫中是一個統(tǒng)稱律想,嚴(yán)格上來講分為概念模型猎莲、邏輯模型、物理模型技即。(備注:四類模型如何去詳細(xì)構(gòu)建文本不深講著洼,關(guān)于非互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)模型網(wǎng)上非常多)
(點擊放大圖像)
[圖片上傳中。而叼。身笤。(4)]
在“我所經(jīng)歷的大數(shù)據(jù)平臺發(fā)展史 上篇 非互聯(lián)網(wǎng)時代“提到兩位大師的架構(gòu)與爭論,進(jìn)一步聚焦來說葵陵,爭論點我的認(rèn)為其實是在數(shù)據(jù)模型的支持上液荸,Bill Inmon的EDW的原則是準(zhǔn)三范式的設(shè)計、Ralph kilmbal是星型結(jié)構(gòu)脱篙。
Bill Inmon對EDW 的定義是面向事物處理娇钱、面向數(shù)據(jù)管理,從數(shù)據(jù)的特征上需要堅持維護(hù)最細(xì)粒度的數(shù)據(jù)绊困、維護(hù)最微觀層次的數(shù)據(jù)關(guān)系文搂、保存數(shù)據(jù)歷史。所以在構(gòu)建完畢的數(shù)據(jù)平臺中可以從中映射并檢查業(yè)務(wù)信息的完整性(同時也是養(yǎng)數(shù)據(jù)過程中的重要反饋點)秤朗,這種方式還可以找出多個系統(tǒng)相關(guān)和重合的信息煤蹭,減少多個系統(tǒng)之間數(shù)據(jù)的重復(fù)定義和不一致性,減小了應(yīng)用集成的難度取视。
(點擊放大圖像)
[圖片上傳中硝皂。。贫途。(5)]
(點擊放大圖像)
[圖片上傳中吧彪。。丢早。(6)]
該建設(shè)方式的要點是首先建立各個數(shù)據(jù)源業(yè)務(wù)的實體關(guān)系姨裸、然后再根據(jù)保存的主子實體關(guān)系、存儲性能做優(yōu)化怨酝。
Ralph kilmball 對DM(備注:數(shù)據(jù)集市傀缩,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented),因為這個模型對業(yè)務(wù)用戶非常容易理解农猬,同時為了查詢也是做了專門的性能優(yōu)化赡艰。所以星型、雪花模型很直觀比較高性能為用戶提供查詢分析斤葱。
(點擊放大圖像)
[圖片上傳中慷垮。揖闸。。(7)]
該方式的建模首先確定用戶需求問題與業(yè)務(wù)需求數(shù)據(jù)粒度料身,構(gòu)建分析所需要的維度汤纸、與度量值形成星型模型;(備注 涉及的復(fù)雜維度芹血、退化維度等不在這個討論范圍)贮泞。
數(shù)據(jù)模型的業(yè)務(wù)建模階段、領(lǐng)域概念模型階段幔烛、邏輯模型階段啃擦、物理模型階段是超級學(xué)術(shù)與復(fù)雜的話題,而且在模型領(lǐng)域根據(jù)特點又分主數(shù)據(jù)(MDM)饿悬、CIF(企業(yè)級統(tǒng)一視圖) 令蛉、通用模型(IBM 的金融、保險行業(yè)通用模型乡恕、 Teradata的 金融通用模型言询、 電信移動通用模型等),鎖涉及到術(shù)語”擴(kuò)展“傲宜、”扁平化“、”裁剪“等眼花繚亂的建模手法夫啊,數(shù)據(jù)模型不同層次ODS函卒、DWDDWD、DW撇眯、ST的分層目的不同導(dǎo)致模型設(shè)計方法又不同报嵌。相信業(yè)界有很多大牛能講的清楚的,以后有機(jī)會再交流熊榛。
(點擊放大圖像)
[圖片上傳中锚国。。玄坦。(8)]
(點擊放大圖像)
[圖片上傳中血筑。。煎楣。(9)]
(點擊放大圖像)
[圖片上傳中豺总。。择懂。(10)]
(點擊放大圖像)
[圖片上傳中喻喳。。困曙。(11)]
本文帶大家回憶了歷史非互聯(lián)網(wǎng)的數(shù)據(jù)平臺發(fā)展與核心模型特點表伦,當(dāng)然數(shù)據(jù)平臺的發(fā)展不是一步到位的谦去,是經(jīng)過無數(shù)人的智慧、努力反復(fù)迭代而逐漸演進(jìn)的蹦哼。
非互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)平臺發(fā)展哪轿,每一代的平臺架構(gòu)中的結(jié)構(gòu)都是及其復(fù)雜的,比如ETL架構(gòu)翔怎、數(shù)據(jù)模型架構(gòu)窃诉、BD的架構(gòu)、前端展現(xiàn)赤套、元數(shù)據(jù)飘痛、數(shù)據(jù)質(zhì)量等各方面,每一部分展開都是一個很深的話題容握,有機(jī)會再分享給大家宣脉。
下篇章將分享給大家互聯(lián)網(wǎng)時代的數(shù)據(jù)平臺,互聯(lián)網(wǎng)的數(shù)據(jù)平臺也就是在07年-08年左右開始迅猛發(fā)展的剔氏,在發(fā)展的初期也是從傳統(tǒng)數(shù)據(jù)平臺的第三代架構(gòu)開始演進(jìn)的塑猖,互聯(lián)網(wǎng)產(chǎn)品發(fā)展特點是“糙、快谈跛、猛”羊苟,同時數(shù)據(jù)量的超快速膨脹所帶來的技術(shù)變革,從數(shù)據(jù)倉庫->海量數(shù)據(jù)->大數(shù)據(jù)膨脹必然原有的技術(shù)無法支撐高IO吞吐感憾、密集型計算蜡励,從而發(fā)展了合適互聯(lián)網(wǎng)大數(shù)據(jù)平臺。
關(guān)于作者
松子(李博源)阻桅,自由撰稿人凉倚,數(shù)據(jù)產(chǎn)品&數(shù)據(jù)分析總監(jiān)。2000年開始數(shù)據(jù)領(lǐng)域嫂沉,從業(yè)傳統(tǒng)制造業(yè)稽寒、銀行、保險趟章、第三方支付&互聯(lián)網(wǎng)金融杏糙、在線旅行、移動互聯(lián)網(wǎng)行業(yè) 尤揣; 個人沉淀在大數(shù)據(jù)產(chǎn)品搔啊、大數(shù)據(jù)分析、數(shù)據(jù)模型領(lǐng)域北戏;歡迎關(guān)注個人微信訂閱號:songzi2016负芋。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子旧蛾,更是在濱河造成了極大的恐慌莽龟,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锨天,死亡現(xiàn)場離奇詭異毯盈,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)病袄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進(jìn)店門搂赋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人益缠,你說我怎么就攤上這事脑奠。” “怎么了幅慌?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵宋欺,是天一觀的道長。 經(jīng)常有香客問我胰伍,道長齿诞,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任骂租,我火速辦了婚禮祷杈,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘菩咨。我一直安慰自己吠式,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布抽米。 她就那樣靜靜地躺著,像睡著了一般糙置。 火紅的嫁衣襯著肌膚如雪云茸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天谤饭,我揣著相機(jī)與錄音标捺,去河邊找鬼。 笑死揉抵,一個胖子當(dāng)著我的面吹牛亡容,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播冤今,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼闺兢,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了戏罢?” 一聲冷哼從身側(cè)響起屋谭,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤脚囊,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后桐磁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悔耘,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年我擂,在試婚紗的時候發(fā)現(xiàn)自己被綠了衬以。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡校摩,死狀恐怖看峻,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情秧耗,我是刑警寧澤备籽,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站分井,受9級特大地震影響车猬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜尺锚,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一珠闰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瘫辩,春花似錦伏嗜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至挣轨,卻和暖如春军熏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背卷扮。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工荡澎, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人晤锹。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓摩幔,卻偏偏與公主長得像,于是被迫代替她去往敵國和親鞭铆。 傳聞我的和親對象是個殘疾皇子或衡,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容