//
我所經歷的大數據平臺發(fā)展史(二):非互//
我所經歷的大數據平臺發(fā)展史(二):非互聯網時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-//
我所經歷的大數據平臺發(fā)展史(二):非互聯網時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第二篇(共四篇)拴鸵,本系列以獨特的視角痹屹,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)纤垂。是對數據平臺發(fā)展的一個回憶广凸,對非互聯網倡鲸、互聯網破讨,從數據平臺的用戶角度赖淤、數據架構演進、模型等進行了闡述虾攻。
前言,”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞更鲁,在數據庫設計台谢、數據倉庫、數據挖掘上岁经、業(yè)務里都存在朋沮,聚焦一下,這里提到的是數據平臺中的”數據模型“缀壤。 這是一個非常的抽象詞樊拓,個人也很難用簡單語言把他描述出來,這一章也是整個系列中較為抽象的一章節(jié)塘慕,同時這個章節(jié)將會回答非互聯網數據平臺數據模型是什么筋夏?如何需要數據模型?如何簡單的建設图呢?
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念绽媒,對業(yè)務的數據按照某種規(guī)則進行有效組織并滿足業(yè)務需求。
相關廠商內容
關于紅包沪斟、SSD云盤等核心技術集錦钻蹬!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規(guī)劃這樣設計
在構建過程中,有一個角色理解業(yè)務并探索分散在各系統(tǒng)間的數據筋遭,并通過某條業(yè)務主線把這些分散在各角落的數據串聯并存儲同時讓業(yè)務使用打颤,在設計時苦逼的地方除了考慮業(yè)務數據結構要素外,還得考慮可操作性漓滔、約束性(備注 約束性是完成數據質量提升的一個關鍵要素编饺,未來新話題主題會討論這些),這個既要顧業(yè)務响驴、數據源透且、合理的整合的角色是數據模型設計師,又叫數據模型師豁鲤。
非互聯網時代的數據模型是一個高度智慧業(yè)務抽象結晶秽誊,數據模型是整個系統(tǒng)建設過程的導航圖。
(點擊放大圖像)
[圖片上傳中琳骡。锅论。。(2)]
平臺中模型設計所關注的是企業(yè)分散在各角落數據楣号、未知的商業(yè)模式與未知的分析報表最易,通過模型的步驟怒坯,理解業(yè)務并結合數據整合分析,建立數據模型為Data cleaning 指定清洗規(guī)則藻懒、為源數據與目標提供ETL mapping (備注:ETL 代指數據從不同源到數據平臺的整個過程剔猿,ETL Mapping 可理解為 數據加工算法,給數碼看的嬉荆,互聯網與非互聯網此處差異性也較為明顯归敬,非互聯網數據平臺對ETL定義與架構較為復雜)支持、 理清數據與數據之間的關系员寇。(備注:Data cleaning 是指的數據清洗 數據質量相關不管是在哪個行業(yè)弄慰,是最令人頭痛的問題第美,分業(yè)務域蝶锋、技術域的數據質量問題,需要通過事前盤點什往、事中監(jiān)控扳缕、事后調養(yǎng),有機會在闡述)别威。
大家來看一張較為嚴謹的數據模型關系圖:
(點擊放大圖像)
[圖片上傳中躯舔。。省古。(3)]
數據模型是整個數據平臺的數據建設過程的導航圖粥庄。
有利于數據的整合。數據模型是整合各種數據源指導圖豺妓,對現有業(yè)務與數據從邏輯層角度進行了全面描述惜互,通過數據模型,可以建立業(yè)務系統(tǒng)與數據之間的映射與轉換關系琳拭。排除數據描述的不一致性训堆。如:同名異義、同物異名..白嘁。
減少多余冗余數據坑鱼,因為了解數據之間的關系,以及數據的作用絮缅。在數據平臺中根據需求采集那些用于分析的數據鲁沥,而不需要那些純粹用于操作的數據。
在面對企業(yè)復雜業(yè)務與成千上萬的數據項進行設計時耕魄,沒有哪個牛逼的人都記得住的黍析,所以出現了按照某種層次規(guī)則去有組織并抽象與管理易用,由此誕生了概念模型屎开、邏輯模型阐枣、物理模型 (備注 數據平臺數據模型马靠,而非數據挖掘的模型)。
數據模型在數據平臺的數據倉庫中是一個統(tǒng)稱蔼两,嚴格上來講分為概念模型甩鳄、邏輯模型、物理模型额划。(備注:四類模型如何去詳細構建文本不深講妙啃,關于非互聯網企業(yè)的數據模型網上非常多)
(點擊放大圖像)
[圖片上傳中。俊戳。揖赴。(4)]
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代“提到兩位大師的架構與爭論,進一步聚焦來說抑胎,爭論點我的認為其實是在數據模型的支持上燥滑,Bill Inmon的EDW的原則是準三范式的設計、Ralph kilmbal是星型結構阿逃。
Bill Inmon對EDW 的定義是面向事物處理铭拧、面向數據管理,從數據的特征上需要堅持維護最細粒度的數據恃锉、維護最微觀層次的數據關系搀菩、保存數據歷史。所以在構建完畢的數據平臺中可以從中映射并檢查業(yè)務信息的完整性(同時也是養(yǎng)數據過程中的重要反饋點)破托,這種方式還可以找出多個系統(tǒng)相關和重合的信息肪跋,減少多個系統(tǒng)之間數據的重復定義和不一致性,減小了應用集成的難度土砂。
(點擊放大圖像)
[圖片上傳中州既。。瘟芝。(5)]
(點擊放大圖像)
該建設方式的要點是首先建立各個數據源業(yè)務的實體關系易桃、然后再根據保存的主子實體關系、存儲性能做優(yōu)化锌俱。
Ralph kilmball 對DM(備注:數據集市晤郑,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented),因為這個模型對業(yè)務用戶非常容易理解贸宏,同時為了查詢也是做了專門的性能優(yōu)化造寝。所以星型、雪花模型很直觀比較高性能為用戶提供查詢分析吭练。
(點擊放大圖像)
[圖片上傳中诫龙。。鲫咽。(7)]
該方式的建模首先確定用戶需求問題與業(yè)務需求數據粒度签赃,構建分析所需要的維度谷异、與度量值形成星型模型;(備注 涉及的復雜維度锦聊、退化維度等不在這個討論范圍)歹嘹。
數據模型的業(yè)務建模階段泼菌、領域概念模型階段猖任、邏輯模型階段、物理模型階段是超級學術與復雜的話題日丹,而且在模型領域根據特點又分主數據(MDM)圆到、CIF(企業(yè)級統(tǒng)一視圖) 怎抛、通用模型(IBM 的金融、保險行業(yè)通用模型芽淡、 Teradata的 金融通用模型马绝、 電信移動通用模型等),鎖涉及到術語”擴展“吐绵、”扁平化“迹淌、”裁剪“等眼花繚亂的建模手法河绽,數據模型不同層次ODS己单、DWDDWD、DW耙饰、ST的分層目的不同導致模型設計方法又不同纹笼。相信業(yè)界有很多大牛能講的清楚的,以后有機會再交流苟跪。
(點擊放大圖像)
[圖片上傳中廷痘。。件已。(8)]
(點擊放大圖像)
[圖片上傳中笋额。。篷扩。(9)]
(點擊放大圖像)
[圖片上傳中兄猩。。鉴未。(10)]
(點擊放大圖像)
[圖片上傳中枢冤。。铜秆。(11)]
本文帶大家回憶了歷史非互聯網的數據平臺發(fā)展與核心模型特點淹真,當然數據平臺的發(fā)展不是一步到位的,是經過無數人的智慧连茧、努力反復迭代而逐漸演進的核蘸。
非互聯網企業(yè)的數據平臺發(fā)展巍糯,每一代的平臺架構中的結構都是及其復雜的,比如ETL架構客扎、數據模型架構鳞贷、BD的架構、前端展現虐唠、元數據搀愧、數據質量等各方面,每一部分展開都是一個很深的話題疆偿,有機會再分享給大家咱筛。
下篇章將分享給大家互聯網時代的數據平臺,互聯網的數據平臺也就是在07年-08年左右開始迅猛發(fā)展的杆故,在發(fā)展的初期也是從傳統(tǒng)數據平臺的第三代架構開始演進的迅箩,互聯網產品發(fā)展特點是“糙、快处铛、猛”饲趋,同時數據量的超快速膨脹所帶來的技術變革,從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐撤蟆、密集型計算奕塑,從而發(fā)展了合適互聯網大數據平臺。
關于作者
松子(李博源)家肯,自由撰稿人龄砰,數據產品&數據分析總監(jiān)。2000年開始數據領域讨衣,從業(yè)傳統(tǒng)制造業(yè)换棚、銀行、保險反镇、第三方支付&互聯網金融固蚤、在線旅行、移動互聯網行業(yè) 歹茶; 個人沉淀在大數據產品夕玩、大數據分析、數據模型領域辆亏;歡迎關注個人微信訂閱號:songzi2016风秤。//
我所經歷的大數據平臺發(fā)展史(二):非互聯網時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第二篇(共四篇),本系列以獨特的視角扮叨,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)缤弦。是對數據平臺發(fā)展的一個回憶,對非互聯網彻磁、互聯網碍沐,從數據平臺的用戶角度狸捅、數據架構演進、模型等進行了闡述累提。
前言尘喝,”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞,在數據庫設計斋陪、數據倉庫朽褪、數據挖掘上、業(yè)務里都存在无虚,聚焦一下缔赠,這里提到的是數據平臺中的”數據模型“。 這是一個非常的抽象詞友题,個人也很難用簡單語言把他描述出來嗤堰,這一章也是整個系列中較為抽象的一章節(jié),同時這個章節(jié)將會回答非互聯網數據平臺數據模型是什么度宦?如何需要數據模型踢匣?如何簡單的建設?
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念戈抄,對業(yè)務的數據按照某種規(guī)則進行有效組織并滿足業(yè)務需求离唬。
相關廠商內容
關于紅包、SSD云盤等核心技術集錦呛凶!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規(guī)劃這樣設計
在構建過程中,有一個角色理解業(yè)務并探索分散在各系統(tǒng)間的數據建瘫,并通過某條業(yè)務主線把這些分散在各角落的數據串聯并存儲同時讓業(yè)務使用崭捍,在設計時苦逼的地方除了考慮業(yè)務數據結構要素外,還得考慮可操作性啰脚、約束性(備注 約束性是完成數據質量提升的一個關鍵要素殷蛇,未來新話題主題會討論這些),這個既要顧業(yè)務橄浓、數據源粒梦、合理的整合的角色是數據模型設計師,又叫數據模型師荸实。
非互聯網時代的數據模型是一個高度智慧業(yè)務抽象結晶匀们,數據模型是整個系統(tǒng)建設過程的導航圖。
(點擊放大圖像)
[圖片上傳中准给。泄朴。重抖。(2)]
平臺中模型設計所關注的是企業(yè)分散在各角落數據、未知的商業(yè)模式與未知的分析報表祖灰,通過模型的步驟钟沛,理解業(yè)務并結合數據整合分析,建立數據模型為Data cleaning 指定清洗規(guī)則局扶、為源數據與目標提供ETL mapping (備注:ETL 代指數據從不同源到數據平臺的整個過程恨统,ETL Mapping 可理解為 數據加工算法,給數碼看的三妈,互聯網與非互聯網此處差異性也較為明顯延欠,非互聯網數據平臺對ETL定義與架構較為復雜)支持、 理清數據與數據之間的關系沈跨。(備注:Data cleaning 是指的數據清洗 數據質量相關不管是在哪個行業(yè)由捎,是最令人頭痛的問題饿凛,分業(yè)務域、技術域的數據質量問題,需要通過事前盤點翰萨、事中監(jiān)控脏答、事后調養(yǎng),有機會在闡述)亩鬼。
大家來看一張較為嚴謹的數據模型關系圖:
(點擊放大圖像)
[圖片上傳中殖告。。雳锋。(3)]
數據模型是整個數據平臺的數據建設過程的導航圖黄绩。
有利于數據的整合。數據模型是整合各種數據源指導圖玷过,對現有業(yè)務與數據從邏輯層角度進行了全面描述爽丹,通過數據模型,可以建立業(yè)務系統(tǒng)與數據之間的映射與轉換關系辛蚊。排除數據描述的不一致性粤蝎。如:同名異義、同物異名..嚼隘。
減少多余冗余數據诽里,因為了解數據之間的關系,以及數據的作用飞蛹。在數據平臺中根據需求采集那些用于分析的數據,而不需要那些純粹用于操作的數據灸眼。
在面對企業(yè)復雜業(yè)務與成千上萬的數據項進行設計時卧檐,沒有哪個牛逼的人都記得住的,所以出現了按照某種層次規(guī)則去有組織并抽象與管理易用焰宣,由此誕生了概念模型霉囚、邏輯模型、物理模型 (備注 數據平臺數據模型匕积,而非數據挖掘的模型)盈罐。
數據模型在數據平臺的數據倉庫中是一個統(tǒng)稱榜跌,嚴格上來講分為概念模型、邏輯模型盅粪、物理模型钓葫。(備注:四類模型如何去詳細構建文本不深講,關于非互聯網企業(yè)的數據模型網上非常多)
(點擊放大圖像)
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代“提到兩位大師的架構與爭論票顾,進一步聚焦來說础浮,爭論點我的認為其實是在數據模型的支持上,Bill Inmon的EDW的原則是準三范式的設計奠骄、Ralph kilmbal是星型結構豆同。
Bill Inmon對EDW 的定義是面向事物處理、面向數據管理含鳞,從數據的特征上需要堅持維護最細粒度的數據影锈、維護最微觀層次的數據關系、保存數據歷史蝉绷。所以在構建完畢的數據平臺中可以從中映射并檢查業(yè)務信息的完整性(同時也是養(yǎng)數據過程中的重要反饋點)精居,這種方式還可以找出多個系統(tǒng)相關和重合的信息,減少多個系統(tǒng)之間數據的重復定義和不一致性潜必,減小了應用集成的難度靴姿。
(點擊放大圖像)
[圖片上傳中。磁滚。佛吓。(5)]
(點擊放大圖像)
[圖片上傳中。垂攘。维雇。(6)]
該建設方式的要點是首先建立各個數據源業(yè)務的實體關系、然后再根據保存的主子實體關系晒他、存儲性能做優(yōu)化吱型。
Ralph kilmball 對DM(備注:數據集市香椎,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented)痴施,因為這個模型對業(yè)務用戶非常容易理解,同時為了查詢也是做了專門的性能優(yōu)化锌唾。所以星型灼伤、雪花模型很直觀比較高性能為用戶提供查詢分析触徐。
(點擊放大圖像)
[圖片上傳中。狐赡。撞鹉。(7)]
該方式的建模首先確定用戶需求問題與業(yè)務需求數據粒度,構建分析所需要的維度、與度量值形成星型模型鸟雏;(備注 涉及的復雜維度享郊、退化維度等不在這個討論范圍)。
數據模型的業(yè)務建模階段孝鹊、領域概念模型階段炊琉、邏輯模型階段、物理模型階段是超級學術與復雜的話題惶室,而且在模型領域根據特點又分主數據(MDM)温自、CIF(企業(yè)級統(tǒng)一視圖) 、通用模型(IBM 的金融皇钞、保險行業(yè)通用模型悼泌、 Teradata的 金融通用模型、 電信移動通用模型等)夹界,鎖涉及到術語”擴展“馆里、”扁平化“、”裁剪“等眼花繚亂的建模手法可柿,數據模型不同層次ODS鸠踪、DWDDWD、DW复斥、ST的分層目的不同導致模型設計方法又不同营密。相信業(yè)界有很多大牛能講的清楚的,以后有機會再交流目锭。
(點擊放大圖像)
[圖片上傳中评汰。。痢虹。(8)]
(點擊放大圖像)
[圖片上傳中被去。。奖唯。(9)]
(點擊放大圖像)
[圖片上傳中惨缆。。丰捷。(10)]
(點擊放大圖像)
[圖片上傳中坯墨。。瓢阴。(11)]
本文帶大家回憶了歷史非互聯網的數據平臺發(fā)展與核心模型特點畅蹂,當然數據平臺的發(fā)展不是一步到位的,是經過無數人的智慧荣恐、努力反復迭代而逐漸演進的。
非互聯網企業(yè)的數據平臺發(fā)展,每一代的平臺架構中的結構都是及其復雜的叠穆,比如ETL架構少漆、數據模型架構、BD的架構硼被、前端展現示损、元數據、數據質量等各方面嚷硫,每一部分展開都是一個很深的話題检访,有機會再分享給大家。
下篇章將分享給大家互聯網時代的數據平臺仔掸,互聯網的數據平臺也就是在07年-08年左右開始迅猛發(fā)展的脆贵,在發(fā)展的初期也是從傳統(tǒng)數據平臺的第三代架構開始演進的,互聯網產品發(fā)展特點是“糙起暮、快卖氨、猛”,同時數據量的超快速膨脹所帶來的技術變革负懦,從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐筒捺、密集型計算,從而發(fā)展了合適互聯網大數據平臺纸厉。
關于作者
松子(李博源)系吭,自由撰稿人,數據產品&數據分析總監(jiān)颗品。2000年開始數據領域肯尺,從業(yè)傳統(tǒng)制造業(yè)、銀行抛猫、保險蟆盹、第三方支付&互聯網金融、在線旅行闺金、移動互聯網行業(yè) 逾滥; 個人沉淀在大數據產品、大數據分析败匹、數據模型領域寨昙;歡迎關注個人微信訂閱號:songzi2016。//
我所經歷的大數據平臺發(fā)展史(二):非互聯網時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第二篇(共四篇)舔哪,本系列以獨特的視角,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)槽棍。是對數據平臺發(fā)展的一個回憶捉蚤,對非互聯網抬驴、互聯網,從數據平臺的用戶角度缆巧、數據架構演進布持、模型等進行了闡述。
前言陕悬,”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞题暖,在數據庫設計、數據倉庫捉超、數據挖掘上胧卤、業(yè)務里都存在,聚焦一下拼岳,這里提到的是數據平臺中的”數據模型“枝誊。 這是一個非常的抽象詞,個人也很難用簡單語言把他描述出來裂问,這一章也是整個系列中較為抽象的一章節(jié)侧啼,同時這個章節(jié)將會回答非互聯網數據平臺數據模型是什么?如何需要數據模型堪簿?如何簡單的建設痊乾?
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念,對業(yè)務的數據按照某種規(guī)則進行有效組織并滿足業(yè)務需求椭更。
相關廠商內容
關于紅包哪审、SSD云盤等核心技術集錦!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規(guī)劃這樣設計
在構建過程中舌狗,有一個角色理解業(yè)務并探索分散在各系統(tǒng)間的數據叽奥,并通過某條業(yè)務主線把這些分散在各角落的數據串聯并存儲同時讓業(yè)務使用,在設計時苦逼的地方除了考慮業(yè)務數據結構要素外痛侍,還得考慮可操作性朝氓、約束性(備注 約束性是完成數據質量提升的一個關鍵要素,未來新話題主題會討論這些)主届,這個既要顧業(yè)務赵哲、數據源、合理的整合的角色是數據模型設計師君丁,又叫數據模型師枫夺。
非互聯網時代的數據模型是一個高度智慧業(yè)務抽象結晶,數據模型是整個系統(tǒng)建設過程的導航圖绘闷。
(點擊放大圖像)
[圖片上傳中橡庞。较坛。。(2)]
平臺中模型設計所關注的是企業(yè)分散在各角落數據毙死、未知的商業(yè)模式與未知的分析報表燎潮,通過模型的步驟喻鳄,理解業(yè)務并結合數據整合分析扼倘,建立數據模型為Data cleaning 指定清洗規(guī)則、為源數據與目標提供ETL mapping (備注:ETL 代指數據從不同源到數據平臺的整個過程除呵,ETL Mapping 可理解為 數據加工算法再菊,給數碼看的,互聯網與非互聯網此處差異性也較為明顯颜曾,非互聯網數據平臺對ETL定義與架構較為復雜)支持纠拔、 理清數據與數據之間的關系。(備注:Data cleaning 是指的數據清洗 數據質量相關不管是在哪個行業(yè)泛豪,是最令人頭痛的問題稠诲,分業(yè)務域、技術域的數據質量問題诡曙,需要通過事前盤點臀叙、事中監(jiān)控、事后調養(yǎng)价卤,有機會在闡述)劝萤。
大家來看一張較為嚴謹的數據模型關系圖:
(點擊放大圖像)
[圖片上傳中。慎璧。床嫌。(3)]
數據模型是整個數據平臺的數據建設過程的導航圖。
有利于數據的整合胸私。數據模型是整合各種數據源指導圖厌处,對現有業(yè)務與數據從邏輯層角度進行了全面描述,通過數據模型岁疼,可以建立業(yè)務系統(tǒng)與數據之間的映射與轉換關系阔涉。排除數據描述的不一致性。如:同名異義五续、同物異名..洒敏。
減少多余冗余數據,因為了解數據之間的關系疙驾,以及數據的作用凶伙。在數據平臺中根據需求采集那些用于分析的數據,而不需要那些純粹用于操作的數據它碎。
在面對企業(yè)復雜業(yè)務與成千上萬的數據項進行設計時函荣,沒有哪個牛逼的人都記得住的显押,所以出現了按照某種層次規(guī)則去有組織并抽象與管理易用,由此誕生了概念模型傻挂、邏輯模型乘碑、物理模型 (備注 數據平臺數據模型,而非數據挖掘的模型)金拒。
數據模型在數據平臺的數據倉庫中是一個統(tǒng)稱兽肤,嚴格上來講分為概念模型、邏輯模型绪抛、物理模型资铡。(備注:四類模型如何去詳細構建文本不深講,關于非互聯網企業(yè)的數據模型網上非常多)
(點擊放大圖像)
[圖片上傳中幢码。笤休。。(4)]
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代“提到兩位大師的架構與爭論症副,進一步聚焦來說店雅,爭論點我的認為其實是在數據模型的支持上,Bill Inmon的EDW的原則是準三范式的設計贞铣、Ralph kilmbal是星型結構闹啦。
Bill Inmon對EDW 的定義是面向事物處理、面向數據管理咕娄,從數據的特征上需要堅持維護最細粒度的數據亥揖、維護最微觀層次的數據關系、保存數據歷史圣勒。所以在構建完畢的數據平臺中可以從中映射并檢查業(yè)務信息的完整性(同時也是養(yǎng)數據過程中的重要反饋點)费变,這種方式還可以找出多個系統(tǒng)相關和重合的信息,減少多個系統(tǒng)之間數據的重復定義和不一致性圣贸,減小了應用集成的難度灾杰。
(點擊放大圖像)
[圖片上傳中渺贤。。。(5)]
(點擊放大圖像)
[圖片上傳中甫恩。杭抠。羊始。(6)]
該建設方式的要點是首先建立各個數據源業(yè)務的實體關系谱俭、然后再根據保存的主子實體關系、存儲性能做優(yōu)化啄骇。
Ralph kilmball 對DM(備注:數據集市痴鳄,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented),因為這個模型對業(yè)務用戶非常容易理解缸夹,同時為了查詢也是做了專門的性能優(yōu)化痪寻。所以星型螺句、雪花模型很直觀比較高性能為用戶提供查詢分析。
(點擊放大圖像)
[圖片上傳中橡类。蛇尚。。(7)]
該方式的建模首先確定用戶需求問題與業(yè)務需求數據粒度顾画,構建分析所需要的維度取劫、與度量值形成星型模型;(備注 涉及的復雜維度亲雪、退化維度等不在這個討論范圍)勇凭。
數據模型的業(yè)務建模階段、領域概念模型階段义辕、邏輯模型階段、物理模型階段是超級學術與復雜的話題寓盗,而且在模型領域根據特點又分主數據(MDM)灌砖、CIF(企業(yè)級統(tǒng)一視圖) 、通用模型(IBM 的金融傀蚌、保險行業(yè)通用模型基显、 Teradata的 金融通用模型、 電信移動通用模型等)善炫,鎖涉及到術語”擴展“撩幽、”扁平化“、”裁剪“等眼花繚亂的建模手法箩艺,數據模型不同層次ODS窜醉、DWDDWD、DW艺谆、ST的分層目的不同導致模型設計方法又不同榨惰。相信業(yè)界有很多大牛能講的清楚的,以后有機會再交流静汤。
(點擊放大圖像)
(點擊放大圖像)
[圖片上傳中琅催。。虫给。(9)]
(點擊放大圖像)
[圖片上傳中藤抡。。抹估。(10)]
(點擊放大圖像)
[圖片上傳中缠黍。。棋蚌。(11)]
本文帶大家回憶了歷史非互聯網的數據平臺發(fā)展與核心模型特點嫁佳,當然數據平臺的發(fā)展不是一步到位的挨队,是經過無數人的智慧、努力反復迭代而逐漸演進的蒿往。
非互聯網企業(yè)的數據平臺發(fā)展盛垦,每一代的平臺架構中的結構都是及其復雜的,比如ETL架構瓤漏、數據模型架構腾夯、BD的架構、前端展現蔬充、元數據蝶俱、數據質量等各方面,每一部分展開都是一個很深的話題饥漫,有機會再分享給大家榨呆。
下篇章將分享給大家互聯網時代的數據平臺,互聯網的數據平臺也就是在07年-08年左右開始迅猛發(fā)展的庸队,在發(fā)展的初期也是從傳統(tǒng)數據平臺的第三代架構開始演進的积蜻,互聯網產品發(fā)展特點是“糙、快彻消、猛”竿拆,同時數據量的超快速膨脹所帶來的技術變革,從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐宾尚、密集型計算丙笋,從而發(fā)展了合適互聯網大數據平臺。
關于作者
松子(李博源)煌贴,自由撰稿人御板,數據產品&數據分析總監(jiān)。2000年開始數據領域崔步,從業(yè)傳統(tǒng)制造業(yè)稳吮、銀行、保險井濒、第三方支付&互聯網金融灶似、在線旅行、移動互聯網行業(yè) 瑞你; 個人沉淀在大數據產品酪惭、大數據分析、數據模型領域者甲;歡迎關注個人微信訂閱號:songzi2016春感。//
我所經歷的大數據平臺發(fā)展史(二):非互聯網時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第二篇(共四篇),本系列以獨特的視角,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)鲫懒。是對數據平臺發(fā)展的一個回憶嫩实,對非互聯網、互聯網窥岩,從數據平臺的用戶角度甲献、數據架構演進、模型等進行了闡述颂翼。
前言晃洒,”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞,在數據庫設計朦乏、數據倉庫球及、數據挖掘上、業(yè)務里都存在呻疹,聚焦一下吃引,這里提到的是數據平臺中的”數據模型“。 這是一個非常的抽象詞诲宇,個人也很難用簡單語言把他描述出來际歼,這一章也是整個系列中較為抽象的一章節(jié),同時這個章節(jié)將會回答非互聯網數據平臺數據模型是什么姑蓝?如何需要數據模型?如何簡單的建設吕粗?
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念纺荧,對業(yè)務的數據按照某種規(guī)則進行有效組織并滿足業(yè)務需求。
相關廠商內容
關于紅包颅筋、SSD云盤等核心技術集錦宙暇!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規(guī)劃這樣設計
在構建過程中,有一個角色理解業(yè)務并探索分散在各系統(tǒng)間的數據先口,并通過某條業(yè)務主線把這些分散在各角落的數據串聯并存儲同時讓業(yè)務使用型奥,在設計時苦逼的地方除了考慮業(yè)務數據結構要素外,還得考慮可操作性碉京、約束性(備注 約束性是完成數據質量提升的一個關鍵要素厢汹,未來新話題主題會討論這些),這個既要顧業(yè)務谐宙、數據源烫葬、合理的整合的角色是數據模型設計師,又叫數據模型師。
非互聯網時代的數據模型是一個高度智慧業(yè)務抽象結晶搭综,數據模型是整個系統(tǒng)建設過程的導航圖垢箕。
(點擊放大圖像)
[圖片上傳中。兑巾。条获。(2)]
平臺中模型設計所關注的是企業(yè)分散在各角落數據、未知的商業(yè)模式與未知的分析報表闪朱,通過模型的步驟月匣,理解業(yè)務并結合數據整合分析,建立數據模型為Data cleaning 指定清洗規(guī)則奋姿、為源數據與目標提供ETL mapping (備注:ETL 代指數據從不同源到數據平臺的整個過程锄开,ETL Mapping 可理解為 數據加工算法,給數碼看的称诗,互聯網與非互聯網此處差異性也較為明顯萍悴,非互聯網數據平臺對ETL定義與架構較為復雜)支持、 理清數據與數據之間的關系寓免。(備注:Data cleaning 是指的數據清洗 數據質量相關不管是在哪個行業(yè)癣诱,是最令人頭痛的問題,分業(yè)務域袜香、技術域的數據質量問題撕予,需要通過事前盤點、事中監(jiān)控蜈首、事后調養(yǎng)实抡,有機會在闡述)。
大家來看一張較為嚴謹的數據模型關系圖:
(點擊放大圖像)
[圖片上傳中欢策。吆寨。。(3)]
數據模型是整個數據平臺的數據建設過程的導航圖踩寇。
有利于數據的整合啄清。數據模型是整合各種數據源指導圖,對現有業(yè)務與數據從邏輯層角度進行了全面描述俺孙,通過數據模型辣卒,可以建立業(yè)務系統(tǒng)與數據之間的映射與轉換關系。排除數據描述的不一致性鼠冕。如:同名異義添寺、同物異名..。
減少多余冗余數據懈费,因為了解數據之間的關系计露,以及數據的作用。在數據平臺中根據需求采集那些用于分析的數據,而不需要那些純粹用于操作的數據票罐。
在面對企業(yè)復雜業(yè)務與成千上萬的數據項進行設計時叉趣,沒有哪個牛逼的人都記得住的,所以出現了按照某種層次規(guī)則去有組織并抽象與管理易用该押,由此誕生了概念模型疗杉、邏輯模型、物理模型 (備注 數據平臺數據模型蚕礼,而非數據挖掘的模型)烟具。
數據模型在數據平臺的數據倉庫中是一個統(tǒng)稱,嚴格上來講分為概念模型奠蹬、邏輯模型朝聋、物理模型。(備注:四類模型如何去詳細構建文本不深講囤躁,關于非互聯網企業(yè)的數據模型網上非常多)
(點擊放大圖像)
[圖片上傳中冀痕。。狸演。(4)]
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代“提到兩位大師的架構與爭論言蛇,進一步聚焦來說,爭論點我的認為其實是在數據模型的支持上宵距,Bill Inmon的EDW的原則是準三范式的設計腊尚、Ralph kilmbal是星型結構。
Bill Inmon對EDW 的定義是面向事物處理满哪、面向數據管理跟伏,從數據的特征上需要堅持維護最細粒度的數據、維護最微觀層次的數據關系翩瓜、保存數據歷史。所以在構建完畢的數據平臺中可以從中映射并檢查業(yè)務信息的完整性(同時也是養(yǎng)數據過程中的重要反饋點)携龟,這種方式還可以找出多個系統(tǒng)相關和重合的信息兔跌,減少多個系統(tǒng)之間數據的重復定義和不一致性,減小了應用集成的難度峡蟋。
(點擊放大圖像)
[圖片上傳中。。希停。(5)]
(點擊放大圖像)
[圖片上傳中一也。。蓬戚。(6)]
該建設方式的要點是首先建立各個數據源業(yè)務的實體關系夸楣、然后再根據保存的主子實體關系、存儲性能做優(yōu)化。
Ralph kilmball 對DM(備注:數據集市豫喧,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented)石洗,因為這個模型對業(yè)務用戶非常容易理解,同時為了查詢也是做了專門的性能優(yōu)化紧显。所以星型讲衫、雪花模型很直觀比較高性能為用戶提供查詢分析。
(點擊放大圖像)
[圖片上傳中孵班。涉兽。。(7)]
該方式的建模首先確定用戶需求問題與業(yè)務需求數據粒度篙程,構建分析所需要的維度枷畏、與度量值形成星型模型;(備注 涉及的復雜維度房午、退化維度等不在這個討論范圍)矿辽。
數據模型的業(yè)務建模階段、領域概念模型階段郭厌、邏輯模型階段袋倔、物理模型階段是超級學術與復雜的話題,而且在模型領域根據特點又分主數據(MDM)折柠、CIF(企業(yè)級統(tǒng)一視圖) 宾娜、通用模型(IBM 的金融、保險行業(yè)通用模型扇售、 Teradata的 金融通用模型前塔、 電信移動通用模型等),鎖涉及到術語”擴展“承冰、”扁平化“华弓、”裁剪“等眼花繚亂的建模手法,數據模型不同層次ODS困乒、DWDDWD寂屏、DW、ST的分層目的不同導致模型設計方法又不同娜搂。相信業(yè)界有很多大牛能講的清楚的迁霎,以后有機會再交流。
(點擊放大圖像)
[圖片上傳中百宇。考廉。。(8)]
(點擊放大圖像)
(點擊放大圖像)
[圖片上傳中携御。昌粤。既绕。(10)]
(點擊放大圖像)
[圖片上傳中。婚苹。岸更。(11)]
本文帶大家回憶了歷史非互聯網的數據平臺發(fā)展與核心模型特點,當然數據平臺的發(fā)展不是一步到位的膊升,是經過無數人的智慧怎炊、努力反復迭代而逐漸演進的。
非互聯網企業(yè)的數據平臺發(fā)展廓译,每一代的平臺架構中的結構都是及其復雜的评肆,比如ETL架構、數據模型架構非区、BD的架構瓜挽、前端展現、元數據征绸、數據質量等各方面久橙,每一部分展開都是一個很深的話題,有機會再分享給大家管怠。
下篇章將分享給大家互聯網時代的數據平臺淆衷,互聯網的數據平臺也就是在07年-08年左右開始迅猛發(fā)展的,在發(fā)展的初期也是從傳統(tǒng)數據平臺的第三代架構開始演進的渤弛,互聯網產品發(fā)展特點是“糙祝拯、快、猛”她肯,同時數據量的超快速膨脹所帶來的技術變革佳头,從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐、密集型計算晴氨,從而發(fā)展了合適互聯網大數據平臺康嘉。
關于作者
松子(李博源),自由撰稿人籽前,數據產品&數據分析總監(jiān)凄鼻。2000年開始數據領域,從業(yè)傳統(tǒng)制造業(yè)聚假、銀行、保險闰非、第三方支付&互聯網金融膘格、在線旅行瘪贱、移動互聯網行業(yè) 共螺; 個人沉淀在大數據產品衷模、大數據分析疤苹、數據模型領域;歡迎關注個人微信訂閱號:songzi2016觉啊。//
我所經歷的大數據平臺發(fā)展史(二):非互聯網時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第二篇(共四篇)徙融,本系列以獨特的視角帝洪,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)。是對數據平臺發(fā)展的一個回憶脚猾,對非互聯網葱峡、互聯網,從數據平臺的用戶角度龙助、數據架構演進砰奕、模型等進行了闡述。
前言提鸟,”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞军援,在數據庫設計、數據倉庫称勋、數據挖掘上胸哥、業(yè)務里都存在,聚焦一下赡鲜,這里提到的是數據平臺中的”數據模型“空厌。 這是一個非常的抽象詞,個人也很難用簡單語言把他描述出來银酬,這一章也是整個系列中較為抽象的一章節(jié)嘲更,同時這個章節(jié)將會回答非互聯網數據平臺數據模型是什么?如何需要數據模型揩瞪?如何簡單的建設赋朦?
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念,對業(yè)務的數據按照某種規(guī)則進行有效組織并滿足業(yè)務需求李破。
相關廠商內容
關于紅包宠哄、SSD云盤等核心技術集錦!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規(guī)劃這樣設計
在構建過程中屯曹,有一個角色理解業(yè)務并探索分散在各系統(tǒng)間的數據狱庇,并通過某條業(yè)務主線把這些分散在各角落的數據串聯并存儲同時讓業(yè)務使用,在設計時苦逼的地方除了考慮業(yè)務數據結構要素外恶耽,還得考慮可操作性密任、約束性(備注 約束性是完成數據質量提升的一個關鍵要素,未來新話題主題會討論這些)偷俭,這個既要顧業(yè)務浪讳、數據源、合理的整合的角色是數據模型設計師涌萤,又叫數據模型師淹遵。
非互聯網時代的數據模型是一個高度智慧業(yè)務抽象結晶口猜,數據模型是整個系統(tǒng)建設過程的導航圖。
(點擊放大圖像)
[圖片上傳中透揣。济炎。。(2)]
平臺中模型設計所關注的是企業(yè)分散在各角落數據辐真、未知的商業(yè)模式與未知的分析報表须尚,通過模型的步驟,理解業(yè)務并結合數據整合分析侍咱,建立數據模型為Data cleaning 指定清洗規(guī)則耐床、為源數據與目標提供ETL mapping (備注:ETL 代指數據從不同源到數據平臺的整個過程,ETL Mapping 可理解為 數據加工算法楔脯,給數碼看的撩轰,互聯網與非互聯網此處差異性也較為明顯,非互聯網數據平臺對ETL定義與架構較為復雜)支持淤年、 理清數據與數據之間的關系钧敞。(備注:Data cleaning 是指的數據清洗 數據質量相關不管是在哪個行業(yè),是最令人頭痛的問題麸粮,分業(yè)務域溉苛、技術域的數據質量問題,需要通過事前盤點弄诲、事中監(jiān)控愚战、事后調養(yǎng),有機會在闡述)齐遵。
大家來看一張較為嚴謹的數據模型關系圖:
(點擊放大圖像)
[圖片上傳中寂玲。。梗摇。(3)]
數據模型是整個數據平臺的數據建設過程的導航圖拓哟。
有利于數據的整合。數據模型是整合各種數據源指導圖伶授,對現有業(yè)務與數據從邏輯層角度進行了全面描述断序,通過數據模型,可以建立業(yè)務系統(tǒng)與數據之間的映射與轉換關系糜烹。排除數據描述的不一致性违诗。如:同名異義、同物異名..疮蹦。
減少多余冗余數據诸迟,因為了解數據之間的關系,以及數據的作用。在數據平臺中根據需求采集那些用于分析的數據阵苇,而不需要那些純粹用于操作的數據壁公。
在面對企業(yè)復雜業(yè)務與成千上萬的數據項進行設計時,沒有哪個牛逼的人都記得住的绅项,所以出現了按照某種層次規(guī)則去有組織并抽象與管理易用贮尖,由此誕生了概念模型、邏輯模型趁怔、物理模型 (備注 數據平臺數據模型,而非數據挖掘的模型)薪前。
數據模型在數據平臺的數據倉庫中是一個統(tǒng)稱润努,嚴格上來講分為概念模型、邏輯模型示括、物理模型铺浇。(備注:四類模型如何去詳細構建文本不深講,關于非互聯網企業(yè)的數據模型網上非常多)
(點擊放大圖像)
[圖片上傳中垛膝。鳍侣。。(4)]
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代“提到兩位大師的架構與爭論吼拥,進一步聚焦來說倚聚,爭論點我的認為其實是在數據模型的支持上,Bill Inmon的EDW的原則是準三范式的設計凿可、Ralph kilmbal是星型結構惑折。
Bill Inmon對EDW 的定義是面向事物處理、面向數據管理枯跑,從數據的特征上需要堅持維護最細粒度的數據惨驶、維護最微觀層次的數據關系、保存數據歷史敛助。所以在構建完畢的數據平臺中可以從中映射并檢查業(yè)務信息的完整性(同時也是養(yǎng)數據過程中的重要反饋點)粗卜,這種方式還可以找出多個系統(tǒng)相關和重合的信息,減少多個系統(tǒng)之間數據的重復定義和不一致性纳击,減小了應用集成的難度续扔。
(點擊放大圖像)
[圖片上傳中。评疗。测砂。(5)]
(點擊放大圖像)
[圖片上傳中。百匆。砌些。(6)]
該建設方式的要點是首先建立各個數據源業(yè)務的實體關系朴下、然后再根據保存的主子實體關系、存儲性能做優(yōu)化洞辣。
Ralph kilmball 對DM(備注:數據集市阎曹,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented),因為這個模型對業(yè)務用戶非常容易理解纵东,同時為了查詢也是做了專門的性能優(yōu)化粘招。所以星型、雪花模型很直觀比較高性能為用戶提供查詢分析偎球。
(點擊放大圖像)
[圖片上傳中洒扎。。衰絮。(7)]
該方式的建模首先確定用戶需求問題與業(yè)務需求數據粒度袍冷,構建分析所需要的維度、與度量值形成星型模型猫牡;(備注 涉及的復雜維度胡诗、退化維度等不在這個討論范圍)。
數據模型的業(yè)務建模階段淌友、領域概念模型階段煌恢、邏輯模型階段、物理模型階段是超級學術與復雜的話題震庭,而且在模型領域根據特點又分主數據(MDM)瑰抵、CIF(企業(yè)級統(tǒng)一視圖) 、通用模型(IBM 的金融归薛、保險行業(yè)通用模型谍憔、 Teradata的 金融通用模型、 電信移動通用模型等)主籍,鎖涉及到術語”擴展“习贫、”扁平化“、”裁剪“等眼花繚亂的建模手法千元,數據模型不同層次ODS苫昌、DWDDWD、DW幸海、ST的分層目的不同導致模型設計方法又不同祟身。相信業(yè)界有很多大牛能講的清楚的,以后有機會再交流物独。
(點擊放大圖像)
[圖片上傳中袜硫。。挡篓。(8)]
(點擊放大圖像)
[圖片上傳中婉陷。帚称。。(9)]
(點擊放大圖像)
(點擊放大圖像)
[圖片上傳中秽澳。闯睹。。(11)]
本文帶大家回憶了歷史非互聯網的數據平臺發(fā)展與核心模型特點担神,當然數據平臺的發(fā)展不是一步到位的楼吃,是經過無數人的智慧、努力反復迭代而逐漸演進的妄讯。
非互聯網企業(yè)的數據平臺發(fā)展孩锡,每一代的平臺架構中的結構都是及其復雜的,比如ETL架構亥贸、數據模型架構浮创、BD的架構、前端展現砌函、元數據、數據質量等各方面溜族,每一部分展開都是一個很深的話題讹俊,有機會再分享給大家。
下篇章將分享給大家互聯網時代的數據平臺煌抒,互聯網的數據平臺也就是在07年-08年左右開始迅猛發(fā)展的仍劈,在發(fā)展的初期也是從傳統(tǒng)數據平臺的第三代架構開始演進的,互聯網產品發(fā)展特點是“糙寡壮、快贩疙、猛”,同時數據量的超快速膨脹所帶來的技術變革况既,從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐这溅、密集型計算,從而發(fā)展了合適互聯網大數據平臺棒仍。
關于作者
松子(李博源)悲靴,自由撰稿人,數據產品&數據分析總監(jiān)莫其。2000年開始數據領域癞尚,從業(yè)傳統(tǒng)制造業(yè)、銀行乱陡、保險浇揩、第三方支付&互聯網金融、在線旅行憨颠、移動互聯網行業(yè) 胳徽; 個人沉淀在大數據產品、大數據分析、數據模型領域膜廊;歡迎關注個人微信訂閱號:songzi2016乏沸。//
我所經歷的大數據平臺發(fā)展史(一):非互聯網時代 ? 上篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platform
從”數據倉庫“ 詞開始到現在的“大數據”,中間經歷了太多的知識爪瓜、架構模式的演進與變革蹬跃,比如說“數據倉庫、海量數據铆铆、大數據”等蝶缀。(備注:數據倉庫一般指的是:在相當長的時間內堆積數據,僅僅需要處理大量數據請求中的少部分的系統(tǒng)薄货。數據倉庫不等同于“海量數據” 翁都。恰恰相反,而是其子集谅猾。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統(tǒng)柄慰。大數據是海量數據+復雜類型數據基礎上的大分析、高寬帶税娜、大內容)坐搔。
數據倉庫在國外的發(fā)展史多年,大約在98-99年左右進入中國敬矩,到現在歷了大約十多年發(fā)展概行。到了今天尤其是在非互聯網、互聯網企業(yè)兩個領域數據平臺有顯著的區(qū)別弧岳。 本文將以非互聯網時代凳忙、互聯網時代數據平臺發(fā)展角度來講述。
在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM(非挖掘集市)中禽炬,完成對業(yè)務的支撐涧卵。
各業(yè)務數據集市(DM) 面向詳細業(yè)務,采用雪花/星型模型去做設計的支撐OLAP腹尖、Report艺演、儀表盤等數據展現方式。
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第一篇(共四篇)桐臊,本系列以獨特的視角胎撤,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)。是對數據平臺發(fā)展的一個回憶断凶,對非互聯網伤提、互聯網,從數據平臺的用戶角度认烁、數據架構演進肿男、模型等進行了闡述介汹。
前言,這個數據平臺發(fā)展史僅是自己經歷過由傳統(tǒng)數據平臺到互聯網數據平臺發(fā)展一些簡單回憶舶沛,文章引用了歷史項目&平臺規(guī)劃架構嘹承,在這里不做更深入描述。
我是從2000年開始接觸數據倉庫如庭,大約08年開始進入互聯網行業(yè)叹卷,那時在互聯網接觸到數據平臺與傳統(tǒng)第三代數據架構還是有很大的類似之處,隨著互聯網的突飛猛進坪它,每一次的技術變革都帶來一場從技術骤竹、架構、業(yè)務的漸進式變革往毡,到今天互聯網蒙揣、非互聯網的數據平臺架構已經差異非常大。
相關廠商內容
關于紅包开瞭、SSD云盤等核心技術集錦懒震!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
如何通過使用 AWS對IT資源實現高級別管控,并大規(guī)模實現更高級別的安全性嗤详?
回顧早期的企業(yè)環(huán)境,企業(yè)的生產與服務是一個很長周期崭别,導致業(yè)務數據呈現一種粗粒度模式冬筒。隨著互聯網的快速滲透從早期的PC終端到“襠下“的 移動終端,對用戶的需求與服務周期將逐漸的縮短茅主,業(yè)務量級、數據類型多樣化與存儲的暴增赫段,對應著技術豺憔、架構额获、業(yè)務呈現出迅猛發(fā)展,相應的數據沉淀與積累也成指數暴漲恭应。
從”數據倉庫“ 詞開始到現在的“大數據”抄邀,中間經歷了太多的知識、架構模式的演進與變革昼榛,比如說“數據倉庫境肾、海量數據、大數據”等褒纲。(備注:數據倉庫一般指的是:在相當長的時間內堆積數據准夷,僅僅需要處理大量數據請求中的少部分的系統(tǒng)。數據倉庫不等同于“海量數據” 莺掠。恰恰相反衫嵌,而是其子集。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統(tǒng)彻秆。大數據是海量數據+復雜類型數據基礎上的大分析楔绞、高寬帶、大內容)唇兑。
數據倉庫在國外的發(fā)展史多年酒朵,大約在98-99年左右進入中國,到現在歷了大約十多年發(fā)展扎附。到了今天尤其是在非互聯網蔫耽、互聯網企業(yè)兩個領域數據平臺有顯著的區(qū)別。 本文將以非互聯網時代留夜、互聯網時代數據平臺發(fā)展角度來講述匙铡。
很多從傳統(tǒng)企業(yè)數據平臺轉到互聯網同學是否有感覺,非互聯網企業(yè)碍粥、互聯網企業(yè)的數據平臺所面向用戶群體是不同的鳖眼?這兩類的數據平臺的建設、使用用戶又有變化嚼摩?數據模型設計又有什么不同呢钦讳?
我們先來看用戶群體的區(qū)別,下邊整理了2個圖來講述用戶群體相關區(qū)別枕面。
一愿卒、用戶群體
非互聯網數據平臺用戶:
(點擊放大圖像)
企業(yè)的boss、運營的需求主要是依賴于報表潮秘、商業(yè)智能團隊的數據分析師去各種分析與挖掘探索掘猿;
支撐這些人是ETL開發(fā)工程師、數據模型建模唇跨、數據架構師稠通、報表設計人員 衬衬,同時這些角色又是數據平臺數據建設與使用方。
數據平臺的技術框架與工具實現主要有技術架構師改橘、JAVA 開發(fā)等滋尉。
用戶面對是結構化生產系統(tǒng)數據源。
互聯網企業(yè)中員工年齡比非互聯網企業(yè)的要年輕飞主、受教育程度狮惜、對計算機的焦慮程度明顯比傳統(tǒng)企業(yè)要低、還偶遇其它各方面的緣故碌识,導致了數據平臺所面對用戶群體與非互聯網數據平臺有所差異化碾篡;
互聯網數據平臺的使用與建設方是來自各方面的人,數據平臺又是技術筏餐、數據產品推進建設的开泽。
分析師參與數據平臺直接建設比重增加。
原有的數據倉庫開發(fā)與模型架構師的職能也從建設平臺轉為服務與咨詢.
用戶面對是數據源多樣化魁瞪,比如日志穆律、生產數據庫的數據、視頻导俘、音頻等非結構化數據 峦耘。
從這用戶群體角度來說這非互聯網、互聯網的數據平臺用戶差異性是非常明顯旅薄,互聯網數據平臺中很多理論與名詞都是從傳統(tǒng)數據平臺傳遞過來的辅髓,本文將會分別闡述非互聯網、互聯網數據平臺區(qū)別少梁。
(點擊放大圖像)
非互聯網時代
自從數據倉庫發(fā)展起來到現在洛口,基本上可以分為五個時代、四種架構(大家可以詳細翻一下數據倉庫的發(fā)展歷史九府,在這里僅作科普性介紹)
約在1991年前的全企業(yè)集成
1991年后的企業(yè)數據集成EDW時代
1994年-1996年的數據集市
1996-1997年左右的兩個架構吵架
1998年-2001年左右的合并年代
五個時代劃分是以重要事件或代表人物為標志嘉赎,比如說在企業(yè)數據集成EDW時代其重要代表人物是Bill Inmon 代表作數據倉庫一書,更重要是他提出了如何建設數據倉庫的指導性意見與原則。他遵循的是自上而下的建設原則术健,這個導致后來數據倉庫在千禧年傳到中國后的幾年內,幾個大實施廠商都是遵守該原則的實施方法萧吠,后來的數據倉庫之路等各種專業(yè)論壇上針對數據倉庫ODS-EDW的結構討論(備注:壇子里有個叫吳君糖声,他發(fā)表了不少這方面的文章)。
在國內項目實施中IBM葵陵、Terdata液荸、埃森哲、菲奈特(被東南收購脱篙,東南后來某些原因而倒閉)等很多專業(yè)廠商在實施中對ODS層娇钱、EDW層都賦予了各種不同的功能與含義(備注:在后邊的架構案例解)伤柄。
在數據集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“文搂,在數據倉庫的建設上Ralph kilmball 提出的是自下而上的建設方法适刀,剛好與Bill Innmon的建設方法相反,這兩種架構方式各有千秋煤蹭,所以就進入了爭吵時代笔喉。
我整理了一個表格是這兩位大師優(yōu)缺點:
(點擊放大圖像)
隨著數據倉庫的不斷實踐與迭代發(fā)展,從爭吵期進入到了合并的時代硝皂,其實爭吵的結果要麼一方妥協(xié)常挚,要麼新的結論出現,果然Bill inmon與 Ralph kilmball的爭吵沒有結論稽物,干脆提出一種新的架構包含對方奄毡,也就是后來Bill Inmon 提出的CIF(corporation information factory) 架構模式、這也算是數據倉庫的第三代架構姨裸,其架構特點是把整個架構劃分為不同層次秧倾,把每一層次的定義與功能都詳細的描述下來,從04年后國內的很多數據倉庫架構傀缩、甚至互聯網剛開始搞數據平臺數據倉庫架構模式也是這一種那先。
(點擊放大圖像)
[圖片上傳中。赡艰。售淡。(6)]
數據倉庫第一代架構
(開發(fā)時間2001-2002年)
海爾集團的一個BI項目,架構的ETL 使用的是 微軟的數據抽取加工工具 DTS慷垮,老人使用過微軟的DTS 知道有哪些弊端揖闸,后便給出了幾個DTS的截圖。
功能:進銷存分析料身、閉環(huán)控制分析汤纸、工貿分析等
硬件環(huán)境:
業(yè)務系統(tǒng)數據庫:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央數據庫服務器:4EXON,2G,480GSCSI
OLAP 服務器:2PIV1GHZ,2G,240GSCSI
開發(fā)環(huán)境:VISUAL BASIC,ASP,SQL SERVER 2000
(點擊放大圖像)
[圖片上傳中。芹血。贮泞。(8)]
(點擊放大圖像)
(點擊放大圖像)
[圖片上傳中。幔烛。啃擦。(10)]
數據倉庫第二代架構
(點擊放大圖像)
這是上海通用汽車的一個數據平臺,別看復雜饿悬,嚴格意義上來講這是一套EDW的架構令蛉、在EDS數據倉庫中采用的是準三范式的建模方式去構建的、大約涉及到十幾種數據源狡恬,建模中按照某一條主線把數據都集成起來
這個數據倉庫平臺計劃三年的時間構建完畢珠叔,第一階段計劃構建統(tǒng)統(tǒng)一生性周期視圖蝎宇、客戶統(tǒng)一視圖的數據,完成對數據質量的摸底與部分實施為業(yè)務分析與信息共享提供基礎平臺运杭。第二階段是完成主要業(yè)務數據集成與視圖統(tǒng)一夫啊,初步實現企業(yè)績效管理。第三階段全面完善企業(yè)級數據倉庫辆憔,實現核心業(yè)務的數據統(tǒng)一撇眯。
在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM(非挖掘集市)中,完成對業(yè)務的支撐虱咧。
數據的ETL 采用datastage 工具開發(fā)(備注 大約06年我寫了國內最早的版本datastage 指南 大約190頁叫“datastage 學習版文檔”熊榛。后來沒再堅持下來)。
數據集市架構
(點擊放大圖像)
(點擊放大圖像)
[圖片上傳中腕巡。玄坦。。(13)]
這個是國內某銀行的一套數據集市绘沉,這是一個典型數據集市的架構模式煎楣、面向客戶經理部門的考慮分析。
數據倉庫混合性架構(Cif)
(點擊放大圖像)
[圖片上傳中车伞。择懂。。(14)]
(點擊放大圖像)
[圖片上傳中另玖。困曙。。(15)]
這是太平洋保險的數據平臺谦去,目前為止我認識的很多人都在該項目中呆過慷丽,當然是保險類的項目。
回過頭來看該平臺架構顯然是一個混合型的數據倉庫架構鳄哭。它有混合數據倉庫的經典結構要糊,每一個層次功能定義的非常明確。
ODS層 支撐單一的客戶視圖妆丘,是一個偏操作行的做唯一客戶識別的锄俄,同時提供高可用戶性客戶主信息查詢。
EDW層基于IIW(IBM的通用模型去整理與實施)最細粒度飘痛、原子珊膜、含歷史的數據容握,也支持查詢宣脉。
各業(yè)務數據集市(DM) 面向詳細業(yè)務,采用雪花/星型模型去做設計的支撐OLAP剔氏、Report塑猖、儀表盤等數據展現方式竹祷。
新一代架構OPDM 操作型數據集市(倉庫)
OPDM大約是在2011年提出來的,嚴格上來說羊苟,OPDM 操作型數據集市(倉庫)是實時數據倉庫的一種塑陵,他更多的是面向操作型數據而非歷史數據查詢與分析。
在這里很多人會問到什么是操作型數據蜡励?首先來看操作型數據支持的企業(yè)日常運作的比如財務系統(tǒng)令花、Crm系統(tǒng)、營銷系統(tǒng)生產系統(tǒng)凉倚,通過某一種機制實時的把這些數據在各孤島數據按照業(yè)務的某個層次有機的自動化整合在一起兼都,提供業(yè)務監(jiān)控與指導。在2016年的今天看來OPDM在互聯網很多企業(yè)已經實現了稽寒,但是在當時的技術上還是稍微困難點的扮碧。
下篇,我們將講述非互聯網數據平臺的核心數據模型杏糙。敬請關注慎王;
關于作者
松子(李博源) ,自由撰稿人宏侍,數據產品&數據分析總監(jiān)赖淤。2000年開始數據領域,從業(yè)傳統(tǒng)制造業(yè)负芋、銀行漫蛔、保險、第三方支付&互聯網金融旧蛾、在線旅行莽龟、移動互聯網行業(yè) ; 個人沉淀在大數據產品锨天、大數據分析毯盈、數據模型領域;歡迎關注個人微信訂閱號:songzi2016病袄。
data-platfor2-part01
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第二篇(共四篇)搂赋,本系列以獨特的視角,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)益缠。是對數據平臺發(fā)展的一個回憶脑奠,對非互聯網、互聯網幅慌,從數據平臺的用戶角度宋欺、數據架構演進、模型等進行了闡述。
前言齿诞,”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞酸休,在數據庫設計、數據倉庫祷杈、數據挖掘上斑司、業(yè)務里都存在,聚焦一下但汞,這里提到的是數據平臺中的”數據模型“宿刮。 這是一個非常的抽象詞,個人也很難用簡單語言把他描述出來私蕾,這一章也是整個系列中較為抽象的一章節(jié)糙置,同時這個章節(jié)將會回答非互聯網數據平臺數據模型是什么?如何需要數據模型是目?如何簡單的建設谤饭?
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念,對業(yè)務的數據按照某種規(guī)則進行有效組織并滿足業(yè)務需求懊纳。
相關廠商內容
關于紅包揉抵、SSD云盤等核心技術集錦!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規(guī)劃這樣設計
在構建過程中茂缚,有一個角色理解業(yè)務并探索分散在各系統(tǒng)間的數據戏罢,并通過某條業(yè)務主線把這些分散在各角落的數據串聯并存儲同時讓業(yè)務使用,在設計時苦逼的地方除了考慮業(yè)務數據結構要素外脚囊,還得考慮可操作性龟糕、約束性(備注 約束性是完成數據質量提升的一個關鍵要素,未來新話題主題會討論這些)悔耘,這個既要顧業(yè)務讲岁、數據源、合理的整合的角色是數據模型設計師衬以,又叫數據模型師缓艳。
非互聯網時代的數據模型是一個高度智慧業(yè)務抽象結晶,數據模型是整個系統(tǒng)建設過程的導航圖看峻。
(點擊放大圖像)
平臺中模型設計所關注的是企業(yè)分散在各角落數據阶淘、未知的商業(yè)模式與未知的分析報表,通過模型的步驟互妓,理解業(yè)務并結合數據整合分析溪窒,建立數據模型為Data cleaning 指定清洗規(guī)則分井、為源數據與目標提供ETL mapping (備注:ETL 代指數據從不同源到數據平臺的整個過程,ETL Mapping 可理解為 數據加工算法霉猛,給數碼看的,互聯網與非互聯網此處差異性也較為明顯珠闰,非互聯網數據平臺對ETL定義與架構較為復雜)支持惜浅、 理清數據與數據之間的關系。(備注:Data cleaning 是指的數據清洗 數據質量相關不管是在哪個行業(yè)伏嗜,是最令人頭痛的問題坛悉,分業(yè)務域、技術域的數據質量問題承绸,需要通過事前盤點裸影、事中監(jiān)控、事后調養(yǎng)军熏,有機會在闡述)轩猩。
大家來看一張較為嚴謹的數據模型關系圖:
(點擊放大圖像)
[圖片上傳中。荡澎。均践。(3)]
數據模型是整個數據平臺的數據建設過程的導航圖。
有利于數據的整合摩幔。數據模型是整合各種數據源指導圖彤委,對現有業(yè)務與數據從邏輯層角度進行了全面描述,通過數據模型或衡,可以建立業(yè)務系統(tǒng)與數據之間的映射與轉換關系焦影。排除數據描述的不一致性。如:同名異義封断、同物異名..斯辰。
減少多余冗余數據,因為了解數據之間的關系坡疼,以及數據的作用椒涯。在數據平臺中根據需求采集那些用于分析的數據,而不需要那些純粹用于操作的數據回梧。
在面對企業(yè)復雜業(yè)務與成千上萬的數據項進行設計時废岂,沒有哪個牛逼的人都記得住的,所以出現了按照某種層次規(guī)則去有組織并抽象與管理易用狱意,由此誕生了概念模型湖苞、邏輯模型、物理模型 (備注 數據平臺數據模型详囤,而非數據挖掘的模型)财骨。
數據模型在數據平臺的數據倉庫中是一個統(tǒng)稱镐作,嚴格上來講分為概念模型、邏輯模型隆箩、物理模型该贾。(備注:四類模型如何去詳細構建文本不深講,關于非互聯網企業(yè)的數據模型網上非常多)
(點擊放大圖像)
[圖片上傳中捌臊。杨蛋。。(4)]
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代“提到兩位大師的架構與爭論理澎,進一步聚焦來說逞力,爭論點我的認為其實是在數據模型的支持上,Bill Inmon的EDW的原則是準三范式的設計糠爬、Ralph kilmbal是星型結構寇荧。
Bill Inmon對EDW 的定義是面向事物處理管嬉、面向數據管理怯伊,從數據的特征上需要堅持維護最細粒度的數據、維護最微觀層次的數據關系却邓、保存數據歷史镀琉。所以在構建完畢的數據平臺中可以從中映射并檢查業(yè)務信息的完整性(同時也是養(yǎng)數據過程中的重要反饋點)捅膘,這種方式還可以找出多個系統(tǒng)相關和重合的信息,減少多個系統(tǒng)之間數據的重復定義和不一致性滚粟,減小了應用集成的難度寻仗。
(點擊放大圖像)
[圖片上傳中。凡壤。署尤。(5)]
(點擊放大圖像)
[圖片上傳中。亚侠。曹体。(6)]
該建設方式的要點是首先建立各個數據源業(yè)務的實體關系、然后再根據保存的主子實體關系硝烂、存儲性能做優(yōu)化箕别。
Ralph kilmball 對DM(備注:數據集市,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented)滞谢,因為這個模型對業(yè)務用戶非常容易理解串稀,同時為了查詢也是做了專門的性能優(yōu)化。所以星型狮杨、雪花模型很直觀比較高性能為用戶提供查詢分析母截。
(點擊放大圖像)
[圖片上傳中。橄教。清寇。(7)]
該方式的建模首先確定用戶需求問題與業(yè)務需求數據粒度喘漏,構建分析所需要的維度、與度量值形成星型模型华烟;(備注 涉及的復雜維度翩迈、退化維度等不在這個討論范圍)。
數據模型的業(yè)務建模階段盔夜、領域概念模型階段负饲、邏輯模型階段、物理模型階段是超級學術與復雜的話題比吭,而且在模型領域根據特點又分主數據(MDM)、CIF(企業(yè)級統(tǒng)一視圖) 姨涡、通用模型(IBM 的金融衩藤、保險行業(yè)通用模型、 Teradata的 金融通用模型涛漂、 電信移動通用模型等)赏表,鎖涉及到術語”擴展“、”扁平化“匈仗、”裁剪“等眼花繚亂的建模手法瓢剿,數據模型不同層次ODS、DWDDWD悠轩、DW间狂、ST的分層目的不同導致模型設計方法又不同。相信業(yè)界有很多大牛能講的清楚的火架,以后有機會再交流鉴象。
(點擊放大圖像)
[圖片上傳中。何鸡。纺弊。(8)]
(點擊放大圖像)
[圖片上傳中。骡男。淆游。(9)]
(點擊放大圖像)
[圖片上傳中。隔盛。犹菱。(10)]
(點擊放大圖像)
[圖片上傳中。吮炕。已亥。(11)]
本文帶大家回憶了歷史非互聯網的數據平臺發(fā)展與核心模型特點,當然數據平臺的發(fā)展不是一步到位的来屠,是經過無數人的智慧虑椎、努力反復迭代而逐漸演進的震鹉。
非互聯網企業(yè)的數據平臺發(fā)展,每一代的平臺架構中的結構都是及其復雜的捆姜,比如ETL架構传趾、數據模型架構、BD的架構泥技、前端展現浆兰、元數據、數據質量等各方面珊豹,每一部分展開都是一個很深的話題簸呈,有機會再分享給大家。
下篇章將分享給大家互聯網時代的數據平臺店茶,互聯網的數據平臺也就是在07年-08年左右開始迅猛發(fā)展的蜕便,在發(fā)展的初期也是從傳統(tǒng)數據平臺的第三代架構開始演進的,互聯網產品發(fā)展特點是“糙贩幻、快轿腺、猛”,同時數據量的超快速膨脹所帶來的技術變革丛楚,從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐族壳、密集型計算,從而發(fā)展了合適互聯網大數據平臺趣些。
關于作者
松子(李博源)仿荆,自由撰稿人,數據產品&數據分析總監(jiān)坏平。2000年開始數據領域赖歌,從業(yè)傳統(tǒng)制造業(yè)、銀行功茴、保險庐冯、第三方支付&互聯網金融、在線旅行坎穿、移動互聯網行業(yè) 展父; 個人沉淀在大數據產品、大數據分析玲昧、數據模型領域栖茉;歡迎關注個人微信訂閱號:songzi2016。聯網時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第二篇(共四篇)孵延,本系列以獨特的視角吕漂,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)。是對數據平臺發(fā)展的一個回憶尘应,對非互聯網惶凝、互聯網吼虎,從數據平臺的用戶角度、數據架構演進苍鲜、模型等進行了闡述思灰。
前言,”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞混滔,在數據庫設計洒疚、數據倉庫、數據挖掘上坯屿、業(yè)務里都存在油湖,聚焦一下,這里提到的是數據平臺中的”數據模型“领跛。 這是一個非常的抽象詞乏德,個人也很難用簡單語言把他描述出來,這一章也是整個系列中較為抽象的一章節(jié)隔节,同時這個章節(jié)將會回答非互聯網數據平臺數據模型是什么鹅经?如何需要數據模型寂呛?如何簡單的建設怎诫?
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念,對業(yè)務的數據按照某種規(guī)則進行有效組織并滿足業(yè)務需求贷痪。
相關廠商內容
關于紅包幻妓、SSD云盤等核心技術集錦!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規(guī)劃這樣設計
在構建過程中舱沧,有一個角色理解業(yè)務并探索分散在各系統(tǒng)間的數據妹沙,并通過某條業(yè)務主線把這些分散在各角落的數據串聯并存儲同時讓業(yè)務使用,在設計時苦逼的地方除了考慮業(yè)務數據結構要素外熟吏,還得考慮可操作性距糖、約束性(備注 約束性是完成數據質量提升的一個關鍵要素,未來新話題主題會討論這些)牵寺,這個既要顧業(yè)務悍引、數據源、合理的整合的角色是數據模型設計師帽氓,又叫數據模型師趣斤。
非互聯網時代的數據模型是一個高度智慧業(yè)務抽象結晶,數據模型是整個系統(tǒng)建設過程的導航圖黎休。
(點擊放大圖像)
[圖片上傳中浓领。玉凯。。(2)]
平臺中模型設計所關注的是企業(yè)分散在各角落數據镊逝、未知的商業(yè)模式與未知的分析報表壮啊,通過模型的步驟,理解業(yè)務并結合數據整合分析撑蒜,建立數據模型為Data cleaning 指定清洗規(guī)則歹啼、為源數據與目標提供ETL mapping (備注:ETL 代指數據從不同源到數據平臺的整個過程,ETL Mapping 可理解為 數據加工算法座菠,給數碼看的狸眼,互聯網與非互聯網此處差異性也較為明顯,非互聯網數據平臺對ETL定義與架構較為復雜)支持浴滴、 理清數據與數據之間的關系拓萌。(備注:Data cleaning 是指的數據清洗 數據質量相關不管是在哪個行業(yè),是最令人頭痛的問題升略,分業(yè)務域微王、技術域的數據質量問題,需要通過事前盤點品嚣、事中監(jiān)控炕倘、事后調養(yǎng),有機會在闡述)翰撑。
大家來看一張較為嚴謹的數據模型關系圖:
(點擊放大圖像)
數據模型是整個數據平臺的數據建設過程的導航圖罩旋。
有利于數據的整合。數據模型是整合各種數據源指導圖眶诈,對現有業(yè)務與數據從邏輯層角度進行了全面描述涨醋,通過數據模型,可以建立業(yè)務系統(tǒng)與數據之間的映射與轉換關系逝撬。排除數據描述的不一致性浴骂。如:同名異義、同物異名..宪潮。
減少多余冗余數據溯警,因為了解數據之間的關系,以及數據的作用坎炼。在數據平臺中根據需求采集那些用于分析的數據愧膀,而不需要那些純粹用于操作的數據。
在面對企業(yè)復雜業(yè)務與成千上萬的數據項進行設計時谣光,沒有哪個牛逼的人都記得住的檩淋,所以出現了按照某種層次規(guī)則去有組織并抽象與管理易用,由此誕生了概念模型、邏輯模型蟀悦、物理模型 (備注 數據平臺數據模型媚朦,而非數據挖掘的模型)。
數據模型在數據平臺的數據倉庫中是一個統(tǒng)稱日戈,嚴格上來講分為概念模型询张、邏輯模型、物理模型浙炼。(備注:四類模型如何去詳細構建文本不深講份氧,關于非互聯網企業(yè)的數據模型網上非常多)
(點擊放大圖像)
[圖片上傳中。弯屈。蜗帜。(4)]
在“我所經歷的大數據平臺發(fā)展史 上篇 非互聯網時代“提到兩位大師的架構與爭論,進一步聚焦來說资厉,爭論點我的認為其實是在數據模型的支持上厅缺,Bill Inmon的EDW的原則是準三范式的設計、Ralph kilmbal是星型結構宴偿。
Bill Inmon對EDW 的定義是面向事物處理湘捎、面向數據管理,從數據的特征上需要堅持維護最細粒度的數據窄刘、維護最微觀層次的數據關系窥妇、保存數據歷史。所以在構建完畢的數據平臺中可以從中映射并檢查業(yè)務信息的完整性(同時也是養(yǎng)數據過程中的重要反饋點)都哭,這種方式還可以找出多個系統(tǒng)相關和重合的信息秩伞,減少多個系統(tǒng)之間數據的重復定義和不一致性逞带,減小了應用集成的難度欺矫。
(點擊放大圖像)
[圖片上傳中。展氓。穆趴。(5)]
(點擊放大圖像)
[圖片上傳中。遇汞。未妹。(6)]
該建設方式的要點是首先建立各個數據源業(yè)務的實體關系、然后再根據保存的主子實體關系空入、存儲性能做優(yōu)化络它。
Ralph kilmball 對DM(備注:數據集市,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented)歪赢,因為這個模型對業(yè)務用戶非常容易理解化戳,同時為了查詢也是做了專門的性能優(yōu)化。所以星型埋凯、雪花模型很直觀比較高性能為用戶提供查詢分析点楼。
(點擊放大圖像)
[圖片上傳中扫尖。。掠廓。(7)]
該方式的建模首先確定用戶需求問題與業(yè)務需求數據粒度换怖,構建分析所需要的維度、與度量值形成星型模型蟀瞧;(備注 涉及的復雜維度沉颂、退化維度等不在這個討論范圍)。
數據模型的業(yè)務建模階段悦污、領域概念模型階段兆览、邏輯模型階段、物理模型階段是超級學術與復雜的話題塞关,而且在模型領域根據特點又分主數據(MDM)抬探、CIF(企業(yè)級統(tǒng)一視圖) 、通用模型(IBM 的金融帆赢、保險行業(yè)通用模型小压、 Teradata的 金融通用模型、 電信移動通用模型等)椰于,鎖涉及到術語”擴展“怠益、”扁平化“、”裁剪“等眼花繚亂的建模手法瘾婿,數據模型不同層次ODS蜻牢、DWDDWD、DW偏陪、ST的分層目的不同導致模型設計方法又不同抢呆。相信業(yè)界有很多大牛能講的清楚的,以后有機會再交流笛谦。
(點擊放大圖像)
[圖片上傳中抱虐。。饥脑。(8)]
(點擊放大圖像)
[圖片上傳中恳邀。。灶轰。(9)]
(點擊放大圖像)
[圖片上傳中又憨。神汹。。(10)]
(點擊放大圖像)
[圖片上傳中。会宪。。(11)]
本文帶大家回憶了歷史非互聯網的數據平臺發(fā)展與核心模型特點,當然數據平臺的發(fā)展不是一步到位的,是經過無數人的智慧瓤鼻、努力反復迭代而逐漸演進的。
非互聯網企業(yè)的數據平臺發(fā)展贤重,每一代的平臺架構中的結構都是及其復雜的茬祷,比如ETL架構、數據模型架構并蝗、BD的架構祭犯、前端展現、元數據滚停、數據質量等各方面沃粗,每一部分展開都是一個很深的話題,有機會再分享給大家键畴。
下篇章將分享給大家互聯網時代的數據平臺最盅,互聯網的數據平臺也就是在07年-08年左右開始迅猛發(fā)展的,在發(fā)展的初期也是從傳統(tǒng)數據平臺的第三代架構開始演進的起惕,互聯網產品發(fā)展特點是“糙涡贱、快、猛”惹想,同時數據量的超快速膨脹所帶來的技術變革问词,從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐、密集型計算嘀粱,從而發(fā)展了合適互聯網大數據平臺激挪。
關于作者
松子(李博源),自由撰稿人锋叨,數據產品&數據分析總監(jiān)垄分。2000年開始數據領域,從業(yè)傳統(tǒng)制造業(yè)悲柱、銀行锋喜、保險些己、第三方支付&互聯網金融豌鸡、在線旅行、移動互聯網行業(yè) 段标; 個人沉淀在大數據產品涯冠、大數據分析、數據模型領域逼庞;歡迎關注個人微信訂閱號:songzi2016蛇更。//
我所經歷的大數據平臺發(fā)展史(一):非互聯網時代 ? 上篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platform
從”數據倉庫“ 詞開始到現在的“大數據”,中間經歷了太多的知識、架構模式的演進與變革派任,比如說“數據倉庫砸逊、海量數據、大數據”等掌逛。(備注:數據倉庫一般指的是:在相當長的時間內堆積數據师逸,僅僅需要處理大量數據請求中的少部分的系統(tǒng)。數據倉庫不等同于“海量數據” 豆混。恰恰相反篓像,而是其子集。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統(tǒng)皿伺。大數據是海量數據+復雜類型數據基礎上的大分析员辩、高寬帶、大內容)鸵鸥。
數據倉庫在國外的發(fā)展史多年奠滑,大約在98-99年左右進入中國,到現在歷了大約十多年發(fā)展妒穴。到了今天尤其是在非互聯網养叛、互聯網企業(yè)兩個領域數據平臺有顯著的區(qū)別。 本文將以非互聯網時代宰翅、互聯網時代數據平臺發(fā)展角度來講述弃甥。
在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM(非挖掘集市)中,完成對業(yè)務的支撐汁讼。
各業(yè)務數據集市(DM) 面向詳細業(yè)務淆攻,采用雪花/星型模型去做設計的支撐OLAP、Report嘿架、儀表盤等數據展現方式瓶珊。
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第一篇(共四篇),本系列以獨特的視角耸彪,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)伞芹。是對數據平臺發(fā)展的一個回憶,對非互聯網蝉娜、互聯網唱较,從數據平臺的用戶角度、數據架構演進召川、模型等進行了闡述南缓。
前言,這個數據平臺發(fā)展史僅是自己經歷過由傳統(tǒng)數據平臺到互聯網數據平臺發(fā)展一些簡單回憶荧呐,文章引用了歷史項目&平臺規(guī)劃架構汉形,在這里不做更深入描述纸镊。
我是從2000年開始接觸數據倉庫,大約08年開始進入互聯網行業(yè)概疆,那時在互聯網接觸到數據平臺與傳統(tǒng)第三代數據架構還是有很大的類似之處逗威,隨著互聯網的突飛猛進,每一次的技術變革都帶來一場從技術岔冀、架構庵楷、業(yè)務的漸進式變革,到今天互聯網楣颠、非互聯網的數據平臺架構已經差異非常大尽纽。
相關廠商內容
關于紅包、SSD云盤等核心技術集錦童漩!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
如何通過使用 AWS對IT資源實現高級別管控弄贿,并大規(guī)模實現更高級別的安全性?
回顧早期的企業(yè)環(huán)境侧馅,企業(yè)的生產與服務是一個很長周期危尿,導致業(yè)務數據呈現一種粗粒度模式。隨著互聯網的快速滲透從早期的PC終端到“襠下“的 移動終端馁痴,對用戶的需求與服務周期將逐漸的縮短谊娇,業(yè)務量級、數據類型多樣化與存儲的暴增罗晕,對應著技術济欢、架構、業(yè)務呈現出迅猛發(fā)展小渊,相應的數據沉淀與積累也成指數暴漲法褥。
從”數據倉庫“ 詞開始到現在的“大數據”,中間經歷了太多的知識酬屉、架構模式的演進與變革半等,比如說“數據倉庫、海量數據呐萨、大數據”等杀饵。(備注:數據倉庫一般指的是:在相當長的時間內堆積數據,僅僅需要處理大量數據請求中的少部分的系統(tǒng)垛吗。數據倉庫不等同于“海量數據” 凹髓。恰恰相反,而是其子集怯屉。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統(tǒng)蔚舀。大數據是海量數據+復雜類型數據基礎上的大分析、高寬帶锨络、大內容)赌躺。
數據倉庫在國外的發(fā)展史多年,大約在98-99年左右進入中國羡儿,到現在歷了大約十多年發(fā)展礼患。到了今天尤其是在非互聯網、互聯網企業(yè)兩個領域數據平臺有顯著的區(qū)別掠归。 本文將以非互聯網時代缅叠、互聯網時代數據平臺發(fā)展角度來講述。
很多從傳統(tǒng)企業(yè)數據平臺轉到互聯網同學是否有感覺虏冻,非互聯網企業(yè)肤粱、互聯網企業(yè)的數據平臺所面向用戶群體是不同的?這兩類的數據平臺的建設厨相、使用用戶又有變化领曼?數據模型設計又有什么不同呢?
我們先來看用戶群體的區(qū)別蛮穿,下邊整理了2個圖來講述用戶群體相關區(qū)別庶骄。
一、用戶群體
非互聯網數據平臺用戶:
(點擊放大圖像)
企業(yè)的boss践磅、運營的需求主要是依賴于報表单刁、商業(yè)智能團隊的數據分析師去各種分析與挖掘探索;
支撐這些人是ETL開發(fā)工程師府适、數據模型建模幻碱、數據架構師、報表設計人員 细溅,同時這些角色又是數據平臺數據建設與使用方褥傍。
數據平臺的技術框架與工具實現主要有技術架構師、JAVA 開發(fā)等喇聊。
用戶面對是結構化生產系統(tǒng)數據源恍风。
互聯網企業(yè)中員工年齡比非互聯網企業(yè)的要年輕、受教育程度誓篱、對計算機的焦慮程度明顯比傳統(tǒng)企業(yè)要低朋贬、還偶遇其它各方面的緣故,導致了數據平臺所面對用戶群體與非互聯網數據平臺有所差異化窜骄;
互聯網數據平臺的使用與建設方是來自各方面的人锦募,數據平臺又是技術、數據產品推進建設的邻遏。
分析師參與數據平臺直接建設比重增加糠亩。
原有的數據倉庫開發(fā)與模型架構師的職能也從建設平臺轉為服務與咨詢.
用戶面對是數據源多樣化虐骑,比如日志、生產數據庫的數據赎线、視頻廷没、音頻等非結構化數據 。
從這用戶群體角度來說這非互聯網垂寥、互聯網的數據平臺用戶差異性是非常明顯颠黎,互聯網數據平臺中很多理論與名詞都是從傳統(tǒng)數據平臺傳遞過來的,本文將會分別闡述非互聯網滞项、互聯網數據平臺區(qū)別狭归。
(點擊放大圖像)
非互聯網時代
自從數據倉庫發(fā)展起來到現在,基本上可以分為五個時代文判、四種架構(大家可以詳細翻一下數據倉庫的發(fā)展歷史过椎,在這里僅作科普性介紹)
約在1991年前的全企業(yè)集成
1991年后的企業(yè)數據集成EDW時代
1994年-1996年的數據集市
1996-1997年左右的兩個架構吵架
1998年-2001年左右的合并年代
五個時代劃分是以重要事件或代表人物為標志,比如說在企業(yè)數據集成EDW時代其重要代表人物是Bill Inmon 代表作數據倉庫一書律杠,更重要是他提出了如何建設數據倉庫的指導性意見與原則潭流。他遵循的是自上而下的建設原則,這個導致后來數據倉庫在千禧年傳到中國后的幾年內柜去,幾個大實施廠商都是遵守該原則的實施方法灰嫉,后來的數據倉庫之路等各種專業(yè)論壇上針對數據倉庫ODS-EDW的結構討論(備注:壇子里有個叫吳君,他發(fā)表了不少這方面的文章)嗓奢。
在國內項目實施中IBM讼撒、Terdata、埃森哲股耽、菲奈特(被東南收購根盒,東南后來某些原因而倒閉)等很多專業(yè)廠商在實施中對ODS層、EDW層都賦予了各種不同的功能與含義(備注:在后邊的架構案例解)物蝙。
在數據集市年代其代表人物是Ralph kilmball炎滞,他的代表作是”The Data Warehouse Toolkit“,在數據倉庫的建設上Ralph kilmball 提出的是自下而上的建設方法诬乞,剛好與Bill Innmon的建設方法相反册赛,這兩種架構方式各有千秋,所以就進入了爭吵時代震嫉。
我整理了一個表格是這兩位大師優(yōu)缺點:
(點擊放大圖像)
隨著數據倉庫的不斷實踐與迭代發(fā)展森瘪,從爭吵期進入到了合并的時代,其實爭吵的結果要麼一方妥協(xié)票堵,要麼新的結論出現扼睬,果然Bill inmon與 Ralph kilmball的爭吵沒有結論,干脆提出一種新的架構包含對方悴势,也就是后來Bill Inmon 提出的CIF(corporation information factory) 架構模式窗宇、這也算是數據倉庫的第三代架構措伐,其架構特點是把整個架構劃分為不同層次,把每一層次的定義與功能都詳細的描述下來担映,從04年后國內的很多數據倉庫架構废士、甚至互聯網剛開始搞數據平臺數據倉庫架構模式也是這一種叫潦。
(點擊放大圖像)
[圖片上傳中蝇完。。矗蕊。(6)]
數據倉庫第一代架構
(開發(fā)時間2001-2002年)
海爾集團的一個BI項目短蜕,架構的ETL 使用的是 微軟的數據抽取加工工具 DTS,老人使用過微軟的DTS 知道有哪些弊端傻咖,后便給出了幾個DTS的截圖朋魔。
功能:進銷存分析、閉環(huán)控制分析卿操、工貿分析等
硬件環(huán)境:
業(yè)務系統(tǒng)數據庫:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央數據庫服務器:4EXON,2G,480GSCSI
OLAP 服務器:2PIV1GHZ,2G,240GSCSI
開發(fā)環(huán)境:VISUAL BASIC,ASP,SQL SERVER 2000
(點擊放大圖像)
[圖片上傳中警检。。害淤。(8)]
(點擊放大圖像)
(點擊放大圖像)
[圖片上傳中扇雕。。窥摄。(10)]
數據倉庫第二代架構
(點擊放大圖像)
這是上海通用汽車的一個數據平臺镶奉,別看復雜,嚴格意義上來講這是一套EDW的架構崭放、在EDS數據倉庫中采用的是準三范式的建模方式去構建的哨苛、大約涉及到十幾種數據源,建模中按照某一條主線把數據都集成起來
這個數據倉庫平臺計劃三年的時間構建完畢币砂,第一階段計劃構建統(tǒng)統(tǒng)一生性周期視圖建峭、客戶統(tǒng)一視圖的數據,完成對數據質量的摸底與部分實施為業(yè)務分析與信息共享提供基礎平臺决摧。第二階段是完成主要業(yè)務數據集成與視圖統(tǒng)一亿蒸,初步實現企業(yè)績效管理。第三階段全面完善企業(yè)級數據倉庫蜜徽,實現核心業(yè)務的數據統(tǒng)一祝懂。
在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM(非挖掘集市)中,完成對業(yè)務的支撐拘鞋。
數據的ETL 采用datastage 工具開發(fā)(備注 大約06年我寫了國內最早的版本datastage 指南 大約190頁叫“datastage 學習版文檔”砚蓬。后來沒再堅持下來)。
數據集市架構
(點擊放大圖像)
[圖片上傳中盆色。灰蛙。祟剔。(12)]
(點擊放大圖像)
[圖片上傳中。摩梧。物延。(13)]
這個是國內某銀行的一套數據集市,這是一個典型數據集市的架構模式仅父、面向客戶經理部門的考慮分析叛薯。
數據倉庫混合性架構(Cif)
(點擊放大圖像)
[圖片上傳中。笙纤。耗溜。(14)]
(點擊放大圖像)
這是太平洋保險的數據平臺,目前為止我認識的很多人都在該項目中呆過省容,當然是保險類的項目抖拴。
回過頭來看該平臺架構顯然是一個混合型的數據倉庫架構。它有混合數據倉庫的經典結構腥椒,每一個層次功能定義的非常明確阿宅。
ODS層 支撐單一的客戶視圖,是一個偏操作行的做唯一客戶識別的笼蛛,同時提供高可用戶性客戶主信息查詢洒放。
EDW層基于IIW(IBM的通用模型去整理與實施)最細粒度、原子伐弹、含歷史的數據拉馋,也支持查詢。
各業(yè)務數據集市(DM) 面向詳細業(yè)務惨好,采用雪花/星型模型去做設計的支撐OLAP煌茴、Report、儀表盤等數據展現方式日川。
新一代架構OPDM 操作型數據集市(倉庫)
OPDM大約是在2011年提出來的蔓腐,嚴格上來說,OPDM 操作型數據集市(倉庫)是實時數據倉庫的一種龄句,他更多的是面向操作型數據而非歷史數據查詢與分析回论。
在這里很多人會問到什么是操作型數據?首先來看操作型數據支持的企業(yè)日常運作的比如財務系統(tǒng)分歇、Crm系統(tǒng)掺喻、營銷系統(tǒng)生產系統(tǒng)涂邀,通過某一種機制實時的把這些數據在各孤島數據按照業(yè)務的某個層次有機的自動化整合在一起退唠,提供業(yè)務監(jiān)控與指導眯分。在2016年的今天看來OPDM在互聯網很多企業(yè)已經實現了,但是在當時的技術上還是稍微困難點的。
下篇谱净,我們將講述非互聯網數據平臺的核心數據模型窑邦。敬請關注;
關于作者
松子(李博源) 壕探,自由撰稿人冈钦,數據產品&數據分析總監(jiān)。2000年開始數據領域李请,從業(yè)傳統(tǒng)制造業(yè)瞧筛、銀行、保險捻艳、第三方支付&互聯網金融驾窟、在線旅行庆猫、移動互聯網行業(yè) 认轨; 個人沉淀在大數據產品、大數據分析月培、數據模型領域嘁字;歡迎關注個人微信訂閱號:songzi2016。
//
我所經歷的大數據平臺發(fā)展史(一):非互聯網時代 ? 上篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platform
從”數據倉庫“ 詞開始到現在的“大數據”杉畜,中間經歷了太多的知識纪蜒、架構模式的演進與變革,比如說“數據倉庫此叠、海量數據纯续、大數據”等。(備注:數據倉庫一般指的是:在相當長的時間內堆積數據灭袁,僅僅需要處理大量數據請求中的少部分的系統(tǒng)猬错。數據倉庫不等同于“海量數據” 。恰恰相反茸歧,而是其子集倦炒。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統(tǒng)。大數據是海量數據+復雜類型數據基礎上的大分析软瞎、高寬帶逢唤、大內容)。
數據倉庫在國外的發(fā)展史多年涤浇,大約在98-99年左右進入中國鳖藕,到現在歷了大約十多年發(fā)展。到了今天尤其是在非互聯網只锭、互聯網企業(yè)兩個領域數據平臺有顯著的區(qū)別著恩。 本文將以非互聯網時代、互聯網時代數據平臺發(fā)展角度來講述。
在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM(非挖掘集市)中页滚,完成對業(yè)務的支撐召边。
各業(yè)務數據集市(DM) 面向詳細業(yè)務,采用雪花/星型模型去做設計的支撐OLAP裹驰、Report隧熙、儀表盤等數據展現方式。
編者按:本文是松子(李博源)的大數據平臺發(fā)展史系列文章的第一篇(共四篇)幻林,本系列以獨特的視角贞盯,比較了非互聯網和互聯網兩個時代以及傳統(tǒng)與非傳統(tǒng)兩個行業(yè)。是對數據平臺發(fā)展的一個回憶沪饺,對非互聯網躏敢、互聯網,從數據平臺的用戶角度整葡、數據架構演進件余、模型等進行了闡述。
前言遭居,這個數據平臺發(fā)展史僅是自己經歷過由傳統(tǒng)數據平臺到互聯網數據平臺發(fā)展一些簡單回憶啼器,文章引用了歷史項目&平臺規(guī)劃架構,在這里不做更深入描述俱萍。
我是從2000年開始接觸數據倉庫端壳,大約08年開始進入互聯網行業(yè),那時在互聯網接觸到數據平臺與傳統(tǒng)第三代數據架構還是有很大的類似之處枪蘑,隨著互聯網的突飛猛進损谦,每一次的技術變革都帶來一場從技術、架構岳颇、業(yè)務的漸進式變革照捡,到今天互聯網、非互聯網的數據平臺架構已經差異非常大赦役。
相關廠商內容
關于紅包麻敌、SSD云盤等核心技術集錦!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
如何通過使用 AWS對IT資源實現高級別管控掂摔,并大規(guī)模實現更高級別的安全性术羔?
回顧早期的企業(yè)環(huán)境,企業(yè)的生產與服務是一個很長周期叭披,導致業(yè)務數據呈現一種粗粒度模式寥殖。隨著互聯網的快速滲透從早期的PC終端到“襠下“的 移動終端玩讳,對用戶的需求與服務周期將逐漸的縮短,業(yè)務量級嚼贡、數據類型多樣化與存儲的暴增熏纯,對應著技術、架構粤策、業(yè)務呈現出迅猛發(fā)展樟澜,相應的數據沉淀與積累也成指數暴漲。
從”數據倉庫“ 詞開始到現在的“大數據”叮盘,中間經歷了太多的知識秩贰、架構模式的演進與變革,比如說“數據倉庫柔吼、海量數據毒费、大數據”等。(備注:數據倉庫一般指的是:在相當長的時間內堆積數據愈魏,僅僅需要處理大量數據請求中的少部分的系統(tǒng)觅玻。數據倉庫不等同于“海量數據” 。恰恰相反蝌戒,而是其子集串塑。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統(tǒng)。大數據是海量數據+復雜類型數據基礎上的大分析北苟、高寬帶、大內容)打瘪。
數據倉庫在國外的發(fā)展史多年友鼻,大約在98-99年左右進入中國,到現在歷了大約十多年發(fā)展闺骚。到了今天尤其是在非互聯網彩扔、互聯網企業(yè)兩個領域數據平臺有顯著的區(qū)別。 本文將以非互聯網時代僻爽、互聯網時代數據平臺發(fā)展角度來講述虫碉。
很多從傳統(tǒng)企業(yè)數據平臺轉到互聯網同學是否有感覺,非互聯網企業(yè)胸梆、互聯網企業(yè)的數據平臺所面向用戶群體是不同的敦捧?這兩類的數據平臺的建設、使用用戶又有變化碰镜?數據模型設計又有什么不同呢兢卵?
我們先來看用戶群體的區(qū)別,下邊整理了2個圖來講述用戶群體相關區(qū)別绪颖。
一秽荤、用戶群體
非互聯網數據平臺用戶:
(點擊放大圖像)
企業(yè)的boss、運營的需求主要是依賴于報表、商業(yè)智能團隊的數據分析師去各種分析與挖掘探索窃款;
支撐這些人是ETL開發(fā)工程師课兄、數據模型建模、數據架構師晨继、報表設計人員 第喳,同時這些角色又是數據平臺數據建設與使用方。
數據平臺的技術框架與工具實現主要有技術架構師踱稍、JAVA 開發(fā)等曲饱。
用戶面對是結構化生產系統(tǒng)數據源。
互聯網企業(yè)中員工年齡比非互聯網企業(yè)的要年輕珠月、受教育程度扩淀、對計算機的焦慮程度明顯比傳統(tǒng)企業(yè)要低、還偶遇其它各方面的緣故啤挎,導致了數據平臺所面對用戶群體與非互聯網數據平臺有所差異化驻谆;
互聯網數據平臺的使用與建設方是來自各方面的人,數據平臺又是技術庆聘、數據產品推進建設的胜臊。
分析師參與數據平臺直接建設比重增加。
原有的數據倉庫開發(fā)與模型架構師的職能也從建設平臺轉為服務與咨詢.
用戶面對是數據源多樣化伙判,比如日志象对、生產數據庫的數據、視頻宴抚、音頻等非結構化數據 勒魔。
從這用戶群體角度來說這非互聯網、互聯網的數據平臺用戶差異性是非常明顯菇曲,互聯網數據平臺中很多理論與名詞都是從傳統(tǒng)數據平臺傳遞過來的冠绢,本文將會分別闡述非互聯網、互聯網數據平臺區(qū)別常潮。
(點擊放大圖像)
非互聯網時代
自從數據倉庫發(fā)展起來到現在弟胀,基本上可以分為五個時代、四種架構(大家可以詳細翻一下數據倉庫的發(fā)展歷史喊式,在這里僅作科普性介紹)
約在1991年前的全企業(yè)集成
1991年后的企業(yè)數據集成EDW時代
1994年-1996年的數據集市
1996-1997年左右的兩個架構吵架
1998年-2001年左右的合并年代
五個時代劃分是以重要事件或代表人物為標志孵户,比如說在企業(yè)數據集成EDW時代其重要代表人物是Bill Inmon 代表作數據倉庫一書,更重要是他提出了如何建設數據倉庫的指導性意見與原則垃帅。他遵循的是自上而下的建設原則延届,這個導致后來數據倉庫在千禧年傳到中國后的幾年內,幾個大實施廠商都是遵守該原則的實施方法贸诚,后來的數據倉庫之路等各種專業(yè)論壇上針對數據倉庫ODS-EDW的結構討論(備注:壇子里有個叫吳君方庭,他發(fā)表了不少這方面的文章)厕吉。
在國內項目實施中IBM、Terdata械念、埃森哲头朱、菲奈特(被東南收購,東南后來某些原因而倒閉)等很多專業(yè)廠商在實施中對ODS層龄减、EDW層都賦予了各種不同的功能與含義(備注:在后邊的架構案例解)项钮。
在數據集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“希停,在數據倉庫的建設上Ralph kilmball 提出的是自下而上的建設方法烁巫,剛好與Bill Innmon的建設方法相反,這兩種架構方式各有千秋宠能,所以就進入了爭吵時代亚隙。
我整理了一個表格是這兩位大師優(yōu)缺點:
(點擊放大圖像)
隨著數據倉庫的不斷實踐與迭代發(fā)展,從爭吵期進入到了合并的時代违崇,其實爭吵的結果要麼一方妥協(xié)阿弃,要麼新的結論出現,果然Bill inmon與 Ralph kilmball的爭吵沒有結論羞延,干脆提出一種新的架構包含對方渣淳,也就是后來Bill Inmon 提出的CIF(corporation information factory) 架構模式、這也算是數據倉庫的第三代架構伴箩,其架構特點是把整個架構劃分為不同層次入愧,把每一層次的定義與功能都詳細的描述下來,從04年后國內的很多數據倉庫架構赛蔫、甚至互聯網剛開始搞數據平臺數據倉庫架構模式也是這一種砂客。
(點擊放大圖像)
[圖片上傳中。呵恢。。(6)]
數據倉庫第一代架構
(開發(fā)時間2001-2002年)
海爾集團的一個BI項目媚创,架構的ETL 使用的是 微軟的數據抽取加工工具 DTS渗钉,老人使用過微軟的DTS 知道有哪些弊端,后便給出了幾個DTS的截圖钞钙。
功能:進銷存分析鳄橘、閉環(huán)控制分析、工貿分析等
硬件環(huán)境:
業(yè)務系統(tǒng)數據庫:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央數據庫服務器:4EXON,2G,480GSCSI
OLAP 服務器:2PIV1GHZ,2G,240GSCSI
開發(fā)環(huán)境:VISUAL BASIC,ASP,SQL SERVER 2000
(點擊放大圖像)
[圖片上傳中芒炼。瘫怜。。(8)]
(點擊放大圖像)
(點擊放大圖像)
[圖片上傳中本刽。鲸湃。赠涮。(10)]
數據倉庫第二代架構
(點擊放大圖像)
這是上海通用汽車的一個數據平臺,別看復雜暗挑,嚴格意義上來講這是一套EDW的架構笋除、在EDS數據倉庫中采用的是準三范式的建模方式去構建的、大約涉及到十幾種數據源炸裆,建模中按照某一條主線把數據都集成起來
這個數據倉庫平臺計劃三年的時間構建完畢垃它,第一階段計劃構建統(tǒng)統(tǒng)一生性周期視圖、客戶統(tǒng)一視圖的數據烹看,完成對數據質量的摸底與部分實施為業(yè)務分析與信息共享提供基礎平臺国拇。第二階段是完成主要業(yè)務數據集成與視圖統(tǒng)一,初步實現企業(yè)績效管理惯殊。第三階段全面完善企業(yè)級數據倉庫酱吝,實現核心業(yè)務的數據統(tǒng)一。
在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM(非挖掘集市)中靠胜,完成對業(yè)務的支撐掉瞳。
數據的ETL 采用datastage 工具開發(fā)(備注 大約06年我寫了國內最早的版本datastage 指南 大約190頁叫“datastage 學習版文檔”。后來沒再堅持下來)浪漠。
數據集市架構
(點擊放大圖像)
[圖片上傳中陕习。。址愿。(12)]
(點擊放大圖像)
[圖片上傳中该镣。。响谓。(13)]
這個是國內某銀行的一套數據集市损合,這是一個典型數據集市的架構模式、面向客戶經理部門的考慮分析娘纷。
數據倉庫混合性架構(Cif)
(點擊放大圖像)
[圖片上傳中嫁审。。赖晶。(14)]
(點擊放大圖像)
[圖片上傳中律适。。遏插。(15)]
這是太平洋保險的數據平臺捂贿,目前為止我認識的很多人都在該項目中呆過,當然是保險類的項目胳嘲。
回過頭來看該平臺架構顯然是一個混合型的數據倉庫架構厂僧。它有混合數據倉庫的經典結構,每一個層次功能定義的非常明確了牛。
ODS層 支撐單一的客戶視圖颜屠,是一個偏操作行的做唯一客戶識別的辰妙,同時提供高可用戶性客戶主信息查詢。
EDW層基于IIW(IBM的通用模型去整理與實施)最細粒度汽纤、原子上岗、含歷史的數據,也支持查詢蕴坪。
各業(yè)務數據集市(DM) 面向詳細業(yè)務肴掷,采用雪花/星型模型去做設計的支撐OLAP、Report背传、儀表盤等數據展現方式呆瞻。
新一代架構OPDM 操作型數據集市(倉庫)
OPDM大約是在2011年提出來的,嚴格上來說径玖,OPDM 操作型數據集市(倉庫)是實時數據倉庫的一種痴脾,他更多的是面向操作型數據而非歷史數據查詢與分析。
在這里很多人會問到什么是操作型數據梳星?首先來看操作型數據支持的企業(yè)日常運作的比如財務系統(tǒng)赞赖、Crm系統(tǒng)、營銷系統(tǒng)生產系統(tǒng)冤灾,通過某一種機制實時的把這些數據在各孤島數據按照業(yè)務的某個層次有機的自動化整合在一起前域,提供業(yè)務監(jiān)控與指導。在2016年的今天看來OPDM在互聯網很多企業(yè)已經實現了韵吨,但是在當時的技術上還是稍微困難點的匿垄。
下篇,我們將講述非互聯網數據平臺的核心數據模型归粉。敬請關注椿疗;
關于作者
松子(李博源) ,自由撰稿人糠悼,數據產品&數據分析總監(jiān)届榄。2000年開始數據領域,從業(yè)傳統(tǒng)制造業(yè)倔喂、銀行痒蓬、保險、第三方支付&互聯網金融滴劲、在線旅行、移動互聯網行業(yè) 顾复; 個人沉淀在大數據產品班挖、大數據分析、數據模型領域芯砸;歡迎關注個人微信訂閱號:songzi2016萧芙。