//
淺析ODS與EDW關(guān)系(轉(zhuǎn)載)海闊天空新浪博客
http://blog.sina.com.cn/s/blog_54c021fb01017v3k.html
淺析ODS與EDW 關(guān)系
劉智瓊
(中國電信集團廣州研究院廣州510630)
摘要
本文重點介紹了企業(yè)運營數(shù)據(jù)倉儲(ODS)和企業(yè)數(shù)據(jù)倉庫(EDW )的概念媒楼,并對ODS與EDW 之間的關(guān)系翠订,包括兩者相同點與不同點進行了詳盡的對比與闡述,文章還對業(yè)界公認的ODS和EDW 兩種不同建設(shè)方法也分別進行了說明程帕,并給出了作者認為合理的建設(shè)方法该默。
1 前言
ODS(運營數(shù)據(jù)倉儲)與EDW(企業(yè)數(shù)據(jù)倉儲)都是中國電信企業(yè)數(shù)據(jù)架構(gòu)的重要組成部分瞳氓,它們一起構(gòu)成企業(yè)統(tǒng)一數(shù)據(jù)平臺。2007年大多數(shù)省級電信公司都陸續(xù)啟動ODS與EDW的建設(shè)栓袖。經(jīng)調(diào)查發(fā)現(xiàn)匣摘,各省電信公司在兩個系統(tǒng)的建設(shè)過程中對兩個系統(tǒng)在企業(yè)數(shù)據(jù)架構(gòu)中的各自職能與分工存在一定的疑問與困惑,為幫助大家澄清這些疑問與困惑裹刮,本文對ODS與EDW在整個企業(yè)數(shù)據(jù)架構(gòu)中的關(guān)系進行詳盡闡述音榜,包括對兩者相同點的分析、不同點的對比必指。使讀者在對比與分析過程中理解兩者的聯(lián)系與區(qū)別囊咏。同時本文還對ODS與EDW如何建設(shè)的兩種觀點逐一闡述與分析,并給出了相應(yīng)的建議塔橡。
2 企業(yè)數(shù)據(jù)架構(gòu)
EDW主要為企業(yè)提供分析決策服務(wù)。ODS主要實現(xiàn)企業(yè)數(shù)據(jù)整合霜第、共享和準實時運營監(jiān)控等功能葛家,ODS是EDW的一個有益的補充和擴展。生產(chǎn)系統(tǒng)泌类、ODS及EDW之間的數(shù)據(jù)關(guān)系如圖1所示癞谒,
其中.ADB為應(yīng)用數(shù)據(jù)庫;A刃榨、B弹砚、C表示不同類型的數(shù)據(jù)流動:A表示操作環(huán)境中應(yīng)用數(shù)據(jù)庫之間的直接數(shù)據(jù)交換;B表示操作環(huán)境中應(yīng)用數(shù)據(jù)庫之間通過ODS進行數(shù)據(jù)交換;C表示數(shù)據(jù)從操作環(huán)境被抽取到分析環(huán)境枢希。
操作環(huán)境下各生產(chǎn)系統(tǒng)中的運營數(shù)據(jù)通過ETL(抽取桌吃、轉(zhuǎn)換、裝載)過程進人到ODS中苞轿,生產(chǎn)系統(tǒng)之間準實時的數(shù)據(jù)交換由ODS系統(tǒng)完成茅诱,ODS系統(tǒng)同時還將整合好的操作環(huán)境下的運營數(shù)據(jù)通過ETL等方式傳送到EDW中.完成運營數(shù)據(jù)從操作環(huán)境進人到分析環(huán)境的過程。
各生產(chǎn)系統(tǒng)的應(yīng)用數(shù)據(jù)庫搬卒、ODS瑟俭、EDW構(gòu)成了整個企業(yè)數(shù)據(jù)架構(gòu)的主體。下文重點對企業(yè)數(shù)據(jù)架構(gòu)中的ODS和EDW這兩個實體的概念與作用做詳細說明契邀。
2.1 ODS的概念及作用
ODS存儲了運營系統(tǒng)(如OLTP(聯(lián)機事務(wù)處理)系統(tǒng))近實時的詳細數(shù)據(jù)摆寄。ODS的概念最早是由“數(shù)據(jù)倉庫之父”——Bill Inmon提出的。ODS最初引入是為了尋找能滿足快速加載和數(shù)據(jù)整合的性能要求,并且減少面向分析需求的變更和擴充對生產(chǎn)系統(tǒng)影響的解決方案微饥,這一解決方案便是在生產(chǎn)系統(tǒng)和EDW之間增加一個數(shù)據(jù)整合層(也叫做數(shù)據(jù)緩沖層)即ODS锐帜。具有數(shù)據(jù)整合層的作用,是提出ODS概念的主要出發(fā)點畜号。隨著技術(shù)的發(fā)展缴阎,近年來ODS被賦予的功能和作用也得到了延伸,目前業(yè)界普遍認同的觀點是:ODS為企業(yè)原始運營數(shù)據(jù)存儲提供了一個整合平臺简软,它的信息來自于不同的運營型應(yīng)用系統(tǒng)蛮拔。通過數(shù)據(jù)接口,在數(shù)據(jù)整合業(yè)務(wù)規(guī)則作用下,進入ODS的信息是可靠的、可信的痹升。ODS中數(shù)據(jù)的集成建炫、實時特征決定了ODS主要有以下3個作用。
對運營數(shù)據(jù)進行清理整合疼蛾,提高運營數(shù)據(jù)質(zhì)量肛跌,是EDW的一個主要數(shù)據(jù)來源。ODS對生產(chǎn)系統(tǒng)產(chǎn)生的數(shù)據(jù)進行了初步的清洗察郁、過濾和整合衍慎,存儲了較為詳細和全面的企業(yè)運營數(shù)據(jù),ODS中的數(shù)據(jù)不僅具有較高的數(shù)據(jù)質(zhì)量皮钠,而且比OLTP系統(tǒng)更有利于EDW對數(shù)據(jù)進行獲取和進一步的轉(zhuǎn)換稳捆、整合等處理,是EDW的主要數(shù)據(jù)來源之一麦轰。
· 實現(xiàn)跨系統(tǒng)的近實時報表和查詢統(tǒng)計應(yīng)用乔夯。ODS從不同的運營應(yīng)用系統(tǒng)中采集數(shù)據(jù).整合各個系統(tǒng)的共享交易數(shù)據(jù),形成企業(yè)級數(shù)據(jù)的整體視圖款侵。ODS最大的價值是集成了跨系統(tǒng)的數(shù)據(jù)末荐,從而能夠?qū)崿F(xiàn)一些跨系統(tǒng)的報表和查詢統(tǒng)計應(yīng)用。另外新锈,ODS也可以從EDW中獲取自身所需的數(shù)據(jù).如經(jīng)過EDW統(tǒng)計分析后的一些結(jié)果性的數(shù)據(jù)甲脏,可以提供給統(tǒng)計分析人員和業(yè)務(wù)人員進行實時調(diào)用和備查。
· 作為其他生產(chǎn)系統(tǒng)的數(shù)據(jù)同步源壕鹉。ODS捕捉當(dāng)前和近期的交易數(shù)據(jù).?dāng)?shù)據(jù)具有實時性或準實時性剃幌,ODS中的數(shù)據(jù)按照需要可以與運營系統(tǒng)數(shù)據(jù)定期同步。由于ODS中的數(shù)據(jù)是“新”的晾浴。因而可以通過它使數(shù)據(jù)與其他生產(chǎn)系統(tǒng)中的數(shù)據(jù)同步负乡。
2.2 EDW 的概念及作用
EDW依據(jù)企業(yè)的統(tǒng)一標準和規(guī)則對來自于企業(yè)內(nèi)外的分散在不同系統(tǒng)的數(shù)據(jù)進行消除非一致性的集成和標準化處理(即ETL處理),形成企業(yè)數(shù)據(jù)的全面統(tǒng)一視圖脊凰。
EDW采用多維分析和數(shù)據(jù)挖掘等手段抖棘。細分市場和客戶茂腥,支撐市場的經(jīng)營分析、準確決策和快速反應(yīng)能力切省。為各級部門和分析決策人員提供基于部門的和基于企業(yè)的全方位的數(shù)據(jù)和分析服務(wù)最岗。通過EDW,從根本上解決了數(shù)據(jù)分散重復(fù)朝捆、共享困難和信息孤島等問題般渡,充分發(fā)揮了數(shù)據(jù)資源的價值,全面提升了企業(yè)在經(jīng)營決策芙盘、運營管理驯用、業(yè)務(wù)拓展和客戶服務(wù)等方面的支撐能力。EDW中數(shù)據(jù)面向主題儒老、
集成及非易失的特征決定了EDW主要有以下兩個作用蝴乔。
· 為企業(yè)各級的經(jīng)營決策和市場營銷提供及時、精確驮樊、全面的數(shù)據(jù)支持和科學(xué)薇正、方便、體系化的分析工具和使用方法囚衔,為除生產(chǎn)系統(tǒng)以外的管理挖腰、分析等需求提供數(shù)據(jù)支撐,實現(xiàn)業(yè)務(wù)數(shù)據(jù)與分析數(shù)據(jù)的分離佳魔。
解決目前市場等部門信息獲取能力和分析決策手段不能適應(yīng)企業(yè)環(huán)境變化和精確化管理要求的問題曙聂,并通過各種形式的主題,專題分析鞠鲜,支撐針對性營銷、上市信息披露断国、精確化管理.有效降低營銷成本贤姆,減少客戶流失,尋找商機稳衬,達到提升企業(yè)價值的目的霞捡。
3 ODS和EDW 的相同點與不同點
3.1 ODS與EDW的相同點
從ODS與EDW各自的概念與作用可以看出。ODS與EDW具有以下的共同之處薄疚。
· ODS與EDW都是企業(yè)數(shù)據(jù)架構(gòu)中的獨立系統(tǒng)碧信,兩個系統(tǒng)都不是直接產(chǎn)生運營數(shù)據(jù)的系統(tǒng),兩個系統(tǒng)中的數(shù)據(jù)都是由操作環(huán)境的數(shù)據(jù)經(jīng)過抽取街夭、轉(zhuǎn)換砰碴、加載(ETL)的過程而來,還要進行進一步的清理板丽、整合等工作(EDW的數(shù)據(jù)可由ODS加載裝入)呈枉。
· ODS與EDW一樣都既有細粒度的數(shù)據(jù)。也有根據(jù)不同維度匯總的匯總數(shù)據(jù)。
· ODS與EDW上均提供基于跨系統(tǒng)整合后數(shù)據(jù)的報表類應(yīng)用猖辫。
3.2 ODS與EDW之間的差異
雖然ODS與EDW具有一些相似之處.但兩者卻是完全不同的實體酥泞,下面從多個角度對比兩者的不同之處。
(1)使用角色
· ODS主要面向營業(yè)啃憎、渠道等一線生產(chǎn)人員和一線管理人員芝囤,為了實現(xiàn)準實時、跨系統(tǒng)的運營細節(jié)數(shù)據(jù)的查詢辛萍,以獲得細粒度的運營數(shù)據(jù)展現(xiàn)悯姊,例如渠道人員查詢客戶的全視圖信息由ODS提供數(shù)據(jù)支撐。
· EDW主要面向?qū)I(yè)分析人員叹阔、輔助決策支持人員等挠轴,為了實現(xiàn)基于歷史數(shù)據(jù)的統(tǒng)計分析和數(shù)據(jù)挖
掘,以獲得客戶深層次的特征和市場發(fā)展的規(guī)律耳幢,例如專業(yè)分析人員的經(jīng)營狀況趨勢分析由EDW提
供支撐岸晦。
(2)數(shù)據(jù)來源
· ODS需要的大部分運營數(shù)據(jù)直接來源生產(chǎn)系統(tǒng)。 ODS中的部分分析結(jié)果數(shù)據(jù)來源于EDW睛藻,例如客戶
洞察信息等启上。
· EDW需要的運營數(shù)據(jù),如果在ODS中已存在店印,EDW則直接從ODS獲取這部分數(shù)據(jù)冈在。· EDW需要的運營數(shù)據(jù)按摘,如果在ODS中沒有包券,EDW則直接從生產(chǎn)系統(tǒng)獲取這部分數(shù)據(jù)。
(3)數(shù)據(jù)獲取性能和及時性
· ODS支持OLTP類型的數(shù)據(jù)更新炫贤,數(shù)據(jù)更新時間短溅固,數(shù)據(jù)可實現(xiàn)準實時更新,性能與及時性都高于EDW 兰珍。
· EDW中的數(shù)據(jù)一般通過批量加載進入侍郭,數(shù)據(jù)更新速度慢,無法實現(xiàn)準實時更新掠河,數(shù)據(jù)更新時間不足以支持實時的報表和事件監(jiān)控需求亮元。
(4)數(shù)據(jù)架構(gòu)
ODS以關(guān)注生產(chǎn)運營過程的統(tǒng)計與監(jiān)控為主的生產(chǎn)視角主題域方式來組織數(shù)據(jù)。
ODS提供操作數(shù)據(jù)的統(tǒng)計唠摹,主要提供應(yīng)用需要的細粒度運營數(shù)據(jù)爆捞。ODS中也存在部分粗粒度匯總數(shù)據(jù),但匯總的維度少且簡單跃闹。
EDW關(guān)注對歷史數(shù)據(jù)的深層次分析與挖掘.從分析與挖掘的需要出發(fā)按不同主題維度來匯總與組織數(shù)據(jù)嵌削。
EDW提供歷史數(shù)據(jù)的展示和分析毛好,主要提供多層粗粒度匯總數(shù)據(jù).匯總的維度多且復(fù)雜。
(5)數(shù)據(jù)共享能力
ODS為其他生產(chǎn)系統(tǒng)提供運營數(shù)據(jù)的準實時數(shù)據(jù)共享服務(wù)苛秕。
EDW一般不為生產(chǎn)系統(tǒng)提供此類準實時的數(shù)據(jù)共享服務(wù)肌访。系統(tǒng)中的數(shù)據(jù)只供本系統(tǒng)分析與挖掘應(yīng)用使用。
(6)系統(tǒng)提供應(yīng)用數(shù)據(jù)查詢艇劫。
ODS提供生產(chǎn)環(huán)境下的數(shù)據(jù)查詢吼驶,查詢的交易量較小,不耗費太多資源店煞,有確定的完成速度蟹演。而EDW提供分析環(huán)境下的查詢,查詢單元量較大顷蟀,消耗的資源很多酒请,完成的速度也不確定。
固定報表鸣个。
ODS提供生產(chǎn)環(huán)境下實時性較高的生產(chǎn)經(jīng)營報表羞反,而EDW提供分析環(huán)境下的主題分析與挖掘報表。動態(tài)報表囤萤。
ODS提供面向少量維度的細粒度數(shù)據(jù)的統(tǒng)計昼窗,而EDW提供面向多個維度的多層粗粒度數(shù)據(jù)的主題統(tǒng)計、分析及深層次的挖掘涛舍。
ODS提供績效管理和統(tǒng)計澄惊、數(shù)據(jù)質(zhì)量審計和監(jiān)控管理等功能。
EDW提供趨勢分析富雅、客戶消費行為分析和評估等功能掸驱。
(7)數(shù)據(jù)存儲
客戶等關(guān)鍵實體數(shù)據(jù)。ODS長久保存當(dāng)前數(shù)據(jù)没佑,EDW長久保存當(dāng)前與歷史數(shù)據(jù)亭敢。
詳單數(shù)據(jù)。ODS保存1個月到3個月图筹;EDW保存2年。
匯總數(shù)據(jù)让腹。ODS保存3年远剩;EDW保存5年。
其他數(shù)據(jù)骇窍。ODS保存l3個月瓜晤;EDW保存3年。
(8)系統(tǒng)技術(shù)特征
ODS主要面對大并發(fā)用戶數(shù)腹纳、小數(shù)據(jù)量的訪問痢掠,EDW主要面對小并發(fā)用戶數(shù)驱犹、大數(shù)據(jù)量的訪問。
ODS數(shù)據(jù)庫優(yōu)化同時側(cè)重索引和分區(qū)技術(shù)足画;EDW數(shù)據(jù)庫優(yōu)化主要側(cè)重分區(qū)技術(shù)雄驹。
ODS支持OLTP類型和OLAP(聯(lián)機分析處理)類型的數(shù)據(jù)操作,EDW支持OLAP類型的數(shù)據(jù)操作淹辞。
(9)系統(tǒng)可靠性
ODS參與運營.必須保證可靠性医舆。
相對ODS.EDW可以允許有更多的脫機時間。
(1O)系統(tǒng)開放性
因為需要與大量不同硬件象缀、數(shù)據(jù)庫配置的系統(tǒng)相互交換數(shù)據(jù)蔬将。ODS要求比較高的系統(tǒng)開放性。
EDW一般只獲取數(shù)據(jù).而不提供給其他應(yīng)用系統(tǒng)以多種模式直接訪問央星,解決方案上也可采用相對封閉的數(shù)據(jù)庫霞怀、軟硬件平臺。
4 ODS與EDW 建設(shè)方案
從上述ODS與EDW 的分析與對比可知莉给,ODS與EDW是兩個定位與功能完全不同的實體.但在ODS與EDW的實際建設(shè)方式上毙石,業(yè)界又有兩種不同的聲音,一種是以Bill Inmon為代表的認為ODS應(yīng)該作為一個獨立系統(tǒng)單獨建設(shè).另一種是以Ralph Kimball為代表的認為ODS應(yīng)該納入到EDW中.作為EDW的一部分禁谦,在一個獨立系統(tǒng)中統(tǒng)一建設(shè)胁黑。下文對兩種方案逐一進行說明。
Bi11 Inmon在1996年寫的《建立運營數(shù)據(jù)倉儲》一書中正式提出了ODS的概念州泊。Inmon認為分析決策需要基于越來越實時和細節(jié)的運營數(shù)據(jù).同時這些數(shù)據(jù)又必須是集成的和面向主題的.而運營系統(tǒng)和數(shù)據(jù)倉庫均無法滿足相應(yīng)的信息需求丧蘸,因此提出了ODS的概念,并在整個IT支撐體系(即Inmon所說的企業(yè)信息工廠)中增加了獨立的ODS組件遥皂。Bill Inmon提出的兩者建設(shè)架構(gòu)如圖2所示力喷。
從圖2可以看到.ODS的數(shù)據(jù)來自于各個分散的運營系統(tǒng),這些數(shù)據(jù)在獨立的ODS中進行整合.在ODS中形成面向主題的演训、集成的弟孟、易變的、當(dāng)前值的样悟、詳細的運營數(shù)據(jù).按照業(yè)務(wù)需求和性能的要求進行組織存儲.并在ODS建立相應(yīng)的應(yīng)用以滿足業(yè)務(wù)的要求拂募。ODS中整合好的運營數(shù)據(jù)通過ETL處理過程進入到EDW中.ODS與EDW作為兩個獨立的系統(tǒng)分別建設(shè)。
而另外一種觀點的提出者Ralph Kimball認為在技術(shù)發(fā)展的情況下.Bill Inmon認為的ODS單獨存在的理由(ETL的限制無法實現(xiàn)實時數(shù)據(jù)加載窟她、大量細粒度數(shù)據(jù)的存儲陈症、高性能的查詢和7x24 h可靠性的要求.增加了數(shù)據(jù)倉庫的負載.甚至?xí)饠?shù)據(jù)倉庫的崩潰)不成立。Kimball認為震糖,支撐EDW的軟录肯、硬件技術(shù)得到了發(fā)展.大數(shù)據(jù)量存儲的數(shù)據(jù)倉庫技術(shù)已經(jīng)不是問題。也就是說數(shù)據(jù)倉庫系統(tǒng)中存儲細粒度的數(shù)據(jù)也是沒有問題的吊说,ETL的處理速度越來越快论咏,通過高速的ETL工具已經(jīng)可實現(xiàn)以所需要的任何頻度抽取數(shù)據(jù)到EDW中优炬;而且隨著EDW本身的發(fā)展,EDW越變越大.分析更加細節(jié)的客戶行為和更加具體的操作數(shù)據(jù)的需求也在增長.在大多數(shù)情況下.分析挖掘必須基于細粒度數(shù)據(jù)進行厅贪,細粒度的運營數(shù)據(jù)越來越多地在EDW中被使用.因而Kimball認為在這樣的情況下.ODS已經(jīng)沒必要作為一個單獨的系統(tǒng).可看作是數(shù)據(jù)倉庫系統(tǒng)的“前端邊緣”蠢护。他將ODS重定義為EDW中的面向主題的、集成的卦溢、
經(jīng)常擴展的細節(jié)數(shù)據(jù)的存儲區(qū)域糊余。同時Kimball認為把ODS納入到數(shù)據(jù)倉庫的環(huán)境后較其單獨建設(shè)還會給維護者和使用者帶來更大的便利與好處,包括只建立一個單獨的抽取系統(tǒng).減少ETL開發(fā)與維護工作量:運營細節(jié)數(shù)據(jù)在一個統(tǒng)一的系統(tǒng)中存儲.減少數(shù)據(jù)的冗余存儲等单寂。
Kimball提出的兩者建設(shè)架構(gòu)如圖3所示贬芥。
在ODS與EDW 的實際建設(shè)過程中.這兩種觀點都有不同的追隨者.在系統(tǒng)架構(gòu)設(shè)計上都有采用。作者也一度傾向于Kimball的ODS應(yīng)作為EDW的一部分建設(shè)的觀點宣决,但是隨著對ODS與EDW更進一步的研究蘸劈。作者發(fā)現(xiàn)Kimball之所以建議將ODS作為EDW的一個部分建設(shè),更多考慮的是.單一系統(tǒng)的數(shù)據(jù)獲取頻度與大數(shù)據(jù)量細粒度數(shù)據(jù)存儲能力這兩個方面能同時滿足ODS與EDW的需要.但是ODS是否單獨建設(shè)不僅需要考慮單一系統(tǒng)能否實時獲取并存儲大量運營細節(jié)數(shù)據(jù)尊沸。更應(yīng)該考慮單一系統(tǒng)能否高效地同時支持ODS和EDW上的兩種不同類型的前端應(yīng)用威沫。ODS與EDW上需要承載的應(yīng)用是截然不同的,為更高效地支撐兩種不同類型的應(yīng)用洼专,系統(tǒng)應(yīng)采用的硬棒掠、軟件的技術(shù)特點是各不相同的。如果按照Kimball的理論將兩者建立在一個系統(tǒng)中.不是絕對不行.但是和它們分開建設(shè)相比屁商⊙毯埽混合兩種不同類型的工作到同一個系統(tǒng)需要耗費更多的資源和成本,而且更加難以保證服務(wù)水平蜡镶,因此從系統(tǒng)的穩(wěn)定性雾袱、性能、成本等方面綜合考慮官还,原則上作者不建議ODS與EDW建設(shè)在一個系統(tǒng)中芹橡,兩個實體應(yīng)作為兩個獨立系統(tǒng)分開建設(shè)。但對于數(shù)據(jù)規(guī)模不大望伦,EDW 已經(jīng)建設(shè)完成的個別省林说,在EDW數(shù)據(jù)庫產(chǎn)品、硬件設(shè)備屯伞、數(shù)據(jù)實時性及應(yīng)用支撐能力等方面能較好地滿足ODS應(yīng)用支撐的功能及性能要求的前提下述么,作者認為將ODS與EDW合建在一個系統(tǒng)內(nèi)也是切實可行的。
參考文獻
1 lnmon W H著.王志海等譯.?dāng)?shù)據(jù)倉庫(原書第4版).北京:
機械工業(yè)出版社.2006
2 中國電信集團.中國電信CTG-MBOSS EDA分總V1.O規(guī)范.2oo5
3 Baragoin C愕掏,Marini M,Morgan C.Building the operational data store.DB2 UDB IBM Redbook顶伞,2001
4 Kimball R.Relocating the ODS.DBMS Magazine饵撑,1997(10)
5 lnmon B.The operational data store.1nfoDB Magazine剑梳,1995(2)