數(shù)據(jù)倉庫開發(fā)之路之二--概述整個(gè)開發(fā)流程

在上篇隨筆《數(shù)據(jù)倉庫開發(fā)之路之一--準(zhǔn)備工作
》中粗略介紹了一下數(shù)據(jù)倉庫項(xiàng)目應(yīng)用中涉及到的一些知識(shí)和工具笛臣,其中涉及到了ETL工具DataStage廉白、BI商務(wù)智能工具BO(Business Objects),這兩款軟件都是一個(gè)工具包的集合乖菱,包含了很多軟件集合的坡锡。
數(shù)據(jù)倉庫整體項(xiàng)目流程是一個(gè)比較復(fù)雜的過程蓬网,設(shè)計(jì)到不少內(nèi)容,從橫向來看鹉勒,一般可以分為:
1)數(shù)據(jù)整合層拳缠,或者稱為操作數(shù)據(jù)層(ODS),根據(jù)項(xiàng)目的需要贸弥,可以選用。
2)數(shù)據(jù)倉庫層海渊,也就是所謂的DW層绵疲。
3)使用BO的Universe設(shè)計(jì)的數(shù)據(jù)庫語義層,相關(guān)于物理表和報(bào)表視圖的隔離層臣疑。
4)使用BO的Infoview設(shè)計(jì)報(bào)表(如Web Intelligence 報(bào)表文檔)盔憨。

其中1、2是數(shù)據(jù)準(zhǔn)備階段讯沈,3郁岩,4是數(shù)據(jù)應(yīng)用階段,準(zhǔn)備階段一般使用ETL工具DataStage和自己編寫的各類存儲(chǔ)過程來實(shí)現(xiàn)缺狠,后面的應(yīng)用階段问慎,主要使用了BO的套件來完成報(bào)表的設(shè)計(jì)及開發(fā)展現(xiàn)等工作。
如一般的橫向開發(fā)流程示意圖如下所示:



在DataStage開發(fā)過程中挤茄,重頭戲是使用DataStage Designer來進(jìn)行各種任務(wù)及任務(wù)序列的設(shè)計(jì)工作如叼,然后利用DataStage Diretor進(jìn)行相關(guān)的調(diào)度設(shè)計(jì)即可。在使用DataStage Designer過程中穷劈,總結(jié)了一下開發(fā)流程笼恰,大致如下所示:
1)設(shè)計(jì)細(xì)粒度的復(fù)制數(shù)據(jù)的Server Job,然后串聯(lián)各類表的Server Job(任務(wù))作為一個(gè)主題的Job Sequence(任務(wù)序列)歇终,最后是串聯(lián)各主題形成一個(gè)大主題的Job Sequence社证。類似于企業(yè)從小組到大部門再到大片區(qū)(或更大集權(quán)部門)的一種向上集權(quán)機(jī)制。這樣的好處是评凝,我們在調(diào)度的時(shí)候追葡,只需要調(diào)度最大一個(gè)Job Sequence即可。
2)建立一個(gè)調(diào)用存儲(chǔ)過程的ETL Job(STP Stage類型)奕短,并記錄結(jié)果辽俗。這個(gè)ETL Job調(diào)用的存儲(chǔ)過程就是我們自定義進(jìn)行數(shù)據(jù)清理加載到數(shù)據(jù)庫的操作,是指從ODS-》DW的數(shù)據(jù)操作篡诽。
3)串聯(lián)形成一個(gè)完整的數(shù)據(jù)倉庫項(xiàng)目Job崖飘,如串聯(lián)1、2點(diǎn)的相關(guān)大主題任務(wù)為ODS->ETL杈女。
4)使用Director創(chuàng)建執(zhí)行時(shí)間及周期朱浴,這樣系統(tǒng)可以自動(dòng)運(yùn)行進(jìn)行相關(guān)的調(diào)度操作了吊圾。



在數(shù)據(jù)倉庫開發(fā)設(shè)計(jì)總,ETL是整個(gè)過程的核心靈魂翰蠢,這里的DataStage做了一部分工作项乒,但是數(shù)據(jù)的清洗和數(shù)據(jù)倉庫加載的操作還需要自己編寫很多存儲(chǔ)過程來完成,以便達(dá)到靈活處理梁沧,方便為何之目的檀何。
這里設(shè)計(jì)到了數(shù)據(jù)倉庫表、視圖等的設(shè)計(jì)以及存儲(chǔ)過程的設(shè)計(jì)編寫操作廷支,因此一般需要遵守好各方面的命名規(guī)則及協(xié)議频鉴,以便達(dá)到方便維護(hù)管理之目的,各種內(nèi)容分門別類好恋拍,對(duì)大量表垛孔、視圖、存儲(chǔ)過程等元數(shù)據(jù)的管理很有幫助施敢。
這里談?wù)凟TL設(shè)計(jì)要點(diǎn):
1)建立表命名周荐、視圖、存儲(chǔ)過程等內(nèi)容的命名規(guī)則僵娃,如數(shù)據(jù)表比較多概作,一般建議采用按用戶名Schema的方式來區(qū)分不同的數(shù)據(jù)層,如操作數(shù)據(jù)層ODS默怨,則可以建立一個(gè)ODS的用戶Schema來進(jìn)行管理仆嗦、數(shù)據(jù)倉庫DW層,則建立DW的用戶Schema來進(jìn)行管理先壕,這樣可以在邏輯以及表的命名空間上(物理上)區(qū)分不同的內(nèi)容瘩扼,實(shí)現(xiàn)性能的最大化。如下面是一種規(guī)則界定:
1)數(shù)據(jù)倉庫中垃僚,表及視圖的命名規(guī)則:表以T
開頭集绰,視圖以V
開頭。下滑線后連接數(shù)據(jù)倉庫主題的拼音縮寫谆棺,如出租主題即為C
栽燕,客運(yùn)主題即為K
,從業(yè)人員主題即為CY
改淑,依此類推碍岔。表名及視圖名稱的主體為漢語拼音,前面兩個(gè)全拼朵夏,后面的以開頭字母為縮寫蔼啦。例如:出租的車輛基本信息表為T_C_CheLiangJBXX
。詳見下表仰猖。

2)如果表數(shù)據(jù)比較少或者基于其他原因考慮捏肢,也可以考慮通過前綴的方式進(jìn)行區(qū)分奈籽,如ODS層的數(shù)據(jù),如使用ODS_T_Accuse鸵赫、ODS_T_QIYEPQ這種方式命名衣屏、DW層常用時(shí)間維度使用DW_DIM_TIME、事實(shí)表采用DW_F_H_YUNLIFENXI來表示辩棒,DW業(yè)務(wù)維度采用DW_D_H_DUNWEI來表示狼忱。
3)建立不同的Package來存放不同業(yè)務(wù)范圍的存儲(chǔ)過程,如維度可用PKG_LOAD_DIM來命名一睁、時(shí)間維度可以用PKG_LOAD_DIM_TIME來命名钻弄、事實(shí)表可以用PKG_LOAD_FACT_TAXI來命名等,包體里面的存儲(chǔ)過程要清晰卖局,附帶必要的功能說明,最好在文檔的一個(gè)表格中詳細(xì)說明包體及存儲(chǔ)過程函數(shù)的各種信息双霍,如數(shù)據(jù)庫詳細(xì)說明那樣(PKG是業(yè)務(wù)定義字母砚偶,不同業(yè)務(wù)用不同的區(qū)分)。
4)如果采用不同用戶Schema來區(qū)分不同的數(shù)據(jù)層的做法洒闸,那么需要為DW層染坯、ODS層指定不同的表空間及存儲(chǔ)大小等,以便利用不同物理存儲(chǔ)帶來的性能方面的提升丘逸。
如下面是一個(gè)存儲(chǔ)過程的組織實(shí)例圖:

設(shè)計(jì)好數(shù)據(jù)倉庫的相關(guān)內(nèi)容后单鹿,接著就是需要進(jìn)行另外一個(gè)重要的操作,就是語義設(shè)計(jì)和報(bào)表設(shè)計(jì)了深纲,這兩項(xiàng)工作是通過BO工具進(jìn)行完成仲锄,前期的工作都是為后面兩步進(jìn)行準(zhǔn)備的。
Universe設(shè)計(jì)湃鹊,就是在語義層指定表自己的關(guān)系儒喊,主題的度量值、維之間的層次關(guān)系(以便實(shí)現(xiàn)報(bào)表向上向下鉆取的操作)币呵,Universe設(shè)計(jì)怀愧,其實(shí)就是在報(bào)表的使用對(duì)象和實(shí)際的表對(duì)象之間建立一個(gè)邏輯對(duì)應(yīng)關(guān)系以及隔離關(guān)系。



做好這些余赢,就需要在BO的InfoView里面設(shè)計(jì)好相關(guān)的報(bào)表芯义,通過選定Universe文件后,然后再主界面中拖拉各種維度以及度量值妻柒,就可以很方面的創(chuàng)建各類報(bào)表扛拨,圖表則拖拉報(bào)表模板進(jìn)去,然后拖動(dòng)維度和度量到模板中举塔,加載數(shù)據(jù)就可以實(shí)現(xiàn)報(bào)表的數(shù)據(jù)顯示了鬼癣,如下所示:



先總結(jié)寫到這里陶贼,有心得再繼續(xù)記錄了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末待秃,一起剝皮案震驚了整個(gè)濱河市拜秧,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌章郁,老刑警劉巖枉氮,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異暖庄,居然都是意外死亡聊替,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門培廓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來惹悄,“玉大人,你說我怎么就攤上這事肩钠∑郏” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵价匠,是天一觀的道長当纱。 經(jīng)常有香客問我,道長踩窖,這世上最難降的妖魔是什么坡氯? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮洋腮,結(jié)果婚禮上箫柳,老公的妹妹穿的比我還像新娘。我一直安慰自己啥供,他們只是感情好滞时,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著滤灯,像睡著了一般坪稽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鳞骤,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天窒百,我揣著相機(jī)與錄音,去河邊找鬼豫尽。 笑死篙梢,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的美旧。 我是一名探鬼主播渤滞,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼贬墩,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了妄呕?” 一聲冷哼從身側(cè)響起陶舞,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎绪励,沒想到半個(gè)月后肿孵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡疏魏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年停做,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片大莫。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蛉腌,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出只厘,到底是詐尸還是另有隱情烙丛,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布懈凹,位于F島的核電站蜀变,受9級(jí)特大地震影響悄谐,放射性物質(zhì)發(fā)生泄漏介评。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一爬舰、第九天 我趴在偏房一處隱蔽的房頂上張望们陆。 院中可真熱鬧,春花似錦情屹、人聲如沸坪仇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽椅文。三九已至欠气,卻和暖如春钥弯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背耕突。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來泰國打工凌摄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留羡蛾,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓锨亏,卻偏偏與公主長得像痴怨,于是被迫代替她去往敵國和親忙干。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容