在上篇隨筆《數(shù)據(jù)倉庫開發(fā)之路之一--準(zhǔn)備工作
》中粗略介紹了一下數(shù)據(jù)倉庫項(xiàng)目應(yīng)用中涉及到的一些知識(shí)和工具笛臣,其中涉及到了ETL工具DataStage廉白、BI商務(wù)智能工具BO(Business Objects),這兩款軟件都是一個(gè)工具包的集合乖菱,包含了很多軟件集合的坡锡。
數(shù)據(jù)倉庫整體項(xiàng)目流程是一個(gè)比較復(fù)雜的過程蓬网,設(shè)計(jì)到不少內(nèi)容,從橫向來看鹉勒,一般可以分為:
1)數(shù)據(jù)整合層拳缠,或者稱為操作數(shù)據(jù)層(ODS),根據(jù)項(xiàng)目的需要贸弥,可以選用。
2)數(shù)據(jù)倉庫層海渊,也就是所謂的DW層绵疲。
3)使用BO的Universe設(shè)計(jì)的數(shù)據(jù)庫語義層,相關(guān)于物理表和報(bào)表視圖的隔離層臣疑。
4)使用BO的Infoview設(shè)計(jì)報(bào)表(如Web Intelligence 報(bào)表文檔)盔憨。
其中1、2是數(shù)據(jù)準(zhǔn)備階段讯沈,3郁岩,4是數(shù)據(jù)應(yīng)用階段,準(zhǔn)備階段一般使用ETL工具DataStage和自己編寫的各類存儲(chǔ)過程來實(shí)現(xiàn)缺狠,后面的應(yīng)用階段问慎,主要使用了BO的套件來完成報(bào)表的設(shè)計(jì)及開發(fā)展現(xiàn)等工作。
如一般的橫向開發(fā)流程示意圖如下所示:
在DataStage開發(fā)過程中挤茄,重頭戲是使用DataStage Designer來進(jìn)行各種任務(wù)及任務(wù)序列的設(shè)計(jì)工作如叼,然后利用DataStage Diretor進(jìn)行相關(guān)的調(diào)度設(shè)計(jì)即可。在使用DataStage Designer過程中穷劈,總結(jié)了一下開發(fā)流程笼恰,大致如下所示:
1)設(shè)計(jì)細(xì)粒度的復(fù)制數(shù)據(jù)的Server Job,然后串聯(lián)各類表的Server Job(任務(wù))作為一個(gè)主題的Job Sequence(任務(wù)序列)歇终,最后是串聯(lián)各主題形成一個(gè)大主題的Job Sequence社证。類似于企業(yè)從小組到大部門再到大片區(qū)(或更大集權(quán)部門)的一種向上集權(quán)機(jī)制。這樣的好處是评凝,我們在調(diào)度的時(shí)候追葡,只需要調(diào)度最大一個(gè)Job Sequence即可。
2)建立一個(gè)調(diào)用存儲(chǔ)過程的ETL Job(STP Stage類型)奕短,并記錄結(jié)果辽俗。這個(gè)ETL Job調(diào)用的存儲(chǔ)過程就是我們自定義進(jìn)行數(shù)據(jù)清理加載到數(shù)據(jù)庫的操作,是指從ODS-》DW的數(shù)據(jù)操作篡诽。
3)串聯(lián)形成一個(gè)完整的數(shù)據(jù)倉庫項(xiàng)目Job崖飘,如串聯(lián)1、2點(diǎn)的相關(guān)大主題任務(wù)為ODS->ETL杈女。
4)使用Director創(chuàng)建執(zhí)行時(shí)間及周期朱浴,這樣系統(tǒng)可以自動(dòng)運(yùn)行進(jìn)行相關(guān)的調(diào)度操作了吊圾。
在數(shù)據(jù)倉庫開發(fā)設(shè)計(jì)總,ETL是整個(gè)過程的核心靈魂翰蠢,這里的DataStage做了一部分工作项乒,但是數(shù)據(jù)的清洗和數(shù)據(jù)倉庫加載的操作還需要自己編寫很多存儲(chǔ)過程來完成,以便達(dá)到靈活處理梁沧,方便為何之目的檀何。
這里設(shè)計(jì)到了數(shù)據(jù)倉庫表、視圖等的設(shè)計(jì)以及存儲(chǔ)過程的設(shè)計(jì)編寫操作廷支,因此一般需要遵守好各方面的命名規(guī)則及協(xié)議频鉴,以便達(dá)到方便維護(hù)管理之目的,各種內(nèi)容分門別類好恋拍,對(duì)大量表垛孔、視圖、存儲(chǔ)過程等元數(shù)據(jù)的管理很有幫助施敢。
這里談?wù)凟TL設(shè)計(jì)要點(diǎn):
1)建立表命名周荐、視圖、存儲(chǔ)過程等內(nèi)容的命名規(guī)則僵娃,如數(shù)據(jù)表比較多概作,一般建議采用按用戶名Schema的方式來區(qū)分不同的數(shù)據(jù)層,如操作數(shù)據(jù)層ODS默怨,則可以建立一個(gè)ODS的用戶Schema來進(jìn)行管理仆嗦、數(shù)據(jù)倉庫DW層,則建立DW的用戶Schema來進(jìn)行管理先壕,這樣可以在邏輯以及表的命名空間上(物理上)區(qū)分不同的內(nèi)容瘩扼,實(shí)現(xiàn)性能的最大化。如下面是一種規(guī)則界定:
1)數(shù)據(jù)倉庫中垃僚,表及視圖的命名規(guī)則:表以T
開頭集绰,視圖以V
開頭。下滑線后連接數(shù)據(jù)倉庫主題的拼音縮寫谆棺,如出租主題即為C
栽燕,客運(yùn)主題即為K
,從業(yè)人員主題即為CY
改淑,依此類推碍岔。表名及視圖名稱的主體為漢語拼音,前面兩個(gè)全拼朵夏,后面的以開頭字母為縮寫蔼啦。例如:出租的車輛基本信息表為T_C_CheLiangJBXX
。詳見下表仰猖。
2)如果表數(shù)據(jù)比較少或者基于其他原因考慮捏肢,也可以考慮通過前綴的方式進(jìn)行區(qū)分奈籽,如ODS層的數(shù)據(jù),如使用ODS_T_Accuse鸵赫、ODS_T_QIYEPQ這種方式命名衣屏、DW層常用時(shí)間維度使用DW_DIM_TIME、事實(shí)表采用DW_F_H_YUNLIFENXI來表示辩棒,DW業(yè)務(wù)維度采用DW_D_H_DUNWEI來表示狼忱。
3)建立不同的Package來存放不同業(yè)務(wù)范圍的存儲(chǔ)過程,如維度可用PKG_LOAD_DIM來命名一睁、時(shí)間維度可以用PKG_LOAD_DIM_TIME來命名钻弄、事實(shí)表可以用PKG_LOAD_FACT_TAXI來命名等,包體里面的存儲(chǔ)過程要清晰卖局,附帶必要的功能說明,最好在文檔的一個(gè)表格中詳細(xì)說明包體及存儲(chǔ)過程函數(shù)的各種信息双霍,如數(shù)據(jù)庫詳細(xì)說明那樣(PKG是業(yè)務(wù)定義字母砚偶,不同業(yè)務(wù)用不同的區(qū)分)。
4)如果采用不同用戶Schema來區(qū)分不同的數(shù)據(jù)層的做法洒闸,那么需要為DW層染坯、ODS層指定不同的表空間及存儲(chǔ)大小等,以便利用不同物理存儲(chǔ)帶來的性能方面的提升丘逸。
如下面是一個(gè)存儲(chǔ)過程的組織實(shí)例圖:
設(shè)計(jì)好數(shù)據(jù)倉庫的相關(guān)內(nèi)容后单鹿,接著就是需要進(jìn)行另外一個(gè)重要的操作,就是語義設(shè)計(jì)和報(bào)表設(shè)計(jì)了深纲,這兩項(xiàng)工作是通過BO工具進(jìn)行完成仲锄,前期的工作都是為后面兩步進(jìn)行準(zhǔn)備的。
Universe設(shè)計(jì)湃鹊,就是在語義層指定表自己的關(guān)系儒喊,主題的度量值、維之間的層次關(guān)系(以便實(shí)現(xiàn)報(bào)表向上向下鉆取的操作)币呵,Universe設(shè)計(jì)怀愧,其實(shí)就是在報(bào)表的使用對(duì)象和實(shí)際的表對(duì)象之間建立一個(gè)邏輯對(duì)應(yīng)關(guān)系以及隔離關(guān)系。
做好這些余赢,就需要在BO的InfoView里面設(shè)計(jì)好相關(guān)的報(bào)表芯义,通過選定Universe文件后,然后再主界面中拖拉各種維度以及度量值妻柒,就可以很方面的創(chuàng)建各類報(bào)表扛拨,圖表則拖拉報(bào)表模板進(jìn)去,然后拖動(dòng)維度和度量到模板中举塔,加載數(shù)據(jù)就可以實(shí)現(xiàn)報(bào)表的數(shù)據(jù)顯示了鬼癣,如下所示:
先總結(jié)寫到這里陶贼,有心得再繼續(xù)記錄了。