ER模型:ER(Entity Relationship)實體關(guān)系模型在范式理論上符合3NF。數(shù)據(jù)倉庫中的3NF與OLTP系統(tǒng)中的3NF的區(qū)別在于挑宠,它是站在企業(yè)角度面向主題的抽象势告,而不是針對某個具體業(yè)務(wù)流程的實體對象關(guān)系的抽象哺眯。所以其具有以下幾個特點:
- 需要全面了解企業(yè)業(yè)務(wù)和數(shù)據(jù)旱眯。
- 試試周期非常長泵督。
- 對建模人員的能力要求非常高败京。
采用ER模型建設(shè)數(shù)據(jù)倉庫模型的出發(fā)點是整合數(shù)據(jù)没陡,將各個系統(tǒng)中的數(shù)據(jù)以整個企業(yè)角度按主題進(jìn)行相似性組合和合并,并進(jìn)行一致性處理番甩,為數(shù)據(jù)分析決策服務(wù)侵贵,但是并不能直接用于分析決策。
采用ER模型建模一般分為三個階段:
- 高層模型:一個高度抽象的模型缘薛,描述主要的主題以及主題間的關(guān)系窍育,用于描述企業(yè)的業(yè)務(wù)主題概況。
- 中層模型:在高層模型的基礎(chǔ)上宴胧,細(xì)化主題的數(shù)據(jù)項漱抓。
- 物理模型(也叫底層模型):在中層模型的基礎(chǔ)上,考慮物理存儲恕齐,同時基于性能和平臺特點進(jìn)行物理模型的設(shè)計乞娄,也可能做一些表的合并,分區(qū)的設(shè)計等檐迟。
維度模型:從分析決策的需求出發(fā)構(gòu)建模型补胚,為分析需求服務(wù),因此它重點關(guān)注用戶如何更快速地完成需求分析追迟,同時具有較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能。其典型的代表是星形模型骚腥,以及在一些特殊場景下使用的雪花模型敦间。其設(shè)計分為一下幾個步驟:
- 選擇需要進(jìn)行分析決策的業(yè)務(wù)過程。業(yè)務(wù)過程可以是單個業(yè)務(wù)事件束铭,比如交易的支付廓块、退款等;也可以是某個事件的狀態(tài)契沫,比如當(dāng)前的賬戶余額等带猴;還可以是一系列相關(guān)業(yè)務(wù)事件組成的業(yè)務(wù)流程,具體需要看我們分析的是某些事件發(fā)生情況懈万,還是當(dāng)前狀態(tài)拴清,或是事件流轉(zhuǎn)效率靶病。
- 選擇粒度。在事件分析中口予,我們要預(yù)判所有分析需要細(xì)分的程度娄周,從而決定選擇的粒度。粒度是維度的一個組合沪停。
- 識別維表煤辨。選擇好粒度之后,就需要基于此粒度設(shè)計維表木张,包括緯度屬性众辨,用于分析時進(jìn)行分組和篩選。
- 選擇事實舷礼。確定分析需要衡量的指標(biāo)鹃彻。
Data Vault模型:它是ER模型的衍生,其設(shè)計的出發(fā)點是為了實現(xiàn)數(shù)據(jù)的整合且轨,但不能直接用于數(shù)據(jù)分析決策浮声。
Anchor模型:它對Data Vault模型做了進(jìn)一步規(guī)范化處理,該模型將規(guī)范到6NF,基本變成了k-v結(jié)構(gòu)化模型旋奢。
以上文字均摘抄自:<<大數(shù)據(jù)之路-阿里巴巴大數(shù)據(jù)實踐>>,原書購買鏈接:https://www.amazon.cn/%E5%A4%A7%E6%95%B0%E6%8D%AE%E4%B9%8B%E8%B7%AF-%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%AE%9E%E8%B7%B5-%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E6%95%B0%E6%8D%AE%E6%8A%80%E6%9C%AF%E5%8F%8A%E4%BA%A7%E5%93%81%E9%83%A8/dp/B071GW3JHM/ref=sr_1_1?ie=UTF8&qid=1503497929&sr=8-1&keywords=%E5%A4%A7%E6%95%B0%E6%8D%AE%E4%B9%8B%E8%B7%AF+%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%AE%9E%E8%B7%B5