一、數(shù)據(jù)倉庫的基本定義:
1.數(shù)據(jù)倉庫:簡稱DW或DWH亿絮,是數(shù)據(jù)庫的一種概念上的升級,是為企業(yè)所有級別的決策制定過程麸拄,出于分析性報告和決策支持目的而創(chuàng)建派昧。主要有兩種分類:
(1)操作型數(shù)據(jù)庫,具有的特點:業(yè)務(wù)支撐拢切、細(xì)節(jié)數(shù)據(jù)蒂萎、日常收錄、量少頻率高淮椰,如mysql
(2)分析型數(shù)據(jù)庫五慈,具有的特點:歷史數(shù)據(jù)纳寂、匯總數(shù)據(jù)、定期更新泻拦、量大頻率低毙芜,如hive
2.數(shù)據(jù)倉庫特點:
2.1.面向主題:決策關(guān)心的重點領(lǐng)域,一個主題聪轿,多個操作型數(shù)據(jù)庫
2.2.集成:多個數(shù)據(jù)源→匯總爷肝,具有一致關(guān)聯(lián)性
2.3.相對穩(wěn)定:長期保存,大量查詢陆错,少量更新
2.4.反映歷史變化:幾年以上的數(shù)據(jù)灯抛、過去時間分析、將來預(yù)測
二音瓷、數(shù)據(jù)倉庫的組成和分成:
1.數(shù)據(jù)倉庫的組成:
2.數(shù)據(jù)倉庫的分層:
三对嚼、數(shù)據(jù)倉庫的建模方式
1.建模方法主要有兩種:范式建模與維度建模。
2.第三范式:表中的所有數(shù)據(jù)元素不但要能唯一地被主關(guān)鍵字所標(biāo)識,而且它們之間還必須相互獨立,不能存在其他的函數(shù)關(guān)系绳慎。
第三范式滿足以下三個條件:
(1)每個屬性的值唯一,不具有多義性;
(2)每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分;
(3)每個非主屬性不能依賴于其他關(guān)系中的屬性,因為這樣的話,這種屬性應(yīng)該歸到其他關(guān)系中去
3.維度建模:維度建模的表主要分為兩類纵竖,維度表和事實表。