基本概念
數(shù)據(jù)倉庫總線矩陣
總線矩陣是一個(gè)二維表格挡育,每一行對(duì)應(yīng)一個(gè)業(yè)務(wù)線梢褐,每一列對(duì)應(yīng)一個(gè)維度,每一個(gè)交叉點(diǎn)對(duì)應(yīng)了業(yè)務(wù)和維度的聯(lián)系
時(shí)間維度 | 客戶維度 | *維度 | *維度 | *維度 | |
---|---|---|---|---|---|
*數(shù)據(jù) | ?? | ?? | ?? | ?? | |
*數(shù)據(jù) | ?? | ?? | ?? | ||
*數(shù)據(jù) | ?? | ?? | ?? |
數(shù)據(jù)倉庫模型
-
星型模型☆
是一種非正規(guī)化的結(jié)構(gòu)饼酿,每一個(gè)維度都直接與事實(shí)表相連接运准,存在冗余數(shù)據(jù),為了提高查詢速度和數(shù)據(jù)易用性碰凶。
-
雪花模型??
是一種規(guī)范化的結(jié)構(gòu)暮芭,維度表之間還會(huì)有關(guān)聯(lián)關(guān)系,數(shù)據(jù)沒有冗余欲低,會(huì)導(dǎo)致查詢效率和使用成本提高辕宏。
我們?cè)跇I(yè)務(wù)分析時(shí)使用雪花模型,最終存儲(chǔ)到數(shù)據(jù)倉庫中的是星型模型砾莱。
事實(shí)表
事實(shí)表由度量值和維度值組成瑞筐,度量值反應(yīng)了該業(yè)務(wù)過程涉及的數(shù)字指標(biāo),維度值反應(yīng)了該業(yè)務(wù)過程的維度信息腊瑟。
粒度
原子粒度聚假,聚集事實(shí)表。
一定要從原子粒度開始設(shè)計(jì)闰非。
事實(shí)表中的度量值
-
可加事實(shí)
可以按照與事實(shí)表關(guān)聯(lián)的任一維度進(jìn)行匯總膘格,例如收入。
-
不可加事實(shí)
不能按照任意一個(gè)維度匯總河胎,只能作為篩選條件闯袒,例如比率。
有些不不可加事實(shí)可以通過存儲(chǔ)可加事實(shí)游岳,匯總后再計(jì)算得出政敢。
-
半可加事實(shí)
只能按照特定的維度進(jìn)行匯總,例如庫存胚迫,可以按照倉庫來匯總喷户,但是不能按時(shí)間匯總
事實(shí)表中的維度
存儲(chǔ)外鍵關(guān)聯(lián)維度
退化維度(DD, Degradation dimension)
維度表
維度表對(duì)應(yīng)了一個(gè)維度,它會(huì)包含多個(gè)屬性值访锻,這些屬性值有些是有層次意義的褪尝。
鍵
-
主鍵(PK, Primary Keys)
唯一確定一條數(shù)據(jù),維度表的每一行都有一個(gè)主鍵期犬。
-
自然主鍵(NK, Nature Keys)
是業(yè)務(wù)上一條數(shù)據(jù)的唯一標(biāo)識(shí)河哑,不要直接作為主鍵,應(yīng)該使用代理主鍵龟虎。
-
代理主鍵(surrogate keys)
相對(duì)于自然主鍵得名璃谨,通常使用順序數(shù)字。
-
外鍵(FK, Foreign Keys)
用作關(guān)聯(lián)的建,事實(shí)表中存儲(chǔ)維度表的主鍵作為事實(shí)表的外鍵佳吞。
建模步驟
-
選擇業(yè)務(wù)過程
將業(yè)務(wù)過程轉(zhuǎn)化為一個(gè)事實(shí)表
-
聲明粒度
從原子粒度開始設(shè)計(jì)拱雏,逐步匯總,可以保證不可加事實(shí)的不丟失
-
確定維度
事實(shí)表中哪些是維度底扳,維度包含什么屬性
-
確定事實(shí)
事實(shí)表中哪些是實(shí)時(shí)铸抑,事實(shí)類型
數(shù)據(jù)倉庫分層
ODS層
Operational Data Store,數(shù)據(jù)運(yùn)營層衷模。從其他業(yè)務(wù)系統(tǒng)抽取的數(shù)據(jù)鹊汛,直接存儲(chǔ)。
DW層
Data Warehouse算芯,數(shù)據(jù)倉庫層柒昏,內(nèi)部又劃分為3層。
-
DWD層
Data Warehouse Detail熙揍,數(shù)據(jù)明細(xì)層职祷。
保持和ODS同樣的粒度,提供一定的數(shù)據(jù)質(zhì)量保證届囚。
-
DWM層
Data WareHouse Middle有梆,數(shù)據(jù)中間層。
對(duì)數(shù)據(jù)進(jìn)行輕度聚合意系,生成一系列中間表泥耀。
-
DWS層
Data WareHouse Servce,數(shù)據(jù)服務(wù)層蛔添。
又稱數(shù)據(jù)集市或?qū)挶硖荡撸傻淖侄屋^多,用于OLAP分析等迎瞧。
DIM層
維度表
應(yīng)用層
服務(wù)特定的應(yīng)用夸溶,復(fù)用性不強(qiáng),存儲(chǔ)在響應(yīng)速度較快的存儲(chǔ)引擎凶硅。例如報(bào)表數(shù)據(jù)缝裁。