退化維度概述
- 退化維度固歪,該技術(shù)減少維度的數(shù)量, 簡(jiǎn)化維度數(shù)據(jù)倉(cāng)庫(kù)模式胯努。 簡(jiǎn)單的模式比復(fù)雜的更容易理解牢裳, 也有更好的查詢性能。
- 有時(shí)叶沛, 維度表中除了業(yè)務(wù)主鍵外沒(méi)有其他內(nèi)容蒲讯。 例如, 在我們的銷售訂單示例中灰署, 訂單維度表除了訂單號(hào)判帮, 沒(méi)有任何其他屬性, 而訂單號(hào)是事務(wù)表的主鍵溉箕。 我們將這種維度稱為退化維度晦墙。 業(yè)務(wù)系統(tǒng)中的主鍵通常是不允許修改的。 銷售訂單只能新增肴茄, 不能修改已經(jīng)存在的訂單號(hào)晌畅, 也不會(huì)刪除訂單記錄。 因此訂單維度表也不會(huì)有歷史數(shù)據(jù)版本問(wèn)題寡痰。 退化維度常見(jiàn)于事務(wù)和累積快照事實(shí)表中抗楔。
- 銷售訂單事實(shí)表中的每行記錄都包括作為退化維度的訂單號(hào)代理鍵。 在操作型系統(tǒng)中拦坠, 銷售訂單表是最細(xì)節(jié)事務(wù)表连躏, 訂單號(hào)是訂單表的主鍵, 每條訂單都可以通過(guò)訂單號(hào)定位贞滨, 訂單中的其他屬性反粥, 如客戶、 產(chǎn)品等, 都依賴于訂單號(hào)才顿。 也就是說(shuō),訂單號(hào)把與訂單屬性有關(guān)的表聯(lián)系起來(lái)尤蒿。 但是郑气, 在維度模型中, 事實(shí)表中的訂單號(hào)代理鍵通常與訂單屬性的其他表沒(méi)有關(guān)聯(lián)腰池。 可以將訂單事實(shí)表所有關(guān)心的屬性分類到不同的維度中尾组, 例如, 訂單日期關(guān)聯(lián)到日期維度示弓, 客戶關(guān)聯(lián)到客戶維度等讳侨。 在事實(shí)表中保留訂單號(hào)最主要的原因是用于連接數(shù)據(jù)倉(cāng)庫(kù)與操作型系統(tǒng), 它也可以起到事實(shí)表主鍵的作用奏属。 某些情況下跨跨, 可能會(huì)有一個(gè)或兩個(gè)屬性仍然屬于訂單而不屬于其他維度。 當(dāng)然囱皿, 此時(shí)訂單維度就不再是退化維度了勇婴。
- 退化維度通常被保留作為操作型事務(wù)的標(biāo)識(shí)符。 實(shí)際上可以將訂單號(hào)作為一個(gè)屬性加入到事實(shí)表中嘱腥。 這樣訂單維度就沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)需要的任何數(shù)據(jù)耕渴, 此時(shí)就可以退化訂單維度。 需要把退化維度的相關(guān)數(shù)據(jù)遷移到事實(shí)表中齿兔, 然后刪除退化的維度橱脸。
- 注意, 操作型事務(wù)中的控制號(hào)碼分苇, 例如添诉, 訂單號(hào)碼、 發(fā)票號(hào)碼组砚、 提貨單號(hào)碼等通常產(chǎn)生空的維度并且表示為事務(wù)事實(shí)表中的退化維度吻商。
退化訂單維度
-
使用維度退化技術(shù)時(shí)先要識(shí)別數(shù)據(jù), 分析從來(lái)不用的數(shù)據(jù)列糟红。 例如艾帐, 訂單維度的order_number列就可能是這樣的一列。 如果用戶想看事務(wù)的細(xì)節(jié)盆偿, 還需要訂單號(hào)柒爸。 因此, 在退化訂單維度前事扭, 要把訂單號(hào)遷移到sales_order_fact事實(shí)表捎稚。
下圖為修改過(guò)的模式:
在實(shí)際開(kāi)發(fā)中,維度的退化,是需要在數(shù)倉(cāng)建模設(shè)計(jì)之前規(guī)劃好的今野,不建議在數(shù)倉(cāng)建設(shè)的途中進(jìn)行退化維度葡公,成本比較高。
按順序執(zhí)行以下四步進(jìn)行維度退化条霜,source_order_dim維度退化催什。
(1)給dw.sale_order_fact表添加order_number;
(2)把source.source_order_dim中的訂單號(hào)遷移到dw.sale_order_fact表中宰睡;
(3)刪除dw.sale_order_fact表中的order_sk蒲凶;
(4)刪除source.source_order_dim表,維度退化完成拆内。
修改定期裝載腳本
- 采用"騰籠換鳥(niǎo)"的方式將dw.sale_order_fact進(jìn)行替換旋圆、重寫(xiě)
腳本如下:
-- 修改dw.sale_order_fact名稱,重命名
alter table dw.sale_order_fact rename to dw.sale_order_fact_old;
-- 創(chuàng)建新表麸恍,添加order_number列
create table
dw.sale_order_fact(
order_number int comment 'order_number',
customer_sk int comment 'customer surrogate key',
product_sk int comment 'product surrogate key',
order_date_sk string comment 'date surrogate key',
request_delivery_date_sk int comment 'request_delivery_date_sk',
order_amount decimal (10 , 2 ) comment'order amount',
order_quantity int comment 'order_quantity'
)
clustered by (order_number)
into 8 buckets
stored as orc tblproperties('transactional'='true');
-- 將數(shù)據(jù)插入到新建的表中
insert into table
dw.sale_order_fact
select
t2.order_number,
t1.customer_sk,
t1.product_sk,
t1.order_date_sk,
t1.request_delivery_date_sk,
t1.order_amount,
t1.order_quantity
from
dw.sale_order_fact_old t1
inner join
source.source_order_dim t2
on
t1.order_sk=t2.order_key;
-- 刪除舊表中的數(shù)據(jù)
drop table dw.sale_order_fact_old;
- 語(yǔ)句說(shuō)明灵巧,語(yǔ)句的策略就是將老的數(shù)據(jù)重新加載到新定義的規(guī)則中。
- 另外需要對(duì)定期裝載腳本進(jìn)行修改或南,不需要再裝載source.source_order_dim了孩等。