子系統(tǒng)十三:事實表生成系統(tǒng)
事實表擁有組織的度量探橱。維度模型將圍繞這些數(shù)字度量構建申屹。事實表生成系統(tǒng)關注ETL結構化需求以有效地建立三種主要的事實表類型:事務、周期快照和累積快照隧膏。在加載事實表時一個主要的需求是維護相關維度表之間的參照完整性哗讥。
事務事實表生成注意事項
1,事務粒度表示一種以特定時刻定義的度量時間胞枕。即在什么時刻發(fā)生了什么事情杆煞。
2,事務事實表的時間戳要么是一種簡單的日歷粒度外鍵腐泻,要么是一種包含日期/時間戳的日期粒度的外鍵决乎,取決于具體的分析需求。
3派桩,事務事實表描述的事實必須和粒度吻合瑞驱。并且進應該描述在哪個時刻發(fā)生了什么。
4窄坦,通暢事實表應該是時間進行分區(qū)唤反,包含審計鍵凳寺,序列化ID,或者日期彤侍、時間戳列以方便備份或者重新開始加載工作肠缨。
周期快照表
1,周期快照粒度表示一種常規(guī)重復的度量或者度量集合盏阶。類似周報晒奕,月報,年報名斟。
2脑慧,周期快照表應該一個單一日期列,表示整個周期砰盐。
3闷袒,周期快照表的事實必須滿足粒度的要求,僅僅描述適合于所定義周期的時間范圍的度量岩梳。
4囊骤,周期快照通常具有與事務事實表類似的加載特性,插入和更新的過程相同冀值。
累積快照事實表
1也物,累積快照粒度表表示一個有明確的開始和結束的過程的當前發(fā)展狀態(tài)。這些過程持續(xù)時間較短列疗,無法將他歸類到周期快照中滑蚯。例如訂單 就是典型的累積快照示例。
2抵栈,累積快照事實表是一種表示具有良好定義的開始和結束的有限過程的有效方式告材。
子系統(tǒng)十四:代理建適配系統(tǒng)
所有ETL系統(tǒng)都包含一個將輸入事實表行的操作型自然鍵替換為適當?shù)木S度代理鍵的步驟。
1竭讳,鍵查找過程中應對每個輸入的自然鍵或默認值進行匹配创葡。如果查詢過程中,存在一個無法解決的參照完整性錯誤绢慢,則需要反饋這些錯誤到負責處理的ETL過程去解決灿渴。
2,在處理過程中胰舆,輸入事實記錄的每個自然鍵備用正確的當前代理鍵替換骚露。不要將自然鍵保存在事實表行中,事實表僅需要保留唯一的代理鍵缚窿。在所有事實行經(jīng)過全部處理步驟之前不要將輸入數(shù)據(jù)寫入磁盤棘幸。如果可能,所有需要的維度表應當被固定在內(nèi)存中倦零,這樣每個輸入記錄的自然鍵都能夠隨機訪問相關事實行误续。
子系統(tǒng)十五:多值維度橋接表適配系統(tǒng)
某些場景下吨悍,事實表必須支持具有多值的最低粒度事實表維度。當無法直接改變事實表的粒度來支持這種維度蹋嵌,則必須要用橋接表來實現(xiàn)多值維度與事實表的連接育瓜。用于支持可變深度層次。
子系統(tǒng)十六:遲到數(shù)據(jù)處理系統(tǒng)
數(shù)據(jù)倉庫通通常建立于一種理想的狀態(tài)下栽烂,數(shù)據(jù)會按照預定時間到達躏仇。然而各種各樣的原因會導致數(shù)據(jù)延遲到達。這個時候就需要針對遲到數(shù)據(jù)設計一套處理系統(tǒng)腺办。
當用戶無法接受延遲數(shù)據(jù)的時候焰手,ETL系統(tǒng)需要額外的能力以支持此類需求。ETL需要支持兩種環(huán)境怀喉。第一種是支持遲到的類型2維度更新书妻。此時,需要在維度中增加一個具有新代理鍵的修訂客戶行磺送,然后更新所有后續(xù)事實行與客戶表關聯(lián)的外鍵驻子。受影響維度行的有效日期也需要被重置灿意。此外需前向掃描維度以觀察在客戶維度中是否存在任何后續(xù)類型2行估灿,并修改受影響行中的列。
第二中情況當接受數(shù)據(jù)延遲的時候缤剧,如果認為數(shù)據(jù)是有效的馅袁,但是尚未處理的數(shù)據(jù),則應當分配一個新的包含一系列啞元屬性值的新客戶維度行的客戶代理鍵荒辕。
子系統(tǒng)十七:維度管理系統(tǒng)
維度管理系統(tǒng)負責為數(shù)據(jù)倉庫準備和發(fā)布一致性維度汗销。一致性維度是一種被集中管理的資源:每一個一致性維度必須具有單一的、一致性的來源抵窒。維度管理系統(tǒng)包括以下ETL處理:
1弛针,實現(xiàn)在維度設計期間由數(shù)據(jù)管理人員和利益共同體許可的公共描述性標識
2,在新源數(shù)據(jù)產(chǎn)生后李皇,在一致性維度中增加新行削茁,建立新的代理鍵
3,當已經(jīng)存在的維度條目發(fā)生類型2變化時掉房,建立新的代理鍵
4茧跋,在類型1和類型3變化發(fā)生時候,修改涉及到的行卓囚,但是不需要改變代理鍵
5瘾杭,在類型1和類型3變化發(fā)生時候,更新維度的版本號
6哪亿,將更新的維度同事復制到所有事實表提供者
子系統(tǒng)十八:事實提供者系統(tǒng)
事實提供者負責從維度管理器接受一致性維度粥烁。事實提供者的責任更為復雜贤笆,具體包括:
1,從維度管理器接受或下載復制的維度
2讨阻,當維度無法被簡單復制而必須采用本地更新方法的時候苏潜,事實提供者必須處理標識為新的和當前的維度記錄,并在代理鍵流水線中更新當前鍵映射变勇,同時需要處理標識為新的但包含遲填日期的維度記錄
3恤左,將自然鍵替換為正確的代理鍵后,在事實表中增加新行
4搀绣,將那些因為發(fā)生改變而失效的聚集刪除
5飞袋,重新計算受影響的數(shù)據(jù)集
6,確保所有基本和聚集事實表的質(zhì)量链患,這取決于聚集表的正確計算
7巧鸭,將更新后的事實和維度表在線發(fā)布
8,通知用戶數(shù)據(jù)已經(jīng)更新了
子系統(tǒng)十九:數(shù)據(jù)聚集系統(tǒng)
聚集是影響性能最富有戲劇性的方式麻捻。ETL系統(tǒng)需要在不造成重大干擾或消耗大量資源及處理周期的情況下纲仍,有效地建立并使用聚集
聚集的建立需要加入并維護聚集事實表行并縮減聚集事實表需要的維度表。最快的更新策略是增量式更新贸毕,單對維度屬性的主要挑戰(zhàn)可能是需要刪除并重建聚集
子系統(tǒng)二十:OLAP多維數(shù)據(jù)庫建立系統(tǒng)
OLAP服務器以一種更直觀的方式展現(xiàn)維度數(shù)據(jù)郑叠,確保一些分析用戶能夠?qū)?shù)據(jù)進行切片和切塊操作。不要將OLAP服務器當成關系數(shù)據(jù)倉庫的競爭者明棍,但是也不要僅僅將其當成是對關系數(shù)據(jù)倉庫的擴展乡革。
子系統(tǒng)二十一:數(shù)據(jù)傳播管理器
負責將一致的、集成的企業(yè)數(shù)據(jù)從數(shù)據(jù)倉庫展現(xiàn)服務器發(fā)送到器他環(huán)境中以應對特殊目的的ETL過程摊腋。多數(shù)組織需要從展現(xiàn)層獲取數(shù)據(jù)供業(yè)務合作方沸版、客戶以及特定目的的供應商共享。他們需要數(shù)據(jù)倉庫的數(shù)據(jù)能夠滿足特定格式需要的數(shù)據(jù)挖掘工具
數(shù)據(jù)僧 歷史文章
數(shù)據(jù)倉庫-概述-讀書筆記一
數(shù)據(jù)倉庫-DW/BI架構對比-讀書筆記二
數(shù)據(jù)倉庫-事實表/維度表技術-讀書筆記三
維度處理-數(shù)據(jù)倉庫-讀書筆記(四)
數(shù)據(jù)倉庫-高級事實表技術-讀書筆記五
數(shù)據(jù)倉庫-高級維度表技術-讀書筆記六
數(shù)據(jù)倉庫兴蒸,零售業(yè)務舉例视粮,維度模型設計4步驟,讀書筆記(七)
數(shù)據(jù)倉庫-零售業(yè)務舉例維度表設計細節(jié)-讀書筆記(八)
數(shù)據(jù)倉庫-零售業(yè)務舉例如何提高倉庫擴展能力-讀書筆記(九)
數(shù)據(jù)倉庫-零售業(yè)務中庫存如何設計-讀書筆記(十)
如何使用緩慢變化維技術
數(shù)據(jù)倉庫-訂單管理應該注意那些
ETL中前期數(shù)據(jù)分析橙凳、變化數(shù)據(jù)探測蕾殴,數(shù)據(jù)獲取 注意事項
數(shù)據(jù)倉庫基礎概念分享
ETL過程的數(shù)據(jù)清洗和整合
數(shù)據(jù)的準備展現(xiàn)過程中如何處理維度
數(shù)據(jù)僧 參考資料
數(shù)據(jù)倉庫工具箱
如果您覺得我用心了,覺得您有所收獲痕惋,麻煩關注下我吧区宇,您的關注就是我的動力,因為有你值戳,我就不是一個人在前行议谷。