數(shù)據(jù)倉庫中數(shù)據(jù)如何準備璧针,處理嚷炉,發(fā)布,展現(xiàn)

子系統(tǒng)十三:事實表生成系統(tǒng)

事實表擁有組織的度量探橱。維度模型將圍繞這些數(shù)字度量構建申屹。事實表生成系統(tǒng)關注ETL結構化需求以有效地建立三種主要的事實表類型:事務、周期快照和累積快照隧膏。在加載事實表時一個主要的需求是維護相關維度表之間的參照完整性哗讥。

事務事實表生成注意事項

1,事務粒度表示一種以特定時刻定義的度量時間胞枕。即在什么時刻發(fā)生了什么事情杆煞。
2,事務事實表的時間戳要么是一種簡單的日歷粒度外鍵腐泻,要么是一種包含日期/時間戳的日期粒度的外鍵决乎,取決于具體的分析需求。
3派桩,事務事實表描述的事實必須和粒度吻合瑞驱。并且進應該描述在哪個時刻發(fā)生了什么。
4窄坦,通暢事實表應該是時間進行分區(qū)唤反,包含審計鍵凳寺,序列化ID,或者日期彤侍、時間戳列以方便備份或者重新開始加載工作肠缨。

周期快照表

1,周期快照粒度表示一種常規(guī)重復的度量或者度量集合盏阶。類似周報晒奕,月報,年報名斟。
2脑慧,周期快照表應該一個單一日期列,表示整個周期砰盐。
3闷袒,周期快照表的事實必須滿足粒度的要求,僅僅描述適合于所定義周期的時間范圍的度量岩梳。
4囊骤,周期快照通常具有與事務事實表類似的加載特性,插入和更新的過程相同冀值。

累積快照事實表

1也物,累積快照粒度表表示一個有明確的開始和結束的過程的當前發(fā)展狀態(tài)。這些過程持續(xù)時間較短列疗,無法將他歸類到周期快照中滑蚯。例如訂單 就是典型的累積快照示例。
2抵栈,累積快照事實表是一種表示具有良好定義的開始和結束的有限過程的有效方式告材。

子系統(tǒng)十四:代理建適配系統(tǒng)

所有ETL系統(tǒng)都包含一個將輸入事實表行的操作型自然鍵替換為適當?shù)木S度代理鍵的步驟。

維度代理鍵替換事實記錄的操作型自然鍵

1竭讳,鍵查找過程中應對每個輸入的自然鍵或默認值進行匹配创葡。如果查詢過程中,存在一個無法解決的參照完整性錯誤绢慢,則需要反饋這些錯誤到負責處理的ETL過程去解決灿渴。
2,在處理過程中胰舆,輸入事實記錄的每個自然鍵備用正確的當前代理鍵替換骚露。不要將自然鍵保存在事實表行中,事實表僅需要保留唯一的代理鍵缚窿。在所有事實行經(jīng)過全部處理步驟之前不要將輸入數(shù)據(jù)寫入磁盤棘幸。如果可能,所有需要的維度表應當被固定在內(nèi)存中倦零,這樣每個輸入記錄的自然鍵都能夠隨機訪問相關事實行误续。

子系統(tǒng)十五:多值維度橋接表適配系統(tǒng)

某些場景下吨悍,事實表必須支持具有多值的最低粒度事實表維度。當無法直接改變事實表的粒度來支持這種維度蹋嵌,則必須要用橋接表來實現(xiàn)多值維度與事實表的連接育瓜。用于支持可變深度層次。

子系統(tǒng)十六:遲到數(shù)據(jù)處理系統(tǒng)

數(shù)據(jù)倉庫通通常建立于一種理想的狀態(tài)下栽烂,數(shù)據(jù)會按照預定時間到達躏仇。然而各種各樣的原因會導致數(shù)據(jù)延遲到達。這個時候就需要針對遲到數(shù)據(jù)設計一套處理系統(tǒng)腺办。
當用戶無法接受延遲數(shù)據(jù)的時候焰手,ETL系統(tǒng)需要額外的能力以支持此類需求。ETL需要支持兩種環(huán)境怀喉。第一種是支持遲到的類型2維度更新书妻。此時,需要在維度中增加一個具有新代理鍵的修訂客戶行磺送,然后更新所有后續(xù)事實行與客戶表關聯(lián)的外鍵驻子。受影響維度行的有效日期也需要被重置灿意。此外需前向掃描維度以觀察在客戶維度中是否存在任何后續(xù)類型2行估灿,并修改受影響行中的列。
第二中情況當接受數(shù)據(jù)延遲的時候缤剧,如果認為數(shù)據(jù)是有效的馅袁,但是尚未處理的數(shù)據(jù),則應當分配一個新的包含一系列啞元屬性值的新客戶維度行的客戶代理鍵荒辕。

子系統(tǒng)十七:維度管理系統(tǒng)

維度管理系統(tǒng)負責為數(shù)據(jù)倉庫準備和發(fā)布一致性維度汗销。一致性維度是一種被集中管理的資源:每一個一致性維度必須具有單一的、一致性的來源抵窒。維度管理系統(tǒng)包括以下ETL處理:
1弛针,實現(xiàn)在維度設計期間由數(shù)據(jù)管理人員和利益共同體許可的公共描述性標識
2,在新源數(shù)據(jù)產(chǎn)生后李皇,在一致性維度中增加新行削茁,建立新的代理鍵
3,當已經(jīng)存在的維度條目發(fā)生類型2變化時掉房,建立新的代理鍵
4茧跋,在類型1和類型3變化發(fā)生時候,修改涉及到的行卓囚,但是不需要改變代理鍵
5瘾杭,在類型1和類型3變化發(fā)生時候,更新維度的版本號
6哪亿,將更新的維度同事復制到所有事實表提供者

子系統(tǒng)十八:事實提供者系統(tǒng)

事實提供者負責從維度管理器接受一致性維度粥烁。事實提供者的責任更為復雜贤笆,具體包括:
1,從維度管理器接受或下載復制的維度
2讨阻,當維度無法被簡單復制而必須采用本地更新方法的時候苏潜,事實提供者必須處理標識為新的和當前的維度記錄,并在代理鍵流水線中更新當前鍵映射变勇,同時需要處理標識為新的但包含遲填日期的維度記錄
3恤左,將自然鍵替換為正確的代理鍵后,在事實表中增加新行
4搀绣,將那些因為發(fā)生改變而失效的聚集刪除
5飞袋,重新計算受影響的數(shù)據(jù)集
6,確保所有基本和聚集事實表的質(zhì)量链患,這取決于聚集表的正確計算
7巧鸭,將更新后的事實和維度表在線發(fā)布
8,通知用戶數(shù)據(jù)已經(jīng)更新了

子系統(tǒng)十九:數(shù)據(jù)聚集系統(tǒng)

聚集是影響性能最富有戲劇性的方式麻捻。ETL系統(tǒng)需要在不造成重大干擾或消耗大量資源及處理周期的情況下纲仍,有效地建立并使用聚集
聚集的建立需要加入并維護聚集事實表行并縮減聚集事實表需要的維度表。最快的更新策略是增量式更新贸毕,單對維度屬性的主要挑戰(zhàn)可能是需要刪除并重建聚集

子系統(tǒng)二十:OLAP多維數(shù)據(jù)庫建立系統(tǒng)

OLAP服務器以一種更直觀的方式展現(xiàn)維度數(shù)據(jù)郑叠,確保一些分析用戶能夠?qū)?shù)據(jù)進行切片和切塊操作。不要將OLAP服務器當成關系數(shù)據(jù)倉庫的競爭者明棍,但是也不要僅僅將其當成是對關系數(shù)據(jù)倉庫的擴展乡革。

子系統(tǒng)二十一:數(shù)據(jù)傳播管理器

負責將一致的、集成的企業(yè)數(shù)據(jù)從數(shù)據(jù)倉庫展現(xiàn)服務器發(fā)送到器他環(huán)境中以應對特殊目的的ETL過程摊腋。多數(shù)組織需要從展現(xiàn)層獲取數(shù)據(jù)供業(yè)務合作方沸版、客戶以及特定目的的供應商共享。他們需要數(shù)據(jù)倉庫的數(shù)據(jù)能夠滿足特定格式需要的數(shù)據(jù)挖掘工具


數(shù)據(jù)僧 歷史文章

數(shù)據(jù)倉庫-概述-讀書筆記一
數(shù)據(jù)倉庫-DW/BI架構對比-讀書筆記二
數(shù)據(jù)倉庫-事實表/維度表技術-讀書筆記三
維度處理-數(shù)據(jù)倉庫-讀書筆記(四)
數(shù)據(jù)倉庫-高級事實表技術-讀書筆記五
數(shù)據(jù)倉庫-高級維度表技術-讀書筆記六
數(shù)據(jù)倉庫兴蒸,零售業(yè)務舉例视粮,維度模型設計4步驟,讀書筆記(七)
數(shù)據(jù)倉庫-零售業(yè)務舉例維度表設計細節(jié)-讀書筆記(八)
數(shù)據(jù)倉庫-零售業(yè)務舉例如何提高倉庫擴展能力-讀書筆記(九)
數(shù)據(jù)倉庫-零售業(yè)務中庫存如何設計-讀書筆記(十)
如何使用緩慢變化維技術
數(shù)據(jù)倉庫-訂單管理應該注意那些
ETL中前期數(shù)據(jù)分析橙凳、變化數(shù)據(jù)探測蕾殴,數(shù)據(jù)獲取 注意事項
數(shù)據(jù)倉庫基礎概念分享
ETL過程的數(shù)據(jù)清洗和整合
數(shù)據(jù)的準備展現(xiàn)過程中如何處理維度


數(shù)據(jù)僧 參考資料

數(shù)據(jù)倉庫工具箱


如果您覺得我用心了,覺得您有所收獲痕惋,麻煩關注下我吧区宇,您的關注就是我的動力,因為有你值戳,我就不是一個人在前行议谷。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市堕虹,隨后出現(xiàn)的幾起案子卧晓,更是在濱河造成了極大的恐慌芬首,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件逼裆,死亡現(xiàn)場離奇詭異郁稍,居然都是意外死亡,警方通過查閱死者的電腦和手機胜宇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進店門耀怜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人桐愉,你說我怎么就攤上這事财破。” “怎么了从诲?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵左痢,是天一觀的道長。 經(jīng)常有香客問我系洛,道長俊性,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任描扯,我火速辦了婚禮定页,結果婚禮上,老公的妹妹穿的比我還像新娘荆烈。我一直安慰自己拯勉,他們只是感情好竟趾,可當我...
    茶點故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布憔购。 她就那樣靜靜地躺著,像睡著了一般岔帽。 火紅的嫁衣襯著肌膚如雪玫鸟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天犀勒,我揣著相機與錄音屎飘,去河邊找鬼。 笑死贾费,一個胖子當著我的面吹牛钦购,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播褂萧,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼押桃,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了导犹?” 一聲冷哼從身側(cè)響起唱凯,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤羡忘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后磕昼,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卷雕,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年票从,在試婚紗的時候發(fā)現(xiàn)自己被綠了漫雕。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡峰鄙,死狀恐怖蝎亚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情先馆,我是刑警寧澤发框,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站煤墙,受9級特大地震影響梅惯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜仿野,卻給世界環(huán)境...
    茶點故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一铣减、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧脚作,春花似錦葫哗、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至亿扁,卻和暖如春捺典,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背从祝。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工襟己, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人牍陌。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓擎浴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親毒涧。 傳聞我的和親對象是個殘疾皇子贮预,可洞房花燭夜當晚...
    茶點故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容