《數(shù)據(jù)倉庫工具箱》讀書筆記(一):維度建模初步

第一章 數(shù)據(jù)倉庫、商業(yè)智能及維度建模初步

一蜓耻、數(shù)據(jù)倉庫與商業(yè)智能的目標(biāo)

1茫舶、方便地保存數(shù)據(jù)
2、數(shù)據(jù)一致性
3刹淌、適應(yīng)變化
4饶氏、及時展現(xiàn)數(shù)據(jù)
5、信息安全
6有勾、數(shù)據(jù)權(quán)威
7疹启、支撐業(yè)務(wù)

二、數(shù)倉管理者的職責(zé)

1蔼卡、理解業(yè)務(wù) 理解用戶
2喊崖、為用戶提供高質(zhì)量、相關(guān)的雇逞、可訪問的信息
3荤懂、維護數(shù)倉/分析環(huán)境

三、維度建奶猎遥基礎(chǔ)知識

1节仿、維度模型和3NF模型包含的數(shù)據(jù)是一樣的,只是維度模型存儲的數(shù)據(jù)更易理解掉蔬,查詢性能更高廊宪,包裝得更靈活
事實表:
2、維度模型中的事實表來自對業(yè)務(wù)過程性能的度量
3女轿、事實表中每行對應(yīng)一個度量事件
4箭启、每行中的數(shù)據(jù)是一個特定級別的細(xì)節(jié)數(shù)據(jù),稱為粒度
5谈喳、事實表通常分為事務(wù)册烈、累計快照、周期快照
6、事實表主鍵通常成為組合鍵
維度表:
7赏僧、維度表包含與業(yè)務(wù)過程度量事件有關(guān)的文本環(huán)境
8大猛、數(shù)倉分析環(huán)境取決于維度屬性的質(zhì)量和深度

四、各種數(shù)倉架構(gòu)

1淀零、Kimball

Kimball

操作型源系統(tǒng)挽绩,就是數(shù)據(jù)的來源,數(shù)據(jù)記錄的最基礎(chǔ)的形式
ETL過程主要是對維度與事實進行劃分驾中,清洗數(shù)據(jù)唉堪,關(guān)注維度表的處理(代理鍵分配等)
前端區(qū)將獲取到元數(shù)據(jù)、報表肩民、分析應(yīng)用等內(nèi)容唠亚,展示時也需要兼顧效率
2、獨立數(shù)據(jù)集市
獨立數(shù)據(jù)集市

這種結(jié)構(gòu)明顯難以保證一致性持痰,但開發(fā)起來會比較快
3灶搜、Inmon
Inmon

原子數(shù)據(jù)保存在滿足3NF的數(shù)據(jù)庫中,這種規(guī)范化的工窍、原子數(shù)據(jù)的倉庫被稱為企業(yè)數(shù)據(jù)倉庫(Enterprise Data Warehouse)
它與Kimball的區(qū)別包括數(shù)據(jù)粒度的不同割卖,可能有些數(shù)據(jù)不是原子級別的,它也不圍繞業(yè)務(wù)展開
4患雏、Kimball+Inmon
Kimball+Inmon

EDW保留三范式規(guī)則鹏溯,但原子數(shù)據(jù)是不聚合的,作為展現(xiàn)區(qū)的數(shù)據(jù)來源

第二章 Kimball維度建模技術(shù)概述

一淹仑、基本概念

1丙挽、收集業(yè)務(wù)需求與數(shù)據(jù)實現(xiàn)
2、維度設(shè)計過程:選擇業(yè)務(wù)過程攻人、聲明粒度取试、確認(rèn)維度悬槽、確認(rèn)事實
3怀吻、業(yè)務(wù)過程是組織完成的操作型活動(訂單、注冊)
4初婆、粒度:事務(wù)表里的每一行表示的是什么
5蓬坡、維度:用于描述環(huán)境
6、事實:對業(yè)務(wù)過程進行度量
7磅叛、靈活擴展:事實粒度一致時可直接創(chuàng)建列屑咳,通過新的維度列關(guān)聯(lián)維度至事實,可以在維度表上簡歷新列添加屬性弊琴,可以使事實表粒度更原子化

二兆龙、事實表技術(shù)基礎(chǔ)

1、事實表行對應(yīng)一個度量事件
2敲董、可加紫皇、半可加是針對維度而言的慰安,部分維度可加的是半可加。
3聪铺、事實表中的外鍵不能存在空值
4化焕、最好保證事實度量是一致的
5、事務(wù)事實表:一行對應(yīng)空間或時間上某點的度量事件铃剔,比如訂單表撒桨、日志表
6、周期快照事實表:每行匯總了發(fā)生在某一周期的多個度量事件键兜,比如一個用戶在一天里的點擊凤类、退出次數(shù)
7、累計快照事實表:每行匯總了發(fā)生在過程開始和結(jié)束之間可預(yù)測步驟內(nèi)的度量事件普气,比如訂單有提單踱蠢、支付、成單棋电、配送茎截、評價的可作為度量的過程
8、無事實事務(wù)表:可能存在某些事件僅僅記錄多維實體赶盔,沒有數(shù)字化的事實
9企锌、聚集事實表:對原子粒度事實表數(shù)據(jù)進行上卷
感覺多數(shù)還是事務(wù)和聚集事實表

三、維度表技術(shù)基礎(chǔ)

1于未、維度表應(yīng)當(dāng)具有單一主鍵列撕攒,它是扁平非規(guī)范表
2、維度表需要主鍵烘浦,可以為維度表生成無語義的整數(shù)型主鍵抖坪,可以借助UDF來進行生成
3、操作型系統(tǒng)中自然鍵不能滿足需求時可以采用持久性超自然鍵
4闷叉、將常用維度退化到事實表中擦俐,清楚地表明沒有關(guān)聯(lián)的維度
5、同一維度可能存在不同的層次握侧,一級城市蚯瞧,二級城市
6、可以建立將不同維度合并到一起的雜項維度品擎,而不要為每個標(biāo)識或?qū)傩远x不同維度
7埋合、雪花維度:低粒度屬性作為輔助表通過屬性鍵連接到基本維度,當(dāng)這一過程中包含多重維度表層次時萄传,建立的多級層次結(jié)構(gòu)被稱為雪花模式
8甚颂、支架維度:被引用的輔助維度成為支架維度,比如銀行賬戶維度可以引用開戶日期維度

四、一致性維度

當(dāng)不同的維度表的屬性具有相同列名和領(lǐng)域內(nèi)容時振诬,稱維度表具有一致性

五瓣铣、緩慢變化維

1、原樣保留
2贷揽、重寫
3棠笑、增加行
4、增加新屬性(列)

六禽绪、處理維度層次關(guān)系

1蓖救、固定深度位置層次,能夠提佛那個可預(yù)測的印屁、快速的查詢性能
2循捺、其他還可能存在可變深度層次、層次橋接雄人、路徑字符屬性可變深度層次从橘,但這些最好向固定深度層次進行統(tǒng)一

七、高級事實表技術(shù)

1础钠、蜈蚣事實表:存在多層次維度外鍵
2恰力、事實表也可分配代理鍵
3、多遍SQL以避免事實表間的連接

八旗吁、高級維度表技術(shù)

1踩萎、聚集事實也可作為維度進行處理(例如金額大于多少的用戶)
2、步驟維度:在日志表里可以為行為順序進行編號很钓,探究行為發(fā)生的過程九默,這個維度叫步驟維度

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嘁字,一起剝皮案震驚了整個濱河市瞭稼,隨后出現(xiàn)的幾起案子潮剪,更是在濱河造成了極大的恐慌,老刑警劉巖袁稽,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件勿璃,死亡現(xiàn)場離奇詭異,居然都是意外死亡运提,警方通過查閱死者的電腦和手機蝗柔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來民泵,“玉大人,你說我怎么就攤上這事槽畔≌蛔保” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鳞尔。 經(jīng)常有香客問我嬉橙,道長,這世上最難降的妖魔是什么寥假? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任市框,我火速辦了婚禮,結(jié)果婚禮上糕韧,老公的妹妹穿的比我還像新娘枫振。我一直安慰自己,他們只是感情好萤彩,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布粪滤。 她就那樣靜靜地躺著,像睡著了一般雀扶。 火紅的嫁衣襯著肌膚如雪杖小。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天愚墓,我揣著相機與錄音予权,去河邊找鬼。 笑死浪册,一個胖子當(dāng)著我的面吹牛伟件,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播议经,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼斧账,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了煞肾?” 一聲冷哼從身側(cè)響起咧织,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎籍救,沒想到半個月后习绢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡蝙昙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年闪萄,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奇颠。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡败去,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出烈拒,到底是詐尸還是另有隱情圆裕,我是刑警寧澤广鳍,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站吓妆,受9級特大地震影響赊时,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜行拢,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一祖秒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧舟奠,春花似錦竭缝、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至晕鹊,卻和暖如春松却,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背溅话。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工晓锻, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人飞几。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓砚哆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親屑墨。 傳聞我的和親對象是個殘疾皇子躁锁,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345