數(shù)倉總結
數(shù)據(jù)開發(fā)的本質是理解業(yè)務檀轨,設計合適的數(shù)倉結構剥啤,數(shù)據(jù)模型
問題往往是一環(huán)扣一環(huán)的,需要有足夠的技術深度减余,將知識由點連接成面综苔,而不是停留在相互孤立的知識點上。
系統(tǒng)化學習,構建 基礎知識思維導圖 與 系統(tǒng)設計與優(yōu)化最佳實踐如筛。 點的基礎 線的擴展 面的概覽 全局的思考指南
3NF
- 完全函數(shù)依賴
通過 AB 能推出 C堡牡,但是 AB 單獨得不到 C,那么可以說:C 完全依賴于 AB
(學號杨刨,課名)推出 分數(shù)晤柄,但是 單獨用學號 推不出 分數(shù),那么可以說:分數(shù) 完全依賴于(學號妖胀,課名)
- 部分函數(shù)依賴
通過 AB 能推出 C芥颈,通過 單獨的A 或者 單獨的B 也能推出 C,那么可以說:C 部分依賴于 AB
(學號赚抡,課名)推出 姓名爬坑,而還可以通過 學號 直接推出 姓名,那么可以說:姓名 部分依賴于(學號涂臣,課名)
表主鍵(學號盾计,課名),分數(shù)完全依賴于(學號和課名)肉康,但是姓名并不完全依賴于(學號和課名)
- 傳遞函數(shù)依賴
通過 A 得到 B闯估,通過 B 得到 C,但是通過 C 不能得到 A吼和,那么可以說:C 傳遞依賴于 A
通過 學號 推出 系名涨薪,系名 推出 系主任,但是 系主任 不能推出 學號炫乓,那么可以說:系主任 專遞依賴于 學號
https://blog.csdn.net/ytp552200ytp/article/details/108146345
- 1NF
表中每一列必須是不可拆分的最小單元刚夺,每一列原子性
- 2NF
在滿足1NF后, 不存在非主屬性對 key 的部分依賴末捣,即要求表中所有列侠姑,必須依賴與主鍵,不能有任何一列與主鍵沒有關聯(lián)箩做,也就是每一個表只描述一件事
- 3NF
在滿足2NF后莽红,不存在非主屬性對 key 的傳遞依賴 。 要求表中每一列與主鍵直接相關而不是間接相關
0邦邦、緯度建模與星型安吁、雪花模型 與數(shù)倉分層意義
范式建模 | 緯度建模 | |
---|---|---|
角度 | 從全企業(yè)的高度設計3NF | 從分析決策為出發(fā)點構建模型 |
描述 | 用實體加關系描述企業(yè)業(yè)務架構 | 事實表 緯度表 星星模型 雪花模型 |
范式理論 | 3NF 不允許冗余 | 逆3NF 允許冗余 |
面向 | 面向數(shù)據(jù)整理和一致性治理 | 面向業(yè)務,分析 |
復合式的數(shù)據(jù)倉庫架構中,操作型或事務型系統(tǒng)的數(shù)據(jù)源燃辖,通過ETL抽取轉換和加載到數(shù)據(jù)倉庫的ODS層鬼店,然后通過ODS的數(shù)據(jù),利用范式建模方法黔龟,建設原子數(shù)據(jù)的數(shù)據(jù)倉庫EDW妇智,然后基于EDW滥玷,利用維度建模方法建設數(shù)據(jù)集市。
1巍棱、緯度建模理論
在可理解性和性能最為最高目標驅動下惑畴,產(chǎn)生了緯度模型的構造思想
維度建模是一種將數(shù)據(jù)結構化的邏輯設計方法,它將客觀世界劃分為度量(事實)和上下文(維度)拉盾。度量是常常是以數(shù)值形式出現(xiàn)桨菜,事實周圍有上下文包圍著,這種上下文被直觀地分成獨立的邏輯塊捉偏,稱之為維度倒得。它與實體-關系建模有很大的區(qū)別,實體-關系建模是面向應用夭禽,遵循第三范式霞掺,以消除數(shù)據(jù)冗余為目標的設計技術。維度建模是面向分析讹躯,為了提高查詢性能可以增加數(shù)據(jù)冗余菩彬,反規(guī)范化的設計技術
- 便于理解、管理
- 提高查詢性能
- 對稱性
- 可擴展性
1.1潮梯、基本構成要素
事實表骗灶, 緯度表, 維度表和事實表的融合(星型結構)
1.1.1秉馏、事實表
- 事務事實表(Additive Fact)
保存的是最原子的數(shù)據(jù)耙旦,也稱“原子事實表”
- 周期快照事實表(Semi-Additive Fact)
周期快照事實表以具有規(guī)律性的、可預見的時間間隔來記錄事實萝究,時間間隔如每天免都、每月、每年等等
它統(tǒng)計的是間隔周期內(nèi)的度量統(tǒng)計帆竹, 周期快照事實表記錄的是重復的可預測到的時間間隔的事實
周期快照事實表的粒度是每個時間段一條記錄绕娘,通常比事務事實表的粒度要粗,是在事務事實表之上建立的聚集表
周期快照事實表的日期維度通常是記錄時間段的終止日栽连,記錄的事實是這個時間段內(nèi)一些聚集事實值险领。事實表的數(shù)據(jù)一旦插入即不能更改,其更新方式為增量更新秒紧。
- 累計快照事實表(Non-Additive Fact)
http://www.reibang.com/p/453afb5382ea
周期快照事實表記錄的確定的周期的數(shù)據(jù)舷暮,而累積快照事實表記錄的不確定的周期的數(shù)據(jù)。累積快照事實表代表的是完全覆蓋一個事務或產(chǎn)品的生命周期的時間跨度噩茄,它通常具有多個日期字段,用來記錄整個生命周期中的關鍵時間點复颈。 累計快照適用于較短周期绩聘,有著明確的開始和結束狀態(tài)的過程
事務事實表中一條交易記錄會每天有一條數(shù)據(jù)來記錄整個交易過程沥割;而累積快照事實表只會有一條記錄,數(shù)據(jù)會一致更新直到過程結束凿菩。
對于不同過程机杜,要設計統(tǒng)一的結束標志,沒有的業(yè)務時間置空
[圖片上傳失敗...(image-34f832-1612103610614)]
[圖片上傳失敗...(image-9209bf-1612103610614)]
- 非事實事實表(Factless Fact Table)
1.1.2衅谷、緯度表
維度表可以看作是用戶來分析數(shù)據(jù)的窗口椒拗,
維度表中包含事實數(shù)據(jù)表中事實記錄的特性,有些特性提供描述性信息获黔,有些特性指定如何匯總事實數(shù)據(jù)表數(shù)據(jù)蚀苛,以便為分析者提供有用的信息,
維度表包含幫助匯總數(shù)據(jù)的特性的層次結構玷氏。
} 緩慢變化維(Slowly Changing Dimension) } 快速變化維(Rapidly Changing Dimension) } 大維(Huge Dimension)和迷你維(Mini-Dimension) } 退化維(Degenerate Dimension)
代理鍵用于維度表和事實表的連接
===> 代理鍵的優(yōu)點
- 屏蔽業(yè)務或數(shù)據(jù)的影響堵未, 性能優(yōu)勢, 建立不存在的緯度記錄
- Kimball的緩慢變化維處理策略的核心就是使用代理關鍵字
1.2盏触、四步走設計緯度模型
選取業(yè)務過程渗蟹,確定粒度,選定緯度赞辩,定義事實
1.3雌芽、架構化、增量式建設數(shù)倉方法論
數(shù)據(jù)倉庫總線架構辨嗽,(分解企業(yè)數(shù)據(jù)倉庫規(guī)劃任務世落,統(tǒng)一解釋的標準化維度與事實。) 總線矩陣
一致性緯度召庞,
一致性事實
數(shù)據(jù)倉庫建模的爭議點:從建立一個集中式的岛心、規(guī)劃好的架構角度為整個企業(yè)建立數(shù)據(jù)倉庫,還是為每個具體的部門建立小型的獨立解決方案篮灼。當然這兩種都不是很有效忘古。前者需要在設計之前將所有數(shù)據(jù)、所有業(yè)務完全掌握清楚诅诱,并對數(shù)據(jù)清洗等了解清楚髓堪,這個很難辦到,后者由于是單獨的創(chuàng)建集市娘荡,導致各集市互不兼容干旁,無法形成企業(yè)級的全局的數(shù)據(jù)倉庫。
如何解決這一難題炮沐,首先需要定義整個企業(yè)數(shù)倉系統(tǒng)的數(shù)據(jù)架構争群,收集業(yè)務需求生成企業(yè)數(shù)據(jù)倉庫總線矩陣,矩陣每行對應一個業(yè)務過程大年,每列都是一個業(yè)務維度换薄。逐個收集業(yè)務過程玉雾,并使用一致性維度確保系統(tǒng)的綜合集成。這樣每個業(yè)務過程的實現(xiàn)都對整個架構進行了增量擴展轻要,迭代地建立成一個集成的數(shù)據(jù)倉庫复旬。
基于一致性維度的架構將一組業(yè)務過程緊密的聯(lián)系到一起形成了企業(yè)數(shù)據(jù)倉庫。企業(yè)數(shù)據(jù)倉庫的總線其實就是共享的一致性維度冲泥。
另外:一致性維度需要得到高層的支持驹碍,因為要做到統(tǒng)一其實是牽扯很多業(yè)務系統(tǒng)的事情,有很多是非技術問題凡恍。
總線架構的意義
數(shù)倉規(guī)劃是數(shù)倉建設的藍圖志秃,涵蓋從需求分析開始到最終的數(shù)倉評估驗收整個環(huán)境;數(shù)倉規(guī)劃之所以重要咳焚,是因為它是描述了數(shù)據(jù)流動的概念性框架洽损,為元數(shù)據(jù)管理奠定了基礎,對數(shù)據(jù)加工過程的理解革半、數(shù)倉建設的交流分享碑定、數(shù)據(jù)的使用和問題排查、數(shù)倉健康度的評估都提供了極大的幫助又官。
2延刘、星型、雪花模型
星型模型: 星型架構是一種非正規(guī)化的結構六敬,多維數(shù)據(jù)集的每一個維度都直接與事實表相連接碘赖,不存在漸變維度,所以數(shù)據(jù)有一定的冗余
雪花模型: 通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能外构。雪花型結構去除了數(shù)據(jù)冗余普泡。
類型 | 星型模型 | 雪花模型 |
---|---|---|
本質 | 緯度表直接鏈接事實表 | 存在緯度表沒有直連事實表,而是鏈接其他緯度表 |
缺點 | 數(shù)據(jù)存在冗余审编,鏈接查詢性能高撼班,etl可以高度并行 | 數(shù)據(jù)冗余少,鏈接查詢性能低垒酬,etl不能并行化 |
適合 | 指標分析 | 緯度分析 |
支架表
http://www.reibang.com/p/a2fe0c3095a0
當一個屬性集合(例如日期砰嘁、地點)在某個維度或多個維度表中反復出現(xiàn)時,就可以考慮使用支架表勘究。
雖然我們不推崇雪花模型矮湘,但如果一組屬性在維度表中出現(xiàn)不止一次時,我們也可以采用受限的雪花模型——也就是支架表口糕。
日期支架表是最常用的支架表 時間支架表 地區(qū)支架表
或者更準確的說缅阳,是維度建模與范式建模。純粹的范式建模不適用與OLAP系統(tǒng)景描,純粹的星型模型也會遇到無數(shù)的苦難十办。根據(jù)實際業(yè)務情況(而非底層系統(tǒng))進行適當?shù)耐讌f(xié)——例如微型維度和支架表——才能使你的模型真正靠譜孤里。
微型緯度
當變化頻率加快時候,并且維度表包含幾百萬行的維度表橘洞。如果對變化的跟蹤采用可靠的SCD2技術對瀏覽和查詢性能具有負面影響。采用不同的維度消除頻繁分析或者頻繁變化的屬性说搅,這一維度技術叫做微型維度炸枣。 例如:人口統(tǒng)計,不斷變化的屬性:收入弄唧,被轉換為帶狀范圍值适肠。微型維度中的屬性值通常呈現(xiàn)為相對小范圍的離散值,盡管此類限制使用了預定義寬度范圍的集合候引,但是它能夠極大的減少微型維度中合并值的數(shù)量侯养。
3、數(shù)倉的意義 與 分層的好處
數(shù)據(jù)倉庫是支持管理決策過程. 面向主題的澄干、集成的逛揩、相對穩(wěn)定的、反映歷史變化(不同時間)的持久的數(shù)據(jù)集合麸俘,用以支持經(jīng)營管理中的決策制定過程辩稽、數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題,與傳統(tǒng)數(shù)據(jù)庫面向應用相對應从媚。
數(shù)據(jù)倉庫的四個基本特征是 面向主題
逞泄、集成的
、相對穩(wěn)定的
拜效、記錄歷史的
喷众。 數(shù)據(jù)倉庫的價值正是基于這四個特征體現(xiàn)的
- 高效的數(shù)據(jù)組織與管理
面向主題的數(shù)據(jù)組織方式,清晰的數(shù)據(jù)分類與分層機制形成高效紧憾、完整的數(shù)據(jù)體系到千。 增加數(shù)據(jù)分析獲取統(tǒng)計的效率
- 集成價值
數(shù)倉收納所有類型數(shù)據(jù),實現(xiàn)各種不同數(shù)據(jù)的關聯(lián)并進行多維分析稻励,為多角度多層次的數(shù)據(jù)分析與決策提供支持
- 時間價值
數(shù)據(jù)任務按照時間調度收集入倉父阻,分類分層。從應用角度有利于實現(xiàn)復雜的統(tǒng)計查詢望抽,體檢數(shù)據(jù)統(tǒng)計效率
- 歷史積累價值
記錄歷史加矛,方便回朔歷史,分析歷史煤篙,跟蹤歷史行為斟览,總結歷史,預測未來
數(shù)倉分層的好處-------- 對數(shù)據(jù)進行分層的一個主要原因就是希望在管理數(shù)據(jù)的時候辑奈,能對數(shù)據(jù)有一個更加清晰的掌控苛茂,詳細來講已烤,主要有下面幾個原因。 |
---|
清晰的數(shù)據(jù)結構 |
數(shù)據(jù)血緣追蹤 |
空間換時間 |
減少重復開發(fā) |
統(tǒng)一數(shù)據(jù)口徑 |
屏蔽業(yè)務的影響妓羊,快速適應業(yè)務的變化 |
復雜的問題簡單化 |
4胯究、數(shù)據(jù)倉庫質量
如果保證數(shù)據(jù)質量?
數(shù)據(jù)質量管理是通過計劃躁绸、實施和控制活動裕循,運用質量管理技術度量、評估净刮、改進和保證數(shù)據(jù)的恰當使用剥哑。
被動問題治理階段
主動問題治理階段
預防問題治理階段
數(shù)據(jù)工作流質量管理
數(shù)據(jù)質量管理
數(shù)據(jù)生命周期管理
1、數(shù)倉緯度建模四部曲
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="mysql" cid="n749" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">-- 1. 通過對業(yè)務需求 以及 可用數(shù)據(jù)源綜合考慮淹父,決定對那種業(yè)務過程開展建模工作株婴。
?
-- 2. 業(yè)務過程確定后,需要確定在緯度模型中包含那個級別的細節(jié)數(shù)據(jù)暑认。(原子粒度 -> 匯總粒度)
?
-- 3. 以上兩點確認后困介,緯度選擇就比較直接了。在主緯度框架內(nèi)(粒度),考慮其他緯度是否可以被屬性化為業(yè)務度量
?
-- 4. 確認那些事實放到事實表中穷吮。 事實必須與粒度吻合逻翁。
?</pre>
數(shù)倉管理和發(fā)展一些分享 http://blog.itpub.net/29989552/viewspace-2151382/
1、數(shù)據(jù)建模的六大基本原則
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="" cid="n753" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">建模的基本原則
簡單講建模的一些原則捡鱼,在建模的考慮中需要加以考慮八回,避免后續(xù)遇到大坑措手不及,而不要簡單的為了建模而建模驾诈。
?
1.高內(nèi)聚&&低耦合
?
主要從數(shù)據(jù)業(yè)務特性和訪問特性兩個角度來考慮:
?
將業(yè)務相近或者相關缠诅、粒度相同的數(shù)據(jù)設計為一個邏輯或者物理模型;
?
將高概率同時訪問的數(shù)據(jù)放一起 乍迄,將低概率同時訪問的數(shù)據(jù)分開存儲管引。
?
2.核心模型與擴展模型分離
?
核心模型包括的宇段支持常用的核心業(yè)務,擴展模型包括的字段支持個性化或少量應用的需要闯两,不要讓擴展模型包括的字段過多的入侵核心模型褥伴,破壞核心模型的性能及簡潔等
?
3.存儲成本與計算性能均衡
?
在很多時候,設計可能清晰漾狼,但存儲成本很高重慢,或存儲成本很小但計算邏輯復雜,性能差逊躁,都需要做一個比較似踱,做到均衡,而非執(zhí)意孤行。
?
4.公共邏輯下沉及統(tǒng)一
?
避免重復計算核芽,需將公共邏輯在底層實現(xiàn)并統(tǒng)一口徑
?
5.冪等性
?
處理邏輯不變囚戚,多次執(zhí)行結果需保持一致。
?
6.規(guī)范性
?
相同含義字段需在多表中命名一致轧简,表命名需清晰規(guī)范驰坊,便于查詢及使用</pre>
1、 數(shù)據(jù)倉庫從搭建到應用的一整套方法論
[圖片上傳失敗...(image-9da691-1612103610613)]
前期調研
數(shù)據(jù)建模
標簽類目
- 基礎標簽:直接對應的業(yè)務表字段哮独,如性別庐橙、城市等
- 統(tǒng)計標簽:標簽定義含有常規(guī)的統(tǒng)計邏輯,開發(fā)時需要通過簡易規(guī)則進行加工借嗽,如年增長率、月平均收益率等
- 算法標簽:標簽定義含有復雜的統(tǒng)計邏輯转培,開發(fā)時需要通過算法模型進行加工恶导,如企業(yè)信用分、預測年銷量等
開發(fā)實施
治理維護
貫穿數(shù)據(jù)采集浸须、應用和價值實現(xiàn)等整個生命周期全過程惨寿。
數(shù)據(jù)管理就是通過對數(shù)據(jù)的生命周期的管理,提高數(shù)據(jù)資產(chǎn)質量删窒,促進數(shù)據(jù)在“內(nèi)增值裂垦,外增效”兩方面的價值表現(xiàn)。
- 數(shù)據(jù)標準管理
- 數(shù)據(jù)模型管理
- 元數(shù)據(jù)管理
- 主數(shù)據(jù)管理
- 數(shù)據(jù)質量管理
- 數(shù)據(jù)安全管理
- 數(shù)據(jù)應用
1肌索、數(shù)據(jù)治理方法論
https://bbs.dtwave.com/topics/show/167
狹義上講蕉拢,數(shù)據(jù)治理是指對數(shù)據(jù)質量的管理、專注在數(shù)據(jù)本身诚亚。廣義上講晕换,數(shù)據(jù)治理是對數(shù)據(jù)的全生命周期進行管理,包含數(shù)據(jù)采集站宗、清洗闸准、轉換等傳統(tǒng)數(shù)據(jù)集成和存儲環(huán)節(jié)的工作、同時還包含數(shù)據(jù)資產(chǎn)目錄梢灭、數(shù)據(jù)標準夷家、質量、安全敏释、數(shù)據(jù)開發(fā)库快、數(shù)據(jù)價值、數(shù)據(jù)服務與應用等颂暇,整個數(shù)據(jù)生命期而開展開的業(yè)務缺谴、技術和管理活動都屬于數(shù)據(jù)治理范疇。有的專家干脆把廣義的數(shù)據(jù)治理稱為數(shù)據(jù)資產(chǎn)管理。
數(shù)據(jù)治理專注于將數(shù)據(jù)作為企業(yè)數(shù)據(jù)資產(chǎn)進行應用和管理的一套管理機制湿蛔,能夠消除數(shù)據(jù)的不一致性膀曾,建立規(guī)范的數(shù)據(jù)應用標準,提高數(shù)據(jù)質量阳啥,實現(xiàn)數(shù)據(jù)內(nèi)外部共享添谊,并能夠將數(shù)據(jù)作為組織的寶貴資產(chǎn)應用于業(yè)務、管理察迟、戰(zhàn)略決策中斩狱,發(fā)揮數(shù)據(jù)資產(chǎn)價值
數(shù)據(jù)治理平臺主要采用數(shù)據(jù)中臺技術和微服務架構初步替代傳統(tǒng)架構、面向大數(shù)據(jù)架構下扎瓶,為數(shù)據(jù)資源中心與外部數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)服務懂从。對內(nèi)和對外系統(tǒng)提供云服務蜂挪。
數(shù)據(jù)治理管理工具用于落實數(shù)據(jù)管理體系,實現(xiàn)數(shù)據(jù)管理自動化,提高數(shù)據(jù)管理效率漱抓,確保數(shù)據(jù)質量缺前、實現(xiàn)安全數(shù)據(jù)共享会放。主要包括數(shù)據(jù)門戶地圖
盖腿、主數(shù)據(jù)管理
、數(shù)據(jù)指標
愈捅、元數(shù)據(jù)管理
遏考、數(shù)據(jù)模型工具
、數(shù)據(jù)交換與服務工具
蓝谨、數(shù)據(jù)資產(chǎn)管理
灌具、數(shù)據(jù)開發(fā)
、數(shù)據(jù)質量管理
譬巫、數(shù)據(jù)安全
[圖片上傳失敗...(image-d5a5a4-1612103610613)]
https://zhuanlan.zhihu.com/p/43446819
目前總結的數(shù)據(jù)治理領域包括但不限于一下內(nèi)容:數(shù)據(jù)標準稽亏、元數(shù)據(jù)、數(shù)據(jù)模型缕题、數(shù)據(jù)分布截歉、數(shù)據(jù)存儲、數(shù)據(jù)交換烟零、數(shù)據(jù)生命周期管理瘪松、數(shù)據(jù)質量、數(shù)據(jù)安全以及數(shù)據(jù)共享服務锨阿。
同時各領域之間需要有機結合宵睦,
如數(shù)據(jù)標準、元數(shù)據(jù)墅诡、數(shù)據(jù)質量等幾個領域相互協(xié)同和依賴壳嚎。通過數(shù)據(jù)標準的管理,可以提升數(shù)據(jù)合法性、合規(guī)性烟馅,進一步提升數(shù)據(jù)質量说庭,減少數(shù)據(jù)生產(chǎn)問題;
在元數(shù)據(jù)管理的基礎上郑趁,可進行數(shù)據(jù)生命周期管理刊驴,有效控制在線數(shù)據(jù)規(guī)模,提高生產(chǎn)數(shù)據(jù)訪問效率寡润,減少系統(tǒng)資源浪費捆憎;
通過元數(shù)據(jù)和數(shù)據(jù)模型管理,將表梭纹、文件等數(shù)據(jù)資源按主題進行分類躲惰,可明確當事人、產(chǎn)品变抽、協(xié)議等相關數(shù)據(jù)的主數(shù)據(jù)源歸屬礁扮、數(shù)據(jù)分布情況,有效實施數(shù)據(jù)分布的規(guī)劃和治理瞬沦。
[圖片上傳失敗...(image-f0b368-1612103610613)]
2、靈魂30問
0雇锡、你們的離線/實時數(shù)倉是什么樣的逛钻? 怎么分層的?
---C烫帷J锒弧!離線數(shù)倉架構
[圖片上傳失敗...(image-77a680-1612103610613)]
--- A⒅狻1呃ぁ!實時數(shù)倉架構
[圖片上傳失敗...(image-862da2-1612103610613)]
- 第一層 DWD 公共實時明細層
實時計算訂閱業(yè)務數(shù)據(jù)消息隊列谅年,然后通過數(shù)據(jù)清洗茧痒、多數(shù)據(jù)源 join、流式數(shù)據(jù)與離線維度信息等的組合融蹂,將一些相同粒度的業(yè)務系統(tǒng)旺订、維表中的維度屬性全部關聯(lián)到一起,增加數(shù)據(jù)易用性和復用性超燃,得到最終的實時明細數(shù)據(jù)区拳。這部分數(shù)據(jù)有兩個分支,一部分直接落地到 ADS意乓,供實時明細查詢使用樱调,一部分再發(fā)送到消息隊列中,供下層計算使用;
- 第二層 DWS 公共實時匯總層
以數(shù)據(jù)域+業(yè)務域的理念建設公共匯總層笆凌,與離線數(shù)倉不同的是圣猎,這里匯總層分為輕度匯總層和高度匯總層,并同時產(chǎn)出菩颖,輕度匯總層寫入 ADS样漆,用于前端產(chǎn)品復雜的 olap 查詢場景,滿足自助分析和產(chǎn)出報表的需求晦闰;高度匯總層寫入 Hbase放祟,用于前端比較簡單的 kv 查詢場景,提升查詢性能呻右,比如實時大屏等跪妥;
===== 架構模式
APP: 高度匯總,應用數(shù)據(jù)声滥,可以導入應用服務
DWM: 識別分析對象眉撵,圈定分析邊界,豐富對象屬性落塑。
DWD: 識別實體關系纽疟,掛靠業(yè)務主題,屏蔽業(yè)務變化憾赁,統(tǒng)一數(shù)據(jù)標準
ODS : 落地緩沖區(qū)污朽,與數(shù)據(jù)來源保持一致,還原業(yè)務
1龙考、什么是數(shù)據(jù)倉庫蟆肆?如何構建數(shù)據(jù)倉庫?
-什么是數(shù)據(jù)倉庫晦款?
數(shù)據(jù)倉庫炎功, 拿數(shù)據(jù)庫做對比來解釋吧
在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源缓溅、為了決策需要而產(chǎn)生的 蛇损。
數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設計 數(shù)據(jù)庫是面向事務的設計坛怪,數(shù)據(jù)倉庫是面向主題設計的 數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù)州藕,數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。
---> 以銀行業(yè)務為例酝陈。數(shù)據(jù)庫是事務系統(tǒng)的數(shù)據(jù)平臺床玻,客戶在銀行做的每筆交易都會寫入數(shù)據(jù)庫,被記錄下來沉帮,這里锈死,可以簡單地理解為用數(shù)據(jù)庫記帳贫堰。數(shù)據(jù)倉庫是分析系統(tǒng)的數(shù)據(jù)平臺,它從事務系統(tǒng)獲取數(shù)據(jù)待牵,并做匯總其屏、加工,為決策者提供決策的依據(jù)缨该。比如偎行,某銀行某分行一個月發(fā)生多少交易,該分行當前存款余額是多少贰拿。如果存款又多蛤袒,消費交易又多,那么該地區(qū)就有必要設立ATM了膨更。
數(shù)據(jù)倉庫概念創(chuàng)始人W.H.Inmon在《建立數(shù)據(jù)倉庫》一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫是支持管理決策過程. 面向主題的妙真、集成的、相對穩(wěn)定的荚守、反映歷史變化(不同時間)的持久的數(shù)據(jù)集合珍德,用以支持經(jīng)營管理中的決策制定過程、數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題矗漾,與傳統(tǒng)數(shù)據(jù)庫面向應用相對應锈候。
-如何構建數(shù)據(jù)倉庫?
從0-1構建的話敞贡,推薦以下步驟
通過業(yè)務泵琳、需求、數(shù)據(jù)調研嫡锌,構建CDM業(yè)務流程圖
根據(jù)流程圖,劃分主題域琳钉,確定主題
構建總線架構與總線矩陣势木,進行緯度建模(四步走),構建星型模型
設計數(shù)倉分層架構歌懒,定義數(shù)倉規(guī)范(命名啦桌、模型、開發(fā)及皂、流程)
數(shù)據(jù)治理甫男,保證數(shù)據(jù)質量,數(shù)據(jù)安全验烧,數(shù)據(jù)審計
評估與驗收板驳。 開發(fā)與迭代開發(fā)
從概念模型(cdm)->邏輯模型(ldm)->物理模型(pdm)建模套路,是一個從抽象到具體的一個不斷細化完善的分析碍拆,設計和開發(fā)的過程
[圖片上傳失敗...(image-a51324-1612103610613)]
-數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別若治?
需要明白數(shù)據(jù)倉庫和數(shù)據(jù)平臺是兩個不同的概念慨蓝,不要把搭建一套 Hadoop + Hive 的平臺叫數(shù)據(jù)倉庫,這是數(shù)據(jù)平臺的范疇
數(shù)據(jù)倉庫不僅僅是指數(shù)據(jù)接入端幼、數(shù)據(jù)存儲和數(shù)據(jù)計算礼烈,它也要包括數(shù)據(jù)治理、數(shù)據(jù)建模和數(shù)據(jù)挖掘婆跑。比如元數(shù)據(jù)管理此熬、維度建模和 OLAP 分析
數(shù)據(jù)質量管理
2、如何建設數(shù)據(jù)中臺滑进?簡單說下對中臺理解與思路
華為數(shù)據(jù)中臺有句話叫做——炮火支援單兵作戰(zhàn)
企業(yè)的發(fā)展犀忱,往往伴隨著業(yè)務更多元化,也必然會促進更多的業(yè)務數(shù)據(jù)產(chǎn)生郊供,也為企業(yè)實現(xiàn)業(yè)務數(shù)據(jù)化和數(shù)據(jù)業(yè)務化帶來了更多的可能性峡碉,但現(xiàn)實是很多企業(yè)依然采用傳統(tǒng)理念去建設大數(shù)據(jù)平臺,導致不單單業(yè)務系統(tǒng)是一個個煙囪驮审,大數(shù)據(jù)平臺也是一個個垂直的數(shù)據(jù)中心鲫寄,所以如何打通這些數(shù)據(jù)并將其按照一個統(tǒng)一的標準進行建設,以達到技術降本疯淫、應用提效地来、業(yè)務賦能的目標,是眾多企業(yè)面臨的問題熙掺。數(shù)據(jù)中臺就是為解決這些問題而生未斑。
數(shù)據(jù)中臺的內(nèi)核包括兩方面:一個是應用數(shù)據(jù)的技術能力,另一個是數(shù)據(jù)資產(chǎn)的管理币绩。
就是如何構建企業(yè)數(shù)據(jù)中心蜡秽, 然后把數(shù)據(jù)資產(chǎn)建好,管好缆镣,用好芽突。 這不僅僅需要方法論和管理制度,更需要的一個可視化的數(shù)據(jù)管理工具董瞻,實現(xiàn)復雜的數(shù)據(jù)資產(chǎn)運維簡單化
3寞蚌、數(shù)據(jù)倉庫、數(shù)據(jù)中臺钠糊、數(shù)據(jù)湖的理解
數(shù)據(jù)倉庫挟秤,分而治之,用于BI計算報表
數(shù)據(jù)湖 抄伍,數(shù)據(jù)格式內(nèi)容眾多艘刚,可以進行更多的數(shù)據(jù)挖掘分析,多用于AI
數(shù)據(jù)中臺 一統(tǒng)天下 對象DataAPI(組織架構)
4截珍、傳統(tǒng)數(shù)倉的程度(建模工具昔脯、ETL工具啄糙、BI報表工具、調度系統(tǒng))
建模工具:powerDesiger云稚、Erwin隧饼、Visio
ETL工具: kettle/informatic(主流的兩款) 等等
BI報表工具:superset、cboard静陈、redash燕雁、帆軟BI/QuickBI/PowerBI 等等
調度系統(tǒng):airflow、azkaban鲸拥、ooize拐格、xxl-job、dolphinscheduler刑赶、Zeus捏浊、hera、
5撞叨、傳統(tǒng)數(shù)倉和大數(shù)據(jù)數(shù)倉的異同金踪?有哪些大的變化?
數(shù)倉技術選型側重點牵敷,要求不一致
數(shù)據(jù)來源不一樣
數(shù)倉建模胡岔、分層不一樣
數(shù)據(jù)查看分析不一樣
6、數(shù)倉最重要的是什么枷餐?
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="mysql" cid="n913" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">-- 數(shù)據(jù)的真正價值在于數(shù)據(jù)驅動決策
-- 確保數(shù)據(jù)的準確性
?
?
-- 如何保證數(shù)據(jù)的準確性靶瘸?
?
元數(shù)據(jù)的建設與管理是其中重要的一個環(huán)節(jié)
元數(shù)據(jù)建設的目標是打通數(shù)據(jù)接入到加工 ,再到數(shù)據(jù)消費整個鏈路毛肋,規(guī)范元數(shù)據(jù)體系與模型怨咪,提供統(tǒng)一的元數(shù)據(jù)服務出口,保障元數(shù)據(jù)產(chǎn)出的穩(wěn)定性和質量润匙。
首先梳理清楚元倉底層數(shù)據(jù)诗眨,對元數(shù)據(jù)做分類,如計算元數(shù)據(jù)趁桃、存儲元數(shù)據(jù)辽话、質量元數(shù)據(jù)等肄鸽,減少數(shù)據(jù)重復建設卫病,保障數(shù)據(jù)的唯一性。
另外典徘, 要豐富表和字段使用說明蟀苛,方便使用和理解。根據(jù)元倉底層數(shù)據(jù)構建元倉中間層逮诲,建設元數(shù)據(jù)基礎寬表帜平,也就是元數(shù)據(jù)中間層幽告,打通從數(shù)據(jù)產(chǎn)生到消費整個鏈路。
?
https://mp.weixin.qq.com/s?__biz=Mzg3NjIyNjQwMg==&mid=2247484645&idx=1&sn=e1e0052e561fa8aa65064ec667264358&chksm=cf3436e8f843bffeca6b198d94c171d52a69d238b7b60d8399b2d9bc727de96409b027fd50f1&scene=21</pre>
7裆甩、實時數(shù)倉冗锁?采用什么架構?lambda有哪些優(yōu)缺點嗤栓?
實時數(shù)倉分為 利用框架實時計算數(shù)據(jù)型 與 利用高性能OLAP引擎實時導入型
8、如何看待kappa架構茉帅?iota架構呢叨叙?
9堪澎、用戶畫像(靜態(tài)擂错、動態(tài)標簽,統(tǒng)計樱蛤、預測標簽钮呀,衰退系數(shù)、權重
靜態(tài)數(shù)據(jù)-評估價值:用戶相對穩(wěn)定的信息刹悴,例如行楞,主要包括人口屬性、商業(yè)屬性等方面數(shù)據(jù)土匀;這類信息子房,自成標簽,如果企業(yè)有真實信息則無需過多建模預測就轧,更多的是數(shù)據(jù)清洗工作证杭,如果某些靜態(tài)信息不準或缺失則需要建模預測。
動態(tài)數(shù)據(jù)-循跡: 用戶不斷變化的行為信息妒御,例如:瀏覽凡客首頁解愤、瀏覽休閑鞋單品頁、搜索帆布鞋乎莉、發(fā)表關于鞋品質的微博送讲、贊“雙十一大促”的微博消息。等等均可看作互聯(lián)網(wǎng)用戶行為惋啃。
形態(tài): 標簽與權重: 用戶畫像的最終形態(tài)是通過分析用戶行為哼鬓,最終為每個用戶打上標簽,以及該標簽的權重
標簽:表征了內(nèi)容边灭,用戶對該內(nèi)容有興趣异希、偏好、需求等等
權重:表征了指數(shù)绒瘦,用戶的興趣称簿、偏好指數(shù)扣癣,也可能表征用戶的需求度,可以簡單的理解為可信度憨降,概率
數(shù)據(jù)建模方法: 標簽=用戶標識 + 時間 + 行為類型 + 接觸點(網(wǎng)址+內(nèi)容)的聚合父虑,某用戶因為在什么時間、地點授药、做了什么事频轿,所以會打上**標簽
10、推薦系統(tǒng)(協(xié)同過濾烁焙,基于用戶航邢、商品,各種距離算法等)
AI上略搞過
歐氏距離 其源自于歐式空間中計算兩點間的距離公式
曼哈頓距離骄蝇,城市街區(qū)距離膳殷、棋盤距離
11、數(shù)倉基礎理念
主題域 血緣關系 拉鏈表 代理鍵 維度退化 緩慢變化維SCD 事實表類型 增量dwd處理 星型/雪花/星座模型 事實 維度 粒度 原子/派生指標 OLAP
12九火、數(shù)倉如何確定主題域赚窃?CDM?
主題(Subject)是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進行綜合岔激、歸類和分析利用的一個抽象概念勒极,每一個主題基本對應一個宏觀的分析領域。在邏輯意義上虑鼎,它是對應企業(yè)中某一宏觀分析領域所涉及的分析對象辱匿。
例如“銷售分析”就是一個分析領域,因此這個數(shù)據(jù)倉庫應用的主題就是“銷售分析”炫彩。 面向主題的數(shù)據(jù)組織方式匾七,就是在較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描述,能刻畫各個分析對象所涉及的企業(yè)各項數(shù)據(jù)江兢,以及數(shù)據(jù)之間的聯(lián)系昨忆。
所謂較高層次是相對面向應用的數(shù)據(jù)組織方式而言的,是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別杉允。與傳統(tǒng)數(shù)據(jù)庫面向應用進行數(shù)據(jù)組織的特點相對應邑贴,數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的。
主題可以說是 區(qū)別傳統(tǒng)數(shù)據(jù)庫面向應用進行數(shù)據(jù)組織叔磷, 數(shù)據(jù)倉庫是面向主題拢驾,較高層次上對企業(yè)數(shù)據(jù)進行綜合,歸類世澜,分析的一種方式独旷。便于企業(yè)數(shù)據(jù)分析署穗,避免數(shù)據(jù)孤島
主題域是對某個主題進行分析后確定的主題的邊界寥裂。分析主題域嵌洼,確定要裝載到數(shù)據(jù)倉庫的主題是信息打包技術的第一步。 主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合封恰÷檠可以根據(jù)業(yè)務的關注點,將這些數(shù)據(jù)主題劃分到不同的主題域诺舔。主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設計人員共同完成鳖昌。
主題域是進一步抽象。 規(guī)整一類主題低飒, 劃分一類業(yè)務過程
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="mysql" cid="n947" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設計人員共同完成的许昨, 而在劃分主題域時,大家的切入點不同可能會造成一些爭論褥赊、重構等的現(xiàn)象糕档,考慮的點可能會是下方的某些方面:
-- 1、按照業(yè)務或業(yè)務過程劃分:
比如一個靠銷售廣告位置的門戶網(wǎng)站主題域可能會有廣告域拌喉,客戶域等速那,而廣告域可能就會有廣告的庫存,銷售分析尿背、內(nèi)部投放分析等主題端仰;
-- 2、根據(jù)需求方劃分:
比如需求方為財務部田藐,就可以設定對應的財務主題域荔烧,而財務主題域里面可能就會有員工工資分析,投資回報比分析等主題汽久;
-- 3茴晋、按照功能或應用劃分:
比如微信中的朋友圈數(shù)據(jù)域、群聊數(shù)據(jù)域等回窘,而朋友圈數(shù)據(jù)域可能就會有用戶動態(tài)信息主題诺擅、廣告主題等;
-- 4啡直、按照部門劃分:
比如可能會有運營域烁涌、技術域等,運營域中可能會有工資支出分析酒觅、活動宣傳效果分析等主題撮执;
?
-- 總而言之,切入的出發(fā)點邏輯不一樣舷丹,就可以存在不同的劃分邏輯抒钱。在建設過程中可采用迭代方式,不糾結于一次完成所有主題的抽象,可先從明確定義的主題開始谋币,后續(xù)逐步歸納總結成自身行業(yè)的標準模型仗扬。</pre>
13、 數(shù)倉如何分層的蕾额?及每一層的作用早芭?為什么要這么分層?
系列 | 漫談數(shù)倉第一篇NO.1 『數(shù)倉架構』
數(shù)倉藍圖:如何優(yōu)雅地規(guī)劃數(shù)倉體系
為什么要分層
空間換時間诅蝶。通過建設多層次的數(shù)據(jù)模型供用戶使用退个,避免用戶直接使用操作型數(shù)據(jù),可以更高效的訪問數(shù)據(jù)调炬。 把復雜問題簡單化语盈。講一個復雜的任務分解成多個步驟來完成郎哭,每一層只處理單一的步驟绊茧,比較簡單和容易理解。而且便于維護數(shù)據(jù)的準確性蒜焊,當數(shù)據(jù)出現(xiàn)問題之后匀谣,可以不用修復所有的數(shù)據(jù)照棋,只需要從有問題的步驟開始修復。 便于處理業(yè)務的變化武翎。隨著業(yè)務的變化烈炭,只需要調整底層的數(shù)據(jù),對應用層對業(yè)務的調整零感知.
易維護
高性能
簡單化
歷史性
14宝恶、SCD的常用處理方式符隙?優(yōu)劣?
覆蓋
添加新行 -- 拉鏈表
添加新列
微型緯度表---范圍值
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="mysql" cid="n972" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">歷史拉鏈表垫毙,既能滿足對歷史數(shù)據(jù)的需求霹疫,又能很大程度的節(jié)省存儲資源;
?
- dw_begin_date表示該條記錄的生命周期開始時間综芥,dw_end_date表示該條記錄的生命周期結束時間丽蝎;
? - dw_end_date = '9999-12-31'表示該條記錄目前處于有效狀態(tài);
? - 如果查詢當前所有有效的記錄膀藐,則
select * from order_his where dw_end_date = '9999-12-31'
? - 如果查詢2012-06-21的歷史快照屠阻,則
select * from order_his where dw_begin_date <= '2012-06-21' and end_date >= '2012-06-21'。
?
-- 拉鏈表實現(xiàn)
SELECT * FROM
(
-- 失效值
SELECT A.user_num,
A.mobile,
A.reg_date,
A.t_start_time,
CASE
WHEN A.t_end_time = '9999-12-31' AND B.user_num IS NOT NULL THEN '昨天'
ELSE A.t_end_time
END AS t_end_time
FROM dws.user_his AS A
LEFT JOIN ods.user_update AS B
ON A.user_num = B.user_num
UNION ALL
-- 有效值
SELECT C.user_num,
C.mobile,
C.reg_date,
'昨天' AS t_start_time,
'9999-12-31' AS t_end_time
FROM ods.user_update AS C
) AS T</pre>
拉鏈表性能優(yōu)化
使用拉鏈表的時候可以不加t_end_date额各,即失效日期国觉,但是加上之后,能優(yōu)化很多查詢
在一些查詢引擎中虾啦,我們對start_date和end_date做索引麻诀,這樣能提高不少性能痕寓。
保留部分歷史數(shù)據(jù),比如說我們一張表里面存放全量的拉鏈表數(shù)據(jù)蝇闭,然后再對外暴露一張只提供近3個月數(shù)據(jù)的拉鏈表呻率。
可以加上當前行狀態(tài)標識,能快速定位到當前狀態(tài)丁眼。
在拉鏈表的設計中可以加一些內(nèi)容,因為我們每天保存一個狀態(tài)昭殉,如果我們在這個狀態(tài)里面加一個字段苞七,比如如當天修改次數(shù),那么拉鏈表的作用就會更大
拉鏈表回滾
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="mysql" cid="n988" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">假設恢復到t天之前的數(shù)據(jù)挪丢,即未融合t天數(shù)據(jù)之前的拉鏈表蹂风,假設標記的開始日期和結束日期分別為s、t乾蓬,具體分析如下:
?
1 當t-1>e時惠啄,s數(shù)據(jù)、e數(shù)據(jù)在t天之前產(chǎn)生任内,保留即可
2 當t-1=e時撵渡,e數(shù)據(jù)在t天產(chǎn)生,需修改
3 當s<t<=e時死嗦,e數(shù)據(jù)在t+n天產(chǎn)生趋距,需修改
4 當s>=t時,s數(shù)據(jù)越除、e數(shù)據(jù)在t+n天產(chǎn)生节腐,刪除即可
?
比如在插入2015-08-23的數(shù)據(jù)后,回滾2015-08-22的數(shù)據(jù)摘盆,使拉鏈表與2015-08-21的一致翼雀,
1, </pre>
深入解析數(shù)據(jù)倉庫中的緩慢變化維
15、元數(shù)據(jù)的理解孩擂,元數(shù)據(jù)管理系統(tǒng)
16狼渊、如何控制數(shù)據(jù)質量
如何提升數(shù)據(jù)質量?类垦?囤锉? http://www.woshipm.com/data-analysis/3945408.html/comment-page-1 http://www.woshipm.com/pmd/3952936.html 1 。 數(shù)據(jù)基礎建設 數(shù)倉設計上护锤,清洗完善官地,層級分明。ETL與數(shù)據(jù)血緣清晰烙懦。 不同主題域 驱入, 不同層級的數(shù)據(jù)分別進行監(jiān)控
- 數(shù)據(jù)處理監(jiān)控 監(jiān)控報警, 稽查任務質量
3.業(yè)務系統(tǒng)調整響應。管理與制度層面 規(guī)范化亏较,降低溝通莺褒, 提升數(shù)據(jù)輸出質量 與 數(shù)據(jù)響應速度
17、!! 如何做數(shù)據(jù)治理雪情,數(shù)據(jù)資產(chǎn)管理
總體思路遵岩、模型設計、數(shù)加架構巡通、數(shù)據(jù)治理四個方面 構建更貼合大數(shù)據(jù)應用的數(shù)據(jù)倉庫尘执。
目前總結的數(shù)據(jù)治理領域包括但不限于一下內(nèi)容:
數(shù)據(jù)標準、元數(shù)據(jù)宴凉、數(shù)據(jù)模型誊锭、
數(shù)據(jù)分布、數(shù)據(jù)存儲弥锄、數(shù)據(jù)交換丧靡、
數(shù)據(jù)生命周期管理、
數(shù)據(jù)質量籽暇、
數(shù)據(jù)安全以及數(shù)據(jù)共享服務温治。
18、Hive優(yōu)化
[圖片上傳失敗...(image-1a7eac-1612103610612)]
19戒悠、實時數(shù)倉
[圖片上傳失敗...(image-e67fbf-1612103610612)]
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="mysql" cid="n1021" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">-- DWD 公共實時明細層
這部分數(shù)據(jù)有兩個分支罐盔,一部分直接落地到 ADS(olap引擎),供實時明細查詢使用救崔,一部分再發(fā)送到消息隊列中惶看,供下層計算使用;
?
-- DWS 公共實時匯總層
以數(shù)據(jù)域+業(yè)務域的理念建設公共匯總層六孵,與離線數(shù)倉不同的是纬黎,這里匯總層分為輕度匯總層和高度匯總層,并同時產(chǎn)出劫窒,輕度匯總層寫入 ADS本今,用于前端產(chǎn)品復雜的 olap 查詢場景,滿足自助分析和產(chǎn)出報表的需求主巍;高度匯總層寫入 Hbase冠息,用于前端比較簡單的 kv 查詢場景,提升查詢性能孕索,比如實時大屏等逛艰;</pre>
實時數(shù)倉的應用場景:
實時olap分析
實時數(shù)據(jù)看板
實時用戶特征 實時計算實體特征,用于精準運營
實時業(yè)務監(jiān)控搞旭、預警
20散怖、Kylin cube 與 減枝優(yōu)化
衍生緯度
聚合組 強制緯度菇绵、層級緯度、關聯(lián)緯度
優(yōu)化 Extended Column 與 并行度 rowkey 順序