數(shù)據(jù)倉庫理論
一玷或、數(shù)據(jù)倉庫簡介
1.1儡首、 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫為一個(gè)面向主題的、集成的偏友、隨時(shí)間變化的蔬胯、非易失的數(shù)據(jù)集合,用于支持管理者的決策過程位他。
- 操作型系統(tǒng)和分析型系統(tǒng)
- 數(shù)據(jù)倉庫架構(gòu)
1.2 氛濒、etl
-
數(shù)據(jù)抽取
- 邏輯抽取(增量抽取|全量抽榷焖琛)
- 物理抽任韪汀(聯(lián)機(jī)抽取|脫機(jī)抽取)
-
數(shù)據(jù)轉(zhuǎn)換
- 只裝載特定的數(shù)據(jù)列窿冯。例如骗奖,某列為空的數(shù)據(jù)不裝載。
- 統(tǒng)一數(shù)據(jù)編碼。例如执桌,性別字段鄙皇,有些系統(tǒng)使用的是1和0,有些是‘M’和‘F’仰挣,有些是‘男’和‘女’伴逸,統(tǒng)一成‘M’和‘F’。
- 自由值編碼膘壶。例如错蝴,將‘Male’改成‘M’
- 預(yù)計(jì)算。例如香椎,產(chǎn)品單價(jià)*購買數(shù)量=金額漱竖。
- 基于某些規(guī)則重新排序以提高查詢性能。
- 合并多個(gè)數(shù)據(jù)源的數(shù)據(jù)并去重畜伐。
- 預(yù)聚合馍惹。例如,匯總銷售數(shù)據(jù)玛界。
- 行列轉(zhuǎn)置万矾。
- 將一列轉(zhuǎn)為多列。例如慎框,某列存儲(chǔ)的數(shù)據(jù)是以逗號作為分隔符的字符串良狈,將其分割成多列的單個(gè)值。
- 合并重復(fù)列笨枯。
- 預(yù)連接薪丁。例如,查詢多個(gè)關(guān)聯(lián)表的數(shù)據(jù)馅精。
- 數(shù)據(jù)驗(yàn)證严嗜。針對驗(yàn)證的結(jié)果采取不同的處理,通過驗(yàn)證的數(shù)據(jù)交給裝載步驟洲敢,驗(yàn)證失敗的數(shù)據(jù)或直接丟棄漫玄,或記錄下來做進(jìn)一步檢查。
-
數(shù)據(jù)裝載
- 實(shí)現(xiàn)方式
- 先刪除再插入
- replace into
- merge into
- 實(shí)現(xiàn)方式
1.3压彭、 數(shù)據(jù)倉庫的需求
基本需求
- 安全性
- 可訪問性
- 自動(dòng)化
數(shù)據(jù)需求
- 準(zhǔn)確性(數(shù)據(jù)從哪里來睦优?何時(shí)抽取壮不?怎么轉(zhuǎn)換)
- 時(shí)效性
- 歷史可追溯性
數(shù)據(jù)轉(zhuǎn)換的目的:統(tǒng)一數(shù)據(jù)類型汗盘、處理拼寫錯(cuò)誤、消除數(shù)據(jù)歧義询一、解析為標(biāo)準(zhǔn)格式等
1.4衡未、 data vault
DataVault模型有中心表(Hub)尸执、鏈接表(Link)、附屬表(Satellite)三個(gè)主要組成部分缓醋。中心表記錄業(yè)務(wù)主鍵如失,鏈接表記錄業(yè)務(wù)關(guān)系,附屬表記錄業(yè)務(wù)描述送粱。
二褪贵、數(shù)據(jù)轉(zhuǎn)換與裝載
2.1、數(shù)據(jù)清洗
數(shù)據(jù)清洗是對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程抗俄,目的在于刪除重復(fù)信息脆丁、糾正存在的錯(cuò)誤,提供一致性动雹。
1槽卫、臟數(shù)據(jù)
- 殘缺數(shù)據(jù)
- 錯(cuò)誤數(shù)據(jù)
- 重復(fù)數(shù)據(jù)
- 差異數(shù)據(jù)
2、數(shù)據(jù)清洗
- 預(yù)處理
- 標(biāo)準(zhǔn)化處理胰蝠。地名歼培、產(chǎn)品名等格式化
- 查重
- 出錯(cuò)處理和糾正
3、漸變維
更新數(shù)據(jù)的方式:
- SCD1:直接覆蓋已經(jīng)存在的值茸塞,不維護(hù)記錄的歷史躲庄。SCD1一般用于修改錯(cuò)誤數(shù)據(jù)
- SCD2:在源數(shù)據(jù)發(fā)生變化時(shí),給維度記錄建立一個(gè)新的“版本”記錄钾虐,從而維護(hù)維度歷史噪窘。SCD2不刪除、修改已存在的數(shù)據(jù)效扫。
三倔监、維度表
四、事實(shí)表
事實(shí)表中的數(shù)字度量值可劃分為可加菌仁、半可加浩习、不可加三類
三種不同類型的事實(shí)表:
- 事物事實(shí)表:以每個(gè)事物或事件為單位。例如訂單表掘托。
- 周期快照事實(shí)表:這種事實(shí)表不保存全部的數(shù)據(jù), 只保存固定時(shí)間間隔的數(shù)據(jù)籍嘹。例如每天或每月的銷售額闪盔,或每月的賬戶余額等。
- 累積快照事實(shí)表:累積快照用于跟蹤事實(shí)表的變化辱士。例如泪掀,數(shù)據(jù)倉庫可能需要累積或存儲(chǔ)銷售訂單從下訂單的時(shí)間開始,到訂單中的商品被打包颂碘、運(yùn)輸和到達(dá)的各階段的時(shí)間點(diǎn)數(shù)據(jù)來跟蹤訂單的生命周期進(jìn)展情況异赫。當(dāng)這個(gè)過程進(jìn)行時(shí),隨著以上各種時(shí)間的出現(xiàn),事實(shí)表里的記錄也要不斷更新塔拳。
五鼠证、其他
- 通過存儲(chǔ)格式減少存儲(chǔ)空間。:Snappy(有效平衡壓縮率和解壓縮速度)靠抑、Gzip(最高壓縮率的歸檔數(shù)據(jù)壓縮)