數(shù)據(jù)倉庫理論

數(shù)據(jù)倉庫理論

一玷或、數(shù)據(jù)倉庫簡介

1.1儡首、 數(shù)據(jù)倉庫

數(shù)據(jù)倉庫為一個(gè)面向主題的、集成的偏友、隨時(shí)間變化的蔬胯、非易失的數(shù)據(jù)集合,用于支持管理者的決策過程位他。

  • 操作型系統(tǒng)和分析型系統(tǒng)
  • 數(shù)據(jù)倉庫架構(gòu)

1.2 氛濒、etl

  • 數(shù)據(jù)抽取

    • 邏輯抽取(增量抽取|全量抽榷焖琛)
    • 物理抽任韪汀(聯(lián)機(jī)抽取|脫機(jī)抽取)
  • 數(shù)據(jù)轉(zhuǎn)換

    • 只裝載特定的數(shù)據(jù)列窿冯。例如骗奖,某列為空的數(shù)據(jù)不裝載。
    • 統(tǒng)一數(shù)據(jù)編碼。例如执桌,性別字段鄙皇,有些系統(tǒng)使用的是1和0,有些是‘M’和‘F’仰挣,有些是‘男’和‘女’伴逸,統(tǒng)一成‘M’和‘F’。
    • 自由值編碼膘壶。例如错蝴,將‘Male’改成‘M’
    • 預(yù)計(jì)算。例如香椎,產(chǎn)品單價(jià)*購買數(shù)量=金額漱竖。
    • 基于某些規(guī)則重新排序以提高查詢性能。
    • 合并多個(gè)數(shù)據(jù)源的數(shù)據(jù)并去重畜伐。
    • 預(yù)聚合馍惹。例如,匯總銷售數(shù)據(jù)玛界。
    • 行列轉(zhuǎn)置万矾。
    • 將一列轉(zhuǎn)為多列。例如慎框,某列存儲(chǔ)的數(shù)據(jù)是以逗號作為分隔符的字符串良狈,將其分割成多列的單個(gè)值。
    • 合并重復(fù)列笨枯。
    • 預(yù)連接薪丁。例如,查詢多個(gè)關(guān)聯(lián)表的數(shù)據(jù)馅精。
    • 數(shù)據(jù)驗(yàn)證严嗜。針對驗(yàn)證的結(jié)果采取不同的處理,通過驗(yàn)證的數(shù)據(jù)交給裝載步驟洲敢,驗(yàn)證失敗的數(shù)據(jù)或直接丟棄漫玄,或記錄下來做進(jìn)一步檢查。
  • 數(shù)據(jù)裝載

    • 實(shí)現(xiàn)方式
      • 先刪除再插入
      • replace into
      • merge into

1.3压彭、 數(shù)據(jù)倉庫的需求

基本需求

  • 安全性
  • 可訪問性
  • 自動(dòng)化

數(shù)據(jù)需求

  • 準(zhǔn)確性(數(shù)據(jù)從哪里來睦优?何時(shí)抽取壮不?怎么轉(zhuǎn)換)
  • 時(shí)效性
  • 歷史可追溯性

數(shù)據(jù)轉(zhuǎn)換的目的:統(tǒng)一數(shù)據(jù)類型汗盘、處理拼寫錯(cuò)誤、消除數(shù)據(jù)歧義询一、解析為標(biāo)準(zhǔn)格式等

1.4衡未、 data vault

DataVault模型有中心表(Hub)尸执、鏈接表(Link)、附屬表(Satellite)三個(gè)主要組成部分缓醋。中心表記錄業(yè)務(wù)主鍵如失,鏈接表記錄業(yè)務(wù)關(guān)系,附屬表記錄業(yè)務(wù)描述送粱。

二褪贵、數(shù)據(jù)轉(zhuǎn)換與裝載

2.1、數(shù)據(jù)清洗

數(shù)據(jù)清洗是對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程抗俄,目的在于刪除重復(fù)信息脆丁、糾正存在的錯(cuò)誤,提供一致性动雹。

1槽卫、臟數(shù)據(jù)

  • 殘缺數(shù)據(jù)
  • 錯(cuò)誤數(shù)據(jù)
  • 重復(fù)數(shù)據(jù)
  • 差異數(shù)據(jù)

2、數(shù)據(jù)清洗

  • 預(yù)處理
  • 標(biāo)準(zhǔn)化處理胰蝠。地名歼培、產(chǎn)品名等格式化
  • 查重
  • 出錯(cuò)處理和糾正

3、漸變維

更新數(shù)據(jù)的方式:

  • SCD1:直接覆蓋已經(jīng)存在的值茸塞,不維護(hù)記錄的歷史躲庄。SCD1一般用于修改錯(cuò)誤數(shù)據(jù)
  • SCD2:在源數(shù)據(jù)發(fā)生變化時(shí),給維度記錄建立一個(gè)新的“版本”記錄钾虐,從而維護(hù)維度歷史噪窘。SCD2不刪除、修改已存在的數(shù)據(jù)效扫。

三倔监、維度表

四、事實(shí)表

事實(shí)表中的數(shù)字度量值可劃分為可加菌仁、半可加浩习、不可加三類

三種不同類型的事實(shí)表:

  • 事物事實(shí)表:以每個(gè)事物或事件為單位。例如訂單表掘托。
  • 周期快照事實(shí)表:這種事實(shí)表不保存全部的數(shù)據(jù), 只保存固定時(shí)間間隔的數(shù)據(jù)籍嘹。例如每天或每月的銷售額闪盔,或每月的賬戶余額等。
  • 累積快照事實(shí)表:累積快照用于跟蹤事實(shí)表的變化辱士。例如泪掀,數(shù)據(jù)倉庫可能需要累積或存儲(chǔ)銷售訂單從下訂單的時(shí)間開始,到訂單中的商品被打包颂碘、運(yùn)輸和到達(dá)的各階段的時(shí)間點(diǎn)數(shù)據(jù)來跟蹤訂單的生命周期進(jìn)展情況异赫。當(dāng)這個(gè)過程進(jìn)行時(shí),隨著以上各種時(shí)間的出現(xiàn),事實(shí)表里的記錄也要不斷更新塔拳。

五鼠证、其他

  • 通過存儲(chǔ)格式減少存儲(chǔ)空間。:Snappy(有效平衡壓縮率和解壓縮速度)靠抑、Gzip(最高壓縮率的歸檔數(shù)據(jù)壓縮)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末量九,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子颂碧,更是在濱河造成了極大的恐慌荠列,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件载城,死亡現(xiàn)場離奇詭異肌似,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)诉瓦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進(jìn)店門川队,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人垦搬,你說我怎么就攤上這事呼寸。” “怎么了猴贰?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵对雪,是天一觀的道長。 經(jīng)常有香客問我米绕,道長瑟捣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任栅干,我火速辦了婚禮迈套,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘碱鳞。我一直安慰自己桑李,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布窿给。 她就那樣靜靜地躺著贵白,像睡著了一般。 火紅的嫁衣襯著肌膚如雪崩泡。 梳的紋絲不亂的頭發(fā)上禁荒,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機(jī)與錄音角撞,去河邊找鬼呛伴。 笑死勃痴,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的热康。 我是一名探鬼主播沛申,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼褐隆!你這毒婦竟也來了污它?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤庶弃,失蹤者是張志新(化名)和其女友劉穎衫贬,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體歇攻,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡固惯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了缴守。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片葬毫。...
    茶點(diǎn)故事閱讀 39,965評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖屡穗,靈堂內(nèi)的尸體忽然破棺而出贴捡,到底是詐尸還是另有隱情,我是刑警寧澤村砂,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布烂斋,位于F島的核電站,受9級特大地震影響础废,放射性物質(zhì)發(fā)生泄漏汛骂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一评腺、第九天 我趴在偏房一處隱蔽的房頂上張望帘瞭。 院中可真熱鬧,春花似錦蒿讥、人聲如沸蝶念。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽媒殉。三九已至,卻和暖如春侥钳,著一層夾襖步出監(jiān)牢的瞬間适袜,已是汗流浹背柄错。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工舷夺, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留苦酱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓给猾,卻偏偏與公主長得像疫萤,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子敢伸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 男人的內(nèi)心都是很純潔的扯饶,風(fēng)騷起來恐怕受不了。作為數(shù)倉的工作者,長時(shí)間的與數(shù)據(jù)打交道池颈,一股作氣寫sql尾序。在Kimba...
    孤城心閱讀 866評論 1 5
  • 一、理論派 國內(nèi)u通常所說的數(shù)據(jù)倉庫的四個(gè)特性角度的定義躯砰,就是Inmon提出的每币,因此他被稱為數(shù)據(jù)倉庫之父(數(shù)據(jù)倉庫...
    趁你還年輕233閱讀 5,248評論 0 1
  • 首先介紹關(guān)系數(shù)據(jù)模型、多維數(shù)據(jù)模型和 Data Vault 模型這三種常見的數(shù)據(jù)倉庫模型和與之相關(guān)的設(shè)計(jì)方法,然后...
    Youngmon閱讀 934評論 0 3
  • 【今日完成】 001 補(bǔ)上目標(biāo)管理群的周計(jì)劃琢歇; 002 早間日簽+新聞+解讀兰怠; 003 與烏云聊電商的事情; 00...
    Mia_Zhang閱讀 189評論 2 4
  • 在同樣的收入水平下李茫,有些人存得住錢而有些人卻不行揭保,存不住錢的人那一定是缺乏正確的理財(cái)觀念。有些人雖然和別人一樣...
    馬金鵬閱讀 506評論 0 10