建造數(shù)據(jù)倉庫包括——與操作型系統(tǒng)接口的設(shè)計 + 數(shù)據(jù)倉庫本身的設(shè)計。
1进泼、操作型數(shù)據(jù)蔗衡。
? ?難點1 集成——由于不同應(yīng)用的數(shù)據(jù)集成性很差纤虽,因此在從現(xiàn)有操作型系統(tǒng)到數(shù)據(jù)倉庫中的數(shù)據(jù)必須先集成。即統(tǒng)一名稱绞惦、字段逼纸、單位等。
? ?難點2 裝載——難點在于當(dāng)操作型環(huán)境發(fā)生變化時济蝉,不斷地將變化數(shù)據(jù)裝載到倉庫中杰刽。即要有效捕捉到不斷發(fā)生的日常變化并對之進行處理:掃描系統(tǒng)現(xiàn)有文件。常用技術(shù)有3種:掃描在操作環(huán)境中那些被打上時間戳的數(shù)據(jù)堆生;掃描增量文件专缠;掃描作為事務(wù)處理的副產(chǎn)品的日志文件或者審計文件。
難點3 時基變化——附加時間元素淑仆。
2涝婉、 數(shù)據(jù)倉庫與數(shù)據(jù)模型
? ?數(shù)據(jù)建模分為三個層次:高層建模(實體關(guān)系圖,ERD)蔗怠,中間層建模(數(shù)據(jù)項集墩弯,DIS),底層建模(物理模型)寞射。
? ?ERD:表明了實體或者主要主題以及他們之間的關(guān)系渔工。該層的實體屬于最高抽象層。由建模者桥温、管理人員和最終用戶確定的集成范圍(決定哪些實體屬于模型范圍而哪些不屬于)定義了數(shù)據(jù)模型的邊界引矩。
? ?DIS:對ERD中的每個實體都要建立。由四個部分組成:主要數(shù)據(jù)分組(包含每個主要主題域的屬性和關(guān)鍵字侵浸,每個主要主題域有且只有一個)旺韭;二級數(shù)據(jù)分組(包含每個主要主題域可以存在多次的數(shù)據(jù)屬性);連接器(表示兩個主要主題域間的數(shù)據(jù)關(guān)系)掏觉;數(shù)據(jù)的“類型”(左邊是超類型区端,右邊是數(shù)據(jù)的子類型)。
? ?一般來講澳腹,數(shù)據(jù)模型的每個數(shù)據(jù)分組都將產(chǎn)生一個在數(shù)據(jù)庫設(shè)計過程中定義的表织盼。
? ?物理數(shù)據(jù)模型——拓展中間層模型,是模型中包含有關(guān)鍵字和物理特性酱塔。物理設(shè)計中要進行性能特征的優(yōu)化(如下圖)沥邻,核心是物理I/O的使用情況,最大限度地減少不得不進行的物理I/O羊娃,以保證一次物理I/O能返回最大數(shù)量的記錄谋国。
數(shù)據(jù)倉庫中的數(shù)據(jù)一般不更新,這樣設(shè)計者就可以采用一些在數(shù)據(jù)經(jīng)常需要更新的情況下不能接受的物理設(shè)計技術(shù)迁沫。
任何情況下芦瘾,數(shù)據(jù)倉庫都應(yīng)當(dāng)以迭代的方式進行建造:先建造一部分,再建造另一部分集畅。
節(jié)省I/O的舉措:①創(chuàng)建數(shù)組——當(dāng)數(shù)列中值的數(shù)量穩(wěn)定近弟、數(shù)據(jù)時按順序訪問的、數(shù)據(jù)的創(chuàng)建與修改是在統(tǒng)計上以非常有規(guī)律的方式進行時挺智,可以創(chuàng)建數(shù)據(jù)數(shù)組來節(jié)省I/O祷愉。②有意引入冗余數(shù)據(jù)——經(jīng)常使用但幾乎不更新的數(shù)據(jù)放在多個位置。③引入導(dǎo)出數(shù)據(jù)(已計算出的數(shù)據(jù))赦颇。④建立創(chuàng)造性索引或創(chuàng)造性概要文件二鳄。⑤參照完整性(表現(xiàn)為數(shù)據(jù)表之間的動態(tài)鏈接)的管理 。
快照:記錄著一些事件的發(fā)生媒怯。觸發(fā)快照的事件一類是對離散活動信息的記錄订讼,如業(yè)務(wù)活動。另一類是時間扇苞。包含時間(通常是快照發(fā)生的時間)欺殿、關(guān)鍵字、非關(guān)鍵字的主要數(shù)據(jù)鳖敷、二級數(shù)據(jù)(快照記錄創(chuàng)建時捕獲的外來信息)脖苏。
元數(shù)據(jù)——關(guān)于數(shù)據(jù)的數(shù)據(jù)(描述數(shù)據(jù)的數(shù)據(jù))。元數(shù)據(jù)與數(shù)據(jù)倉庫內(nèi)容的索引類似定踱,處于數(shù)據(jù)倉庫的上層棍潘,并記錄數(shù)據(jù)倉庫中對象分位置。需要注意的是參照表的管理崖媚。
數(shù)據(jù)周期——指從操作型環(huán)境中的數(shù)據(jù)發(fā)生改變起亦歉,到這個變化反映到數(shù)據(jù)倉庫中所用的時間。一般情況是24小時至扰,原因如下①周期越短技術(shù)越昂貴鳍徽,24小時性價比最高。②數(shù)據(jù)在到達數(shù)據(jù)倉庫前能達到穩(wěn)定敢课。
數(shù)據(jù)轉(zhuǎn)換和集成遠比想象中復(fù)雜很多倍阶祭。
數(shù)據(jù)倉庫記錄的觸發(fā)——“事件-快照”交互:引起數(shù)據(jù)倉庫的數(shù)據(jù)載入的基本的業(yè)務(wù)交互活動。事件觸發(fā)數(shù)據(jù)快照直秆,數(shù)據(jù)快照轉(zhuǎn)移到倉庫環(huán)境中濒募。
概要記錄——把操作型數(shù)據(jù)中許多不同的、詳細的記錄合在一起形成一條記錄圾结。好處是為最終用戶的訪問和分析提供了一個緊湊的瑰剃、方便的數(shù)據(jù)組織形式。
管理大量數(shù)據(jù)——建立概要記錄筝野。缺點是會丟失一部分細節(jié)晌姚。為了避免丟失重要細節(jié)粤剧,第一種方法是迭代地建立概要記錄,增加修改記錄的靈活性挥唠。第二種方法是在建立概要記錄的同時建立歷史細節(jié)的備用層(全部細節(jié)儲存在便宜的存儲器上)抵恋。
數(shù)據(jù)“回流”——從數(shù)據(jù)倉庫環(huán)境到操作型環(huán)境(非常規(guī)情況)。
數(shù)據(jù)倉庫數(shù)據(jù)的訪問——直接訪問:有非常嚴格的限制宝磨,只有非常少量的數(shù)據(jù)回流弧关,很少發(fā)生。常用的是間接訪問唤锉。如:航空公司的傭金計算系統(tǒng)世囊;零售個性化環(huán)境;金融領(lǐng)域中的信用審核
數(shù)據(jù)倉庫數(shù)據(jù)的間接使用模式:一個程序?qū)?shù)據(jù)庫進行定期的分析窿祥,以檢驗相關(guān)的特征和標準株憾。這種分析過程會在在線環(huán)境中產(chǎn)生一個小文件,內(nèi)容包括了有關(guān)企業(yè)業(yè)務(wù)方面的簡明信息壁肋。這個小文件能被快速有效地使用号胚,這樣能大大提高訪問速率。
數(shù)據(jù)集市的星形連接(多維方法浸遗,不適合數(shù)據(jù)倉庫):用來管理載入數(shù)據(jù)集市中某個實體的大量數(shù)據(jù)的設(shè)計結(jié)構(gòu)猫胁。星形連接內(nèi)分為事實表、維表跛锌。事實表還包括指向維表的預(yù)先連接的外鍵(如圖)弃秆。其好處是可以為決策支持系統(tǒng)的處理優(yōu)化數(shù)據(jù)。
難點:是數(shù)據(jù)必須周期性地從數(shù)據(jù)倉庫移到數(shù)據(jù)集市髓帽,與從原有操作環(huán)境到數(shù)據(jù)倉庫的轉(zhuǎn)移相似:必須對數(shù)據(jù)倉庫中的數(shù)據(jù)進行選擇菠赚,訪問,重組才能適合數(shù)據(jù)技術(shù)的需求郑藏。問題是訪問的數(shù)據(jù)量與刷新過程的頻率選擇衡查。
數(shù)據(jù)倉庫支持操作型數(shù)據(jù)存儲。
數(shù)據(jù)倉庫是根據(jù)企業(yè)需求而設(shè)計的必盖,聚集和組織企業(yè)需求的最好的辦法之一是叫Zachman框架的方法拌牲。
關(guān)鍵詞:數(shù)據(jù)建模,節(jié)省I/O歌粥,快照塌忽,元數(shù)據(jù),數(shù)據(jù)周期失驶,管理大量數(shù)據(jù)几缭,間接使用由桌,星形連接梧疲,Zachman框架。