數(shù)據(jù)倉庫3借杰、設(shè)計數(shù)據(jù)倉庫

建造數(shù)據(jù)倉庫包括——與操作型系統(tǒng)接口的設(shè)計 + 數(shù)據(jù)倉庫本身的設(shè)計。

1进泼、操作型數(shù)據(jù)蔗衡。

? ?難點1 集成——由于不同應(yīng)用的數(shù)據(jù)集成性很差纤虽,因此在從現(xiàn)有操作型系統(tǒng)到數(shù)據(jù)倉庫中的數(shù)據(jù)必須先集成。即統(tǒng)一名稱绞惦、字段逼纸、單位等。

? ?難點2 裝載——難點在于當(dāng)操作型環(huán)境發(fā)生變化時济蝉,不斷地將變化數(shù)據(jù)裝載到倉庫中杰刽。即要有效捕捉到不斷發(fā)生的日常變化并對之進行處理:掃描系統(tǒng)現(xiàn)有文件。常用技術(shù)有3種:掃描在操作環(huán)境中那些被打上時間戳的數(shù)據(jù)堆生;掃描增量文件专缠;掃描作為事務(wù)處理的副產(chǎn)品的日志文件或者審計文件。

難點3 時基變化——附加時間元素淑仆。

2涝婉、 數(shù)據(jù)倉庫與數(shù)據(jù)模型

? ?數(shù)據(jù)建模分為三個層次:高層建模(實體關(guān)系圖,ERD)蔗怠,中間層建模(數(shù)據(jù)項集墩弯,DIS),底層建模(物理模型)寞射。

? ?ERD:表明了實體或者主要主題以及他們之間的關(guān)系渔工。該層的實體屬于最高抽象層。由建模者桥温、管理人員和最終用戶確定的集成范圍(決定哪些實體屬于模型范圍而哪些不屬于)定義了數(shù)據(jù)模型的邊界引矩。

? ?DIS:對ERD中的每個實體都要建立。由四個部分組成:主要數(shù)據(jù)分組(包含每個主要主題域的屬性和關(guān)鍵字侵浸,每個主要主題域有且只有一個)旺韭;二級數(shù)據(jù)分組(包含每個主要主題域可以存在多次的數(shù)據(jù)屬性);連接器(表示兩個主要主題域間的數(shù)據(jù)關(guān)系)掏觉;數(shù)據(jù)的“類型”(左邊是超類型区端,右邊是數(shù)據(jù)的子類型)。

? ?一般來講澳腹,數(shù)據(jù)模型的每個數(shù)據(jù)分組都將產(chǎn)生一個在數(shù)據(jù)庫設(shè)計過程中定義的表织盼。

? ?物理數(shù)據(jù)模型——拓展中間層模型,是模型中包含有關(guān)鍵字和物理特性酱塔。物理設(shè)計中要進行性能特征的優(yōu)化(如下圖)沥邻,核心是物理I/O的使用情況,最大限度地減少不得不進行的物理I/O羊娃,以保證一次物理I/O能返回最大數(shù)量的記錄谋国。

數(shù)據(jù)倉庫中的數(shù)據(jù)一般不更新,這樣設(shè)計者就可以采用一些在數(shù)據(jù)經(jīng)常需要更新的情況下不能接受的物理設(shè)計技術(shù)迁沫。

任何情況下芦瘾,數(shù)據(jù)倉庫都應(yīng)當(dāng)以迭代的方式進行建造:先建造一部分,再建造另一部分集畅。

節(jié)省I/O的舉措:①創(chuàng)建數(shù)組——當(dāng)數(shù)列中值的數(shù)量穩(wěn)定近弟、數(shù)據(jù)時按順序訪問的、數(shù)據(jù)的創(chuàng)建與修改是在統(tǒng)計上以非常有規(guī)律的方式進行時挺智,可以創(chuàng)建數(shù)據(jù)數(shù)組來節(jié)省I/O祷愉。②有意引入冗余數(shù)據(jù)——經(jīng)常使用但幾乎不更新的數(shù)據(jù)放在多個位置。③引入導(dǎo)出數(shù)據(jù)(已計算出的數(shù)據(jù))赦颇。④建立創(chuàng)造性索引創(chuàng)造性概要文件二鳄。⑤參照完整性(表現(xiàn)為數(shù)據(jù)表之間的動態(tài)鏈接)的管理 。

快照:記錄著一些事件的發(fā)生媒怯。觸發(fā)快照的事件一類是對離散活動信息的記錄订讼,如業(yè)務(wù)活動。另一類是時間扇苞。包含時間(通常是快照發(fā)生的時間)欺殿、關(guān)鍵字、非關(guān)鍵字的主要數(shù)據(jù)鳖敷、二級數(shù)據(jù)(快照記錄創(chuàng)建時捕獲的外來信息)脖苏。

元數(shù)據(jù)——關(guān)于數(shù)據(jù)的數(shù)據(jù)(描述數(shù)據(jù)的數(shù)據(jù))。元數(shù)據(jù)與數(shù)據(jù)倉庫內(nèi)容的索引類似定踱,處于數(shù)據(jù)倉庫的上層棍潘,并記錄數(shù)據(jù)倉庫中對象分位置。需要注意的是參照表的管理崖媚。

數(shù)據(jù)周期——指從操作型環(huán)境中的數(shù)據(jù)發(fā)生改變起亦歉,到這個變化反映到數(shù)據(jù)倉庫中所用的時間。一般情況是24小時至扰,原因如下①周期越短技術(shù)越昂貴鳍徽,24小時性價比最高。②數(shù)據(jù)在到達數(shù)據(jù)倉庫前能達到穩(wěn)定敢课。

數(shù)據(jù)轉(zhuǎn)換和集成遠比想象中復(fù)雜很多倍阶祭。

數(shù)據(jù)倉庫記錄的觸發(fā)——“事件-快照”交互:引起數(shù)據(jù)倉庫的數(shù)據(jù)載入的基本的業(yè)務(wù)交互活動。事件觸發(fā)數(shù)據(jù)快照直秆,數(shù)據(jù)快照轉(zhuǎn)移到倉庫環(huán)境中濒募。

概要記錄——把操作型數(shù)據(jù)中許多不同的、詳細的記錄合在一起形成一條記錄圾结。好處是為最終用戶的訪問和分析提供了一個緊湊的瑰剃、方便的數(shù)據(jù)組織形式。

管理大量數(shù)據(jù)——建立概要記錄筝野。缺點是會丟失一部分細節(jié)晌姚。為了避免丟失重要細節(jié)粤剧,第一種方法是迭代地建立概要記錄,增加修改記錄的靈活性挥唠。第二種方法是在建立概要記錄的同時建立歷史細節(jié)的備用層(全部細節(jié)儲存在便宜的存儲器上)抵恋。

數(shù)據(jù)“回流”——從數(shù)據(jù)倉庫環(huán)境到操作型環(huán)境(非常規(guī)情況)。

數(shù)據(jù)倉庫數(shù)據(jù)的訪問——直接訪問:有非常嚴格的限制宝磨,只有非常少量的數(shù)據(jù)回流弧关,很少發(fā)生。常用的是間接訪問唤锉。如:航空公司的傭金計算系統(tǒng)世囊;零售個性化環(huán)境;金融領(lǐng)域中的信用審核

數(shù)據(jù)倉庫數(shù)據(jù)的間接使用模式:一個程序?qū)?shù)據(jù)庫進行定期的分析窿祥,以檢驗相關(guān)的特征和標準株憾。這種分析過程會在在線環(huán)境中產(chǎn)生一個小文件,內(nèi)容包括了有關(guān)企業(yè)業(yè)務(wù)方面的簡明信息壁肋。這個小文件能被快速有效地使用号胚,這樣能大大提高訪問速率。

數(shù)據(jù)集市的星形連接(多維方法浸遗,不適合數(shù)據(jù)倉庫):用來管理載入數(shù)據(jù)集市中某個實體的大量數(shù)據(jù)的設(shè)計結(jié)構(gòu)猫胁。星形連接內(nèi)分為事實表維表跛锌。事實表還包括指向維表的預(yù)先連接的外鍵(如圖)弃秆。其好處是可以為決策支持系統(tǒng)的處理優(yōu)化數(shù)據(jù)。

難點:是數(shù)據(jù)必須周期性地從數(shù)據(jù)倉庫移到數(shù)據(jù)集市髓帽,與從原有操作環(huán)境到數(shù)據(jù)倉庫的轉(zhuǎn)移相似:必須對數(shù)據(jù)倉庫中的數(shù)據(jù)進行選擇菠赚,訪問,重組才能適合數(shù)據(jù)技術(shù)的需求郑藏。問題是訪問的數(shù)據(jù)量與刷新過程的頻率選擇衡查。

數(shù)據(jù)倉庫支持操作型數(shù)據(jù)存儲。

數(shù)據(jù)倉庫是根據(jù)企業(yè)需求而設(shè)計的必盖,聚集和組織企業(yè)需求的最好的辦法之一是叫Zachman框架的方法拌牲。

關(guān)鍵詞:數(shù)據(jù)建模,節(jié)省I/O歌粥,快照塌忽,元數(shù)據(jù),數(shù)據(jù)周期失驶,管理大量數(shù)據(jù)几缭,間接使用由桌,星形連接梧疲,Zachman框架。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末棉圈,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子埂奈,更是在濱河造成了極大的恐慌迄损,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件账磺,死亡現(xiàn)場離奇詭異,居然都是意外死亡痊远,警方通過查閱死者的電腦和手機垮抗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碧聪,“玉大人冒版,你說我怎么就攤上這事〕炎耍” “怎么了辞嗡?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長滞造。 經(jīng)常有香客問我续室,道長,這世上最難降的妖魔是什么谒养? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任挺狰,我火速辦了婚禮,結(jié)果婚禮上买窟,老公的妹妹穿的比我還像新娘丰泊。我一直安慰自己,他們只是感情好始绍,可當(dāng)我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布瞳购。 她就那樣靜靜地躺著,像睡著了一般亏推。 火紅的嫁衣襯著肌膚如雪学赛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天径簿,我揣著相機與錄音罢屈,去河邊找鬼。 笑死篇亭,一個胖子當(dāng)著我的面吹牛缠捌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼曼月,長吁一口氣:“原來是場噩夢啊……” “哼谊却!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起哑芹,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤炎辨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后聪姿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體碴萧,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年末购,在試婚紗的時候發(fā)現(xiàn)自己被綠了破喻。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡盟榴,死狀恐怖曹质,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情擎场,我是刑警寧澤羽德,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站迅办,受9級特大地震影響宅静,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜礼饱,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一坏为、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧镊绪,春花似錦匀伏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至榄鉴,卻和暖如春履磨,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背庆尘。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工剃诅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人驶忌。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓矛辕,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子聊品,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容