數(shù)據(jù)倉(cāng)庫(kù)第三章整理——數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

一炉菲、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述

(一)DW設(shè)計(jì)與DB設(shè)計(jì)方法的比較

1.處理類型不同

(1)DB:操作型數(shù)據(jù)環(huán)境堕战,面向業(yè)務(wù)

(2)DW:面向主題的分析型數(shù)據(jù)環(huán)境,面向分析拍霜,從基本主題開始嘱丢,不斷發(fā)展新主題

2.面向需求不同

(1)DB:一組較確定的應(yīng)用(業(yè)務(wù)處理)需求,較確定的數(shù)據(jù)流

(2)DW:需求不確切祠饺;分析處理需求靈活越驻;沒有固定模式;用戶對(duì)分析處理需求不甚明了吠裆;其設(shè)計(jì)很難以需求為基礎(chǔ)

3.設(shè)計(jì)目標(biāo)不同:

(1)DB:事務(wù)處理的性能(OLTP),支持多用戶并發(fā)訪問烂完,高效的增试疙、刪、改操作

(2)DW:建立DSS的數(shù)據(jù)環(huán)境抠蚣,全局的分析環(huán)境祝旷,支持用戶快速的分析和查詢

4.數(shù)據(jù)來源不同

(1)DB:企業(yè)的業(yè)務(wù)流中產(chǎn)生的數(shù)據(jù)

(2)DW:系統(tǒng)內(nèi)部,主要從OLTP系統(tǒng)中獲取嘶窄,經(jīng)過轉(zhuǎn)換怀跛、重組、綜合柄冲;同時(shí)包括部分外部信息

5.設(shè)計(jì)方法不同:

(1)DB:SDLC——應(yīng)用需求驅(qū)動(dòng)

(2)DW:CLDS——數(shù)據(jù)驅(qū)動(dòng)+需求驅(qū)動(dòng)

(二)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法

1.在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過程中明確需求

(1)數(shù)據(jù)倉(cāng)庫(kù)建造過程中吻谋,如果開發(fā)者等完全明確需求中之后開始工作,那么這個(gè)倉(cāng)庫(kù)永遠(yuǎn)見不起來

(2)開發(fā)人員與DSS分析員的反饋循環(huán)十分重要

2.數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原則

(1)堅(jiān)持“以數(shù)據(jù)驅(qū)動(dòng)為中心现横,數(shù)據(jù)驅(qū)動(dòng)和需求驅(qū)動(dòng)相結(jié)合”的原則

? 【1】數(shù)據(jù)驅(qū)動(dòng)是指根據(jù)當(dāng)前數(shù)據(jù)基礎(chǔ)和質(zhì)量等情況漓拾,進(jìn)行數(shù)據(jù)源分析

? 【2】需求驅(qū)動(dòng)是指根據(jù)業(yè)務(wù)方向性需求、業(yè)務(wù)問題等戒祠,確定系統(tǒng)范圍和需求框架

(2)堅(jiān)持“統(tǒng)一規(guī)劃骇两、分步實(shí)施、步步見效姜盈、逐步完善的原則”

(3)開發(fā)模型:演化模型(快速原型法)

(4)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)需要領(lǐng)域展架和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)專家之間的相互協(xié)作

3.在實(shí)際工程中的設(shè)計(jì)方法

(1)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和實(shí)現(xiàn)是一項(xiàng)工程低千,是不斷建立、發(fā)展和完善馏颂、循環(huán)求精的過程示血,并不是一個(gè)可以簡(jiǎn)單購(gòu)買的產(chǎn)品

(2)確定范圍與項(xiàng)目定義

? 【1】主要任務(wù):系統(tǒng)邊界的界定;定義并描述項(xiàng)目

? 【2】步驟: 了解用戶方向性需求救拉,發(fā)現(xiàn)業(yè)務(wù)問題矾芙,確定范圍;

? ? ? ? ? ? ? ? ? ? 對(duì)業(yè)務(wù)問題進(jìn)行排序近上,選擇高優(yōu)先級(jí)業(yè)務(wù)問題剔宪,界定系統(tǒng)邊界;

? ? ? ? ? ? ? ? ? ? 定義和識(shí)別項(xiàng)目的目的、范圍葱绒、前景感帅、價(jià)值、約束地淀、風(fēng)險(xiǎn)失球、障礙等,制定質(zhì)量管理帮毁、配置管理等計(jì)劃实苞,形成

? ? ? ? ? ? ? ? ? ? 項(xiàng)目定義文檔 ;

? ? ? ? ? ? ? ? ? ? 確定主題域烈疚,建立概念模型

(3)應(yīng)用系統(tǒng)及其數(shù)據(jù)的調(diào)研與分析

? 【1】目標(biāo):為數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)發(fā)現(xiàn)運(yùn)行穩(wěn)定黔牵、數(shù)據(jù)可靠的源系統(tǒng),并考察其數(shù)據(jù)情況

? 【2】主要任務(wù):對(duì)系統(tǒng)邊界內(nèi)的應(yīng)用系統(tǒng)進(jìn)行調(diào)研和分析爷肝,制定高層應(yīng)用系統(tǒng)流程圖猾浦,識(shí)別所有主要的應(yīng)用系統(tǒng)及其主要

? ? ? ? ? ? ? ? ? ? ? ? 內(nèi)容;

? ? ? ? ? ? ? ? ? ? ? ? 分析主要應(yīng)用系統(tǒng)的數(shù)據(jù)灯抛,形成應(yīng)用系統(tǒng)數(shù)據(jù)分析文檔金赦;

(4)數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)設(shè)計(jì)方法的基本思路

? 【1】從源數(shù)據(jù)出發(fā),分析數(shù)據(jù)对嚼,為新應(yīng)用(分析處理)所用

? 【2】根據(jù)分析處理的特點(diǎn)重新考察數(shù)據(jù)間聯(lián)系夹抗,重組數(shù)據(jù)

? 【3】數(shù)據(jù)(結(jié)構(gòu))具有相對(duì)的穩(wěn)定性,而處理變化很快纵竖,強(qiáng)調(diào)具有相對(duì)的穩(wěn)定性兔朦,二處理變化很快,強(qiáng)調(diào)數(shù)據(jù)模型的作用磨确,支持識(shí)別DB與DW中數(shù)據(jù)的“共同性”

(三)DW設(shè)計(jì)的三級(jí)數(shù)據(jù)模型

1.DB與DW三級(jí)數(shù)據(jù)模型的區(qū)別:

(1)DW的數(shù)據(jù)模型中擴(kuò)充了碼結(jié)構(gòu)沽甥,包含時(shí)間元素

(2)DW的數(shù)據(jù)模型中不包含純操作型數(shù)據(jù);但包含一些導(dǎo)出數(shù)據(jù)? ? ? ? ? ? ? ? ? ? ?

2.DW設(shè)計(jì)的三級(jí)數(shù)據(jù)模型

(1)概念模型:“信息世界”中的信息結(jié)構(gòu)乏奥,用E-R方法摆舟,以主題替代實(shí)體

(2)邏輯模型:一般采用關(guān)系模型

(3)物理模型:物理存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)方法? 如建立數(shù)據(jù)分片邓了、合并表恨诱、建立包括廣義索引在內(nèi)的各種索引機(jī)制

3.Inmon的三級(jí)數(shù)據(jù)模型

(1)高級(jí)數(shù)據(jù)模型:采用E-R方法,E-R圖中的每個(gè)實(shí)體都有預(yù)期對(duì)應(yīng)的DIS進(jìn)一步定義

(2)中級(jí)數(shù)據(jù)模型:稱為dis(Data ItemSet)一個(gè)dis與E-R中的一個(gè)主題域?qū)?yīng)

? 【1】dis的基本結(jié)構(gòu)

? ? ? 基本數(shù)據(jù)組:應(yīng)包括主題的碼和屬性骗炉,一個(gè)主題只存在一個(gè)基本數(shù)據(jù)組

? ? ? 連接數(shù)據(jù)組:反映主題之間的聯(lián)系照宝,往往是一個(gè)主題的公共碼鍵;在ER圖中表明的關(guān)系在DIS中由連接數(shù)據(jù)組體現(xiàn)

? ? ? 二級(jí)數(shù)據(jù)組:相對(duì)穩(wěn)定的數(shù)據(jù)組

? ? ? 類型數(shù)據(jù)組:頻繁變動(dòng)的數(shù)據(jù)組? ? ? ? ? ? ? ? 穩(wěn)定性:基本數(shù)據(jù)組 > 二維數(shù)據(jù)組 > 類型數(shù)據(jù)組? ? ?

(3)低級(jí)數(shù)據(jù)模型:物理模型

4.確定集成范圍和穩(wěn)定性分析

(1)確定集成范圍:定義數(shù)據(jù)模型的邊界句葵,確定實(shí)體屬于或不屬于模型范圍

? 【1】集成范圍需要在建模之前進(jìn)行定義

? 【2】集成范圍由系統(tǒng)的建模者厕鹃、管理人員和最終用戶共同確定

(2)穩(wěn)定性分析:

? 【1】根據(jù)各個(gè)數(shù)據(jù)屬性是否經(jīng)常變化的特性將這些屬性分組

? 【2】按這些屬性分組進(jìn)行表的劃分

(四)性能問題

提高系統(tǒng)新能兢仰,主要是提高系統(tǒng)的物理I/O性能

在數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)中,應(yīng)盡量減少每次查詢處理要求的I/O次數(shù)剂碴,而使每次I/O又能返回盡量多的記錄

提高數(shù)據(jù)倉(cāng)庫(kù)性能的主要途徑:

1.粒度劃分

(1)粒度:數(shù)據(jù)的綜合程度? 細(xì)節(jié)——輕度綜合——高度綜合

? 【1】一張表的數(shù)據(jù)量很大時(shí)把将,就需要兩個(gè)級(jí)別的粒度

? 【2】粒度的劃分,主要考慮行數(shù)忆矛。因?yàn)榘葱薪M織索引察蹲,索引依賴于行數(shù),索引大小直接影響I/O次數(shù)

? 【3】提高粒度的方法:當(dāng)源數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù)時(shí)催训,對(duì)它進(jìn)行匯總洽议;

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 當(dāng)源數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù)時(shí),對(duì)它求平均或進(jìn)行計(jì)算漫拭;

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 把最大/最小的一組值放入數(shù)據(jù)倉(cāng)庫(kù)亚兄;

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 只把顯然需要的數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù);

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 用條件邏輯選取記錄的一個(gè)子集放入數(shù)據(jù)倉(cāng)庫(kù)嫂侍;

? 【4】主要目的是:減少索引時(shí)所需要的I/O次數(shù)儿捧,通過增加中間值或者選取一部分?jǐn)?shù)據(jù)使查詢某一數(shù)據(jù)時(shí)不用遍歷全表

2.數(shù)據(jù)分片

(1)分片:把邏輯上統(tǒng)一的數(shù)據(jù)分割成較小的荚坞、可以獨(dú)立物理的物理單元(分片)進(jìn)行存儲(chǔ)

(2)為什么需要數(shù)據(jù)分片

在OLTP環(huán)境中挑宠,修改操作較為頻繁,采用數(shù)據(jù)分片技術(shù)容易導(dǎo)致記錄在分片之間的轉(zhuǎn)移颓影,轉(zhuǎn)移代價(jià)較高各淀;在OLAP環(huán)境中,數(shù)據(jù)極少更新诡挂,利用數(shù)據(jù)分片拘束可以大大提高性能

? 【1】減少內(nèi)存的使用空間:系統(tǒng)僅需要將用戶查詢所涉及的數(shù)據(jù)調(diào)入內(nèi)存

? 【2】Join操作代價(jià)較低:將一個(gè)大的Join擦歐總分解為若干個(gè)小Join操作之和

? 【3】數(shù)據(jù)分片后碎浇,可以利用并行操作提升查詢的效率

? 【4】增加靈活性。

(3)數(shù)據(jù)分片的標(biāo)準(zhǔn)

? 【1】數(shù)據(jù)量的大小

? 【2】數(shù)據(jù)分片處理的對(duì)象的特征以及屬性之間的相關(guān)性

? 【3】易于實(shí)現(xiàn)

? 【4】與粒度劃分策略統(tǒng)一起來

例如:按時(shí)間與商品類對(duì)銷售數(shù)據(jù)進(jìn)行綜合(粒度劃分)

? ? ? ? 每一粒度再按時(shí)間與商品類進(jìn)行分片璃俗,分片后仍便于做高度綜合

(4)數(shù)據(jù)分片策略

對(duì)于給定的磁盤個(gè)數(shù)奴璃,進(jìn)行數(shù)據(jù)分片的方法

? 【1】范圍分片:利用屬性值的范圍進(jìn)行數(shù)據(jù)分片

? ? ? ? 優(yōu)點(diǎn):數(shù)據(jù)邏輯比較清楚

? ? ? ? 缺點(diǎn):導(dǎo)致數(shù)據(jù)分配的不平衡

? 【2】循環(huán)輪轉(zhuǎn)法:按照一定順序,一次存放各個(gè)數(shù)據(jù)城豁。數(shù)據(jù)分配均勻苟穆。

? 【3】Hashing方法:利用Hash函數(shù)。數(shù)據(jù)分配均勻

3.合并表

當(dāng)有許多表時(shí)唱星,動(dòng)態(tài)連接需要進(jìn)行大量的I/O雳旅,表在物理上合并之后,只需要較少的I/O

(1)數(shù)據(jù)數(shù)組

在合適的情況下间聊,創(chuàng)建數(shù)據(jù)數(shù)組可以提高性能攒盈,節(jié)約資源

【1】數(shù)列中值的數(shù)量穩(wěn)定

【2】數(shù)值按順序訪問

【3】創(chuàng)建于修改有規(guī)律

4.選擇冗余

一項(xiàng)數(shù)據(jù)屬性(主外碼不算此類)存在于多個(gè)關(guān)系模式中,提高了性能哎榴,省去了Join操作

5.進(jìn)一步分離數(shù)據(jù)

根據(jù)訪問概率的巨大差異進(jìn)一步分離數(shù)據(jù)

6.導(dǎo)出數(shù)據(jù)

事先在源數(shù)據(jù)基礎(chǔ)上型豁,進(jìn)行匯總或計(jì)算僵蛛,生成導(dǎo)出數(shù)據(jù),導(dǎo)出數(shù)據(jù)偷遗,只計(jì)算一次就可以永久使用

7.建立廣義索引

(1)位圖索引

? 【1】針對(duì)一些特殊的列建立索引

? 【2】列中的每一個(gè)值對(duì)應(yīng)一個(gè)向量中的一位

? 【3】向量的長(zhǎng)度對(duì)應(yīng)于記錄的條數(shù)

? 【4】不適合列中值的個(gè)數(shù)太多的情況

(2)連接索引

一個(gè)表對(duì)另一個(gè)表中包含本表中相關(guān)列內(nèi)容進(jìn)行索引

(3)建立廣義(創(chuàng)造性)索引

? 【1】用于處理最大(卸胀)值問題

? 【2】當(dāng)數(shù)據(jù)裝入到DW時(shí),生成“廣義索引”內(nèi)容

? 【3】廣義索引隨著數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展氏豌,數(shù)目會(huì)增加喉酌,但每個(gè)索引的規(guī)模小,需要在元數(shù)據(jù)中定義“廣義索引”

? ? ? ? 元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù)泵喘;描述數(shù)據(jù)結(jié)構(gòu)泪电、內(nèi)容、碼纪铺、索引等信息

? ? ? ? 元數(shù)據(jù)的重要性:管理人員做分析時(shí)相速,往往先從元數(shù)據(jù)入手。例如:從元數(shù)據(jù)中查找廣義索引鲜锚,在進(jìn)一步搜索

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 支持?jǐn)?shù)據(jù)轉(zhuǎn)換:DB環(huán)境的數(shù)據(jù) DW環(huán)境的數(shù)據(jù)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 元數(shù)據(jù)描述“轉(zhuǎn)換”突诬;元數(shù)據(jù)本身具有良好的靈活性,適應(yīng)變化芜繁。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 支持對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的理解旺隙,例如:結(jié)構(gòu)、粒度層次骏令、分片策略蔬捷、索引等

二、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟

基本思路:

? 數(shù)據(jù)驅(qū)動(dòng):

? ? 從現(xiàn)存數(shù)據(jù)庫(kù)系統(tǒng)基礎(chǔ)上進(jìn)行開發(fā):抽取榔袋、綜合周拐、集成

? ? 服務(wù)管理決策分析

? 原型法:

? ? 不斷反饋、循環(huán)凰兑、理解需求妥粟,使系統(tǒng)增長(zhǎng)、完善

? ? 步驟是大體上的吏够,不是絕對(duì)的順序

? ? 決策人員的參與極其重要

? 大體步驟:

? ? 概念模型設(shè)計(jì)? 邏輯模型設(shè)計(jì)? 物理模型設(shè)計(jì)

? ? 數(shù)據(jù)倉(cāng)庫(kù)生成? 數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行與維護(hù)

(一)概念模型設(shè)計(jì)

1.任務(wù):

(1)確定系統(tǒng)邊界

? 【1】深入了解目前擁有的操作型數(shù)據(jù)

? 【2】了解方向性需求

? 【3】確定信息需求勾给,確定數(shù)據(jù)覆蓋范圍

? 【4】了解源數(shù)據(jù)的狀況? ? 例如“涉及的信息”包含DB中哪些部分

(2)確定主題域

? 【1】確定系統(tǒng)所包含的主題域

? 【2】確定主題域的內(nèi)容:公共碼鍵,代表主題的屬性組

? 【3】主題域之間的聯(lián)系

(二)邏輯模型設(shè)計(jì)任務(wù)

1.對(duì)主題域中所包含的內(nèi)容進(jìn)行進(jìn)一步的細(xì)化稿饰,每一主題域包含若干個(gè)數(shù)據(jù)組

2.消除純粹是操作型的數(shù)據(jù):如操作人員锦秒、校對(duì)人員、客戶電話號(hào)碼等

3.對(duì)主題域之間的關(guān)系進(jìn)一步細(xì)化為表與表之間的關(guān)系喉镰,對(duì)多對(duì)多的關(guān)系進(jìn)行有效分析

4.增加時(shí)間屬性:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)反映歷史變化的過程旅择,它是一定時(shí)間的數(shù)據(jù)快照,因此必須包含時(shí)間主鍵侣姆。

(三)邏輯模型具體任務(wù)

1.分析主題域

(1)對(duì)E-R概念模型中的主題進(jìn)行選取生真,選取當(dāng)前實(shí)施的主題域

(2)選取主題域大(足以建立一個(gè)可應(yīng)用系統(tǒng))谐霖(實(shí)施快、方便)合適

2.粒度層次的劃分

(1)數(shù)據(jù)量很大柱蟀,宜采用多重粒度

(2)對(duì)商品銷售記錄

3.數(shù)據(jù)分片策略

(1)數(shù)據(jù)量大小

(2)數(shù)據(jù)分析處理要求:與分析處理的對(duì)象有關(guān)

(3)分片標(biāo)準(zhǔn):盡量自然川蒙、易實(shí)施

(4)與粒度層次劃分相適應(yīng)

4.引入冗余

(1)提高查詢效率,減少Join操作

5.增加導(dǎo)出數(shù)據(jù)

(1)增加派生數(shù)據(jù):對(duì)于用戶經(jīng)常需要分析的數(shù)據(jù)长已,或者未來提供系統(tǒng)訪問的效率畜眨,可以適當(dāng)增加派生數(shù)據(jù)

6.簡(jiǎn)要記錄

(1)把操作型數(shù)據(jù)中許多不同的、詳細(xì)記錄組合一起术瓮;以聚集形式代表許多條操作型記錄

(2)優(yōu)點(diǎn):

? 【1】為最終用戶的訪問和分析提供了一種緊湊方便的數(shù)據(jù)組織形式

? 【2】使數(shù)據(jù)量降低2-3個(gè)數(shù)量級(jí)

(3)缺點(diǎn):信息的細(xì)節(jié)程度降低

7.關(guān)系模式定義——實(shí)質(zhì)就是對(duì)表的定義康聂,確定各個(gè)表和表的公共鍵

(1)由多個(gè)表來實(shí)現(xiàn)主題,各表之間安依靠公共碼鍵相聯(lián)系

(2)表的劃分胞四,各個(gè)表的關(guān)系模式恬汁,細(xì)節(jié)數(shù)據(jù)用表來組織;綜合數(shù)據(jù)也用表來組織

8.定義記錄系統(tǒng)——從現(xiàn)有系統(tǒng)環(huán)境中選取與主題域最貼切的數(shù)據(jù)作為定義記錄系統(tǒng)

(1)根據(jù)DW中多個(gè)表的關(guān)系模式辜伟,從源數(shù)據(jù)中選擇最合適的數(shù)據(jù)作為記錄系統(tǒng)

(2)所選數(shù)據(jù)所在表的關(guān)系模式最接近DW中多個(gè)表的關(guān)系模式

(3)記錄系統(tǒng)定義氓侧,計(jì)入DW的元數(shù)據(jù)中

(4)表述數(shù)據(jù)模型的最好數(shù)據(jù):最實(shí)時(shí)、最準(zhǔn)確导狡、最完備约巷、與輸入現(xiàn)存系統(tǒng)環(huán)境的數(shù)據(jù)源最近、具有結(jié)構(gòu)兼容性

9.重建操作型處理環(huán)境

(1)原因:操作型環(huán)境處于一種“混亂”狀態(tài):系統(tǒng)老化烘豌、技術(shù)老化载庭、組織上的巨變看彼、大幅度改變了需求

(2)數(shù)據(jù)體系結(jié)構(gòu)設(shè)計(jì)人員得將變化動(dòng)因與體系結(jié)構(gòu)的鈣奶呢結(jié)合起來廊佩,實(shí)現(xiàn)操作型處理環(huán)境的重建

? 【1】差異列表:該數(shù)據(jù)模型與現(xiàn)存系統(tǒng)不同之處

? 【2】影響分析:每一個(gè)差異項(xiàng)目是如何表明差異的

? 【3】資源估計(jì):修復(fù)差異項(xiàng)目需要多少費(fèi)用

? 【4】給管理層的報(bào)告:需要修復(fù)什么、估計(jì)需要什么資源靖榕、工序标锄、損失分析

(三)物理模型設(shè)計(jì)

1.確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)

選擇合適的存儲(chǔ)結(jié)構(gòu)時(shí)的主要因素:

(1)存取時(shí)間

(2)存儲(chǔ)空間利用率

(3)維護(hù)代價(jià)

2.確定索引策略

根據(jù)DW中數(shù)據(jù)不可更新的特點(diǎn),可以設(shè)計(jì)多種索引茁计,如廣義索引料皇,放在元數(shù)據(jù)中

3.確定數(shù)據(jù)的存放位置

(1)根據(jù)重要程度、使用頻繁和響應(yīng)時(shí)間對(duì)數(shù)據(jù)進(jìn)行分類星压,不同類的數(shù)據(jù)可以存放在不同的存儲(chǔ)設(shè)備中

(2)考慮冗余存儲(chǔ)践剂、數(shù)據(jù)序列等方法

4.確定存儲(chǔ)分配

選擇存儲(chǔ)分配的參數(shù)(設(shè)定),進(jìn)行優(yōu)化娜膘,如:存儲(chǔ)開的大小逊脯、緩沖區(qū)的大小和個(gè)數(shù)

(四)數(shù)據(jù)倉(cāng)庫(kù)的生成

1.轉(zhuǎn)換和集成的復(fù)雜性

(1)遷移時(shí)的技術(shù)難度:

? 【1】DBMS的變化,即記錄系統(tǒng)是在一個(gè)DBMS中竣贪,而數(shù)據(jù)倉(cāng)庫(kù)在另一個(gè)DBMS中

? 【2】操作系統(tǒng)的變化军洼,記錄系統(tǒng)在一個(gè)操作系統(tǒng)中巩螃,而數(shù)據(jù)倉(cāng)庫(kù)在另一個(gè)操作系統(tǒng)中

? 【3】記錄系統(tǒng)涉及多個(gè)DBMS和/或操作系統(tǒng)時(shí),需要將源自不同DBMS和操作系統(tǒng)的數(shù)據(jù)合并起來

? 【4】在Web記錄中獲取基于Web的數(shù)據(jù)匕争,一旦捕獲到數(shù)據(jù)以后如何將數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù)中使用

? 【5】基本數(shù)據(jù)格式的變化避乏,如某個(gè)環(huán)節(jié)難過中的數(shù)據(jù)是用ASCII碼存儲(chǔ)的,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是用EBCDIC存儲(chǔ)

(2)選擇數(shù)據(jù)十分復(fù)雜甘桑,為判定一個(gè)記錄是否需要抽取拍皮,需要針對(duì)其他文件記錄進(jìn)行協(xié)調(diào)查詢

(3)輸入關(guān)鍵字需要重建并進(jìn)行轉(zhuǎn)換

(4)對(duì)輸入數(shù)據(jù)進(jìn)行清理,取值范圍檢查跑杭、交叉記錄檢驗(yàn)

(5)數(shù)據(jù)文件進(jìn)行合并

? 【1】存在多個(gè)數(shù)據(jù)源時(shí)春缕,加載到數(shù)據(jù)倉(cāng)庫(kù)要進(jìn)行文件合并

? 【2】不同輸入文件使用不同的關(guān)鍵字結(jié)構(gòu),合并程序必須進(jìn)行關(guān)鍵字解析

? 【3】因?yàn)槎鄠€(gè)輸入文件的順序可能不相同甚至互不相容艘蹋,輸入文件需要重新排序

(6)會(huì)產(chǎn)生多個(gè)輸出結(jié)果:創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)時(shí)锄贼,會(huì)產(chǎn)生不同的綜合層次的結(jié)果

(7)需要提供缺省值:輸出值沒有對(duì)應(yīng)的輸入源

(8)刷新時(shí)的效率:區(qū)分需要與不需要抽取的操作型數(shù)據(jù)

(9)經(jīng)常需要進(jìn)行數(shù)據(jù)的匯總:多個(gè)操作型輸入記錄合并成的單個(gè)“簡(jiǎn)要”數(shù)據(jù)倉(cāng)庫(kù)記錄

(10)重命名操作的跟蹤:數(shù)據(jù)元素從操作型環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)移過程中,可能被改名字女阀,因而必須生成記錄這些變化的文檔

(11)進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換:輸入記錄具有不常見的或非標(biāo)準(zhǔn)的格式

(12)大容量輸入問題:并行裝載宅荤、并行讀入,必須引入特殊的設(shè)計(jì)方法

(13)加入時(shí)間元素:數(shù)據(jù)倉(cāng)庫(kù)反映對(duì)信息的歷史需求浸策,當(dāng)操作型數(shù)據(jù)載入到數(shù)據(jù)倉(cāng)庫(kù)時(shí)應(yīng)加入時(shí)間元素

(14)必須符合企業(yè)數(shù)據(jù)模型:數(shù)據(jù)源的應(yīng)用程序往往是很久以前設(shè)計(jì)的經(jīng)過多次維護(hù)冯键,但沒有相關(guān)文檔,并且未考慮與其他應(yīng)用的集成庸汗,因而建數(shù)據(jù)倉(cāng)庫(kù)時(shí)必須考慮企業(yè)數(shù)據(jù)模型所體現(xiàn)的有關(guān)規(guī)則與限制

2.轉(zhuǎn)換與集成的步驟

(1)考慮數(shù)據(jù)從操作型環(huán)境到DSS環(huán)境中的映射問題

(2)以程序說明的形式將接口形式化惫确,用于把數(shù)據(jù)從操作型環(huán)境引入數(shù)據(jù)倉(cāng)庫(kù)中

(3)所有編程的標(biāo)準(zhǔn)活動(dòng)

(4)執(zhí)行前面開發(fā)的程序,把數(shù)據(jù)子啊如數(shù)據(jù)倉(cāng)庫(kù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蚯舱,一起剝皮案震驚了整個(gè)濱河市改化,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌枉昏,老刑警劉巖陈肛,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異兄裂,居然都是意外死亡句旱,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門晰奖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來谈撒,“玉大人,你說我怎么就攤上這事匾南】心洌” “怎么了?”我有些...
    開封第一講書人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵午衰,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng)止潘,這世上最難降的妖魔是什么囱井? 我笑而不...
    開封第一講書人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己崖技,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開白布钟哥。 她就那樣靜靜地躺著迎献,像睡著了一般。 火紅的嫁衣襯著肌膚如雪腻贰。 梳的紋絲不亂的頭發(fā)上吁恍,一...
    開封第一講書人閱讀 51,182評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音播演,去河邊找鬼冀瓦。 笑死,一個(gè)胖子當(dāng)著我的面吹牛写烤,可吹牛的內(nèi)容都是我干的翼闽。 我是一名探鬼主播,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼洲炊,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼感局!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起暂衡,我...
    開封第一講書人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤询微,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后古徒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拓提,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡读恃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年隧膘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寺惫。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡疹吃,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出西雀,到底是詐尸還是另有隱情萨驶,我是刑警寧澤,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布艇肴,位于F島的核電站腔呜,受9級(jí)特大地震影響叁温,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜核畴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一膝但、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧谤草,春花似錦跟束、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至温学,卻和暖如春略贮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背仗岖。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工刨肃, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人箩帚。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓真友,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親紧帕。 傳聞我的和親對(duì)象是個(gè)殘疾皇子盔然,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容