1赠制、Data Consolidation: 數(shù)據(jù)整合
2砚哗、Data Integration: 數(shù)據(jù)集成
2.1宝惰、概述
將分散的數(shù)據(jù)源的數(shù)據(jù)妇拯,邏輯的或物理的集中到一個(gè)數(shù)據(jù)集合中播急。使用戶以相同的方式訪問(wèn)所有數(shù)據(jù)源脓钾。
2.2、難點(diǎn)及處理方法?
?1) 異構(gòu):數(shù)據(jù)源的語(yǔ)義桩警,相同語(yǔ)義數(shù)據(jù)的表達(dá)形式不同可训,數(shù)據(jù)源使用環(huán)境不同;
由數(shù)據(jù)源建模的不同而引起數(shù)據(jù)的異構(gòu)捶枢。如果數(shù)據(jù)源間的實(shí)體關(guān)系模型相同握截,只是命名規(guī)則不同時(shí),屬于語(yǔ)法異構(gòu)烂叔。
語(yǔ)法異構(gòu): 只需要知道數(shù)據(jù)結(jié)構(gòu)信息谨胞,將數(shù)據(jù)源結(jié)構(gòu)映射到目標(biāo)數(shù)據(jù)結(jié)構(gòu)上即可。
語(yǔ)義異構(gòu):一般需要直接處理內(nèi)容蒜鸡。如內(nèi)容合并胯努、內(nèi)容拆分、數(shù)據(jù)類型變換等术瓮。
2) 自治性:各數(shù)據(jù)源有很強(qiáng)的自治性康聂,可能在不通知集成的情況下改變結(jié)構(gòu)和數(shù)據(jù)。
2.3胞四、數(shù)據(jù)集成分類
1)基本集成
通用標(biāo)識(shí)符問(wèn)題: 當(dāng)同一實(shí)體存在于多個(gè)系統(tǒng)中恬汁,并且沒(méi)有辦法確認(rèn)他們屬于同一個(gè)實(shí)體時(shí)。
2)視圖集成
2.4辜伟、常見(jiàn)數(shù)據(jù)集成方法
1)數(shù)據(jù)倉(cāng)庫(kù):將各個(gè)數(shù)據(jù)源的數(shù)據(jù)復(fù)制到同一處氓侧,方便用戶訪問(wèn)所有數(shù)據(jù)。
它不是面向事務(wù)的(實(shí)時(shí)應(yīng)用导狡,減少數(shù)據(jù)冗余约巷,符合范式),是面向主題的(引入冗余旱捧,反范式設(shè)計(jì)独郎,一般存儲(chǔ)歷史數(shù)據(jù))踩麦。
它不是為捕獲數(shù)據(jù)而設(shè)計(jì)的,而是為查詢和分析數(shù)據(jù)而設(shè)計(jì)的氓癌。它的兩個(gè)基本的元素是維度表和事實(shí)表.維表是看問(wèn)題的角度谓谦,如時(shí)間、部門(mén)贪婉。維度表中放的就是這些維度的定義反粥。數(shù)據(jù)表放的是待查詢的數(shù)據(jù),同時(shí)有維的ID疲迂。
2)數(shù)據(jù)中間件
3才顿、Data Fusion:數(shù)據(jù)融合
3、1 多源數(shù)據(jù)特點(diǎn):
冗余性尤蒿、互補(bǔ)性郑气、合作性
3、2 多源數(shù)據(jù)融合目標(biāo)
去除數(shù)據(jù)冗余和矛盾腰池,通過(guò)互補(bǔ)提高數(shù)據(jù)質(zhì)量竣贪。
4、Information Fusion: 信息融合
5巩螃、 數(shù)據(jù)監(jiān)控
注入了多少數(shù)據(jù)?
按數(shù)據(jù)源統(tǒng)計(jì)匕争。