數(shù)據(jù)抽取中的CDC(變化數(shù)據(jù)捕獲)方式

? ? ? ?考慮一個問題:需要抽取哪部分?jǐn)?shù)據(jù)加載到數(shù)據(jù)倉庫播揪?是完全抽取還是變化數(shù)據(jù)捕獲?
? ? ? ?如果數(shù)據(jù)量很小筒狠,則采取完全源數(shù)據(jù)抽戎肀贰;如果源數(shù)據(jù)量很大辩恼,則抽取變化的源數(shù)據(jù)雇庙,這種數(shù)據(jù)抽取模式叫做變化數(shù)據(jù)捕獲,簡稱CDC灶伊。
? ? ? ?CDC大體分為兩種:侵入式和非侵入式疆前。侵入式指CDC操作會給源系統(tǒng)帶來性能影響,只要CDC操作以任何一種方式對源數(shù)據(jù)庫執(zhí)行了SQL操作聘萨,就認(rèn)為是侵入式的竹椒。
? ? ? ?常用的4種CDC方法是:基于時間戳的CDC、基于觸發(fā)器的CDC米辐、基于快照的CDC和基于日志的CDC胸完,其中前三種是侵入式的。

1.基于時間戳的CDC

? ? ? ?抽取過程可以根據(jù)某些屬性列來判斷哪些數(shù)據(jù)是增量的翘贮,最常見的屬性列有以下兩種:
1.時間戳:最好有兩個列赊窥,一個插入時間戳,表示何時創(chuàng)建狸页,一個更新時間戳锨能,表示最后一次更新的時間。
2.序列:大多數(shù)數(shù)據(jù)庫都提供自增功能芍耘,如果數(shù)據(jù)庫表列被定義成自增的腹侣,就可以很容易地根據(jù)該列識別新插入的數(shù)據(jù)。

? ? ? ?這種方法是最簡單且常用的齿穗,但是有如下缺點(diǎn):
1.不能記錄刪除記錄的操作
2.無法識別多次更新
3.不具有實(shí)時能力

2.基于觸發(fā)器的CDC

? ? ? ?當(dāng)執(zhí)行INSERT、UPDATE饺律、DELETE這些SQL語句時窃页,可以激活數(shù)據(jù)庫里的觸發(fā)器跺株,并執(zhí)行一些動作,就是說觸發(fā)器可以用來捕獲變更的數(shù)據(jù)并把數(shù)據(jù)保存在中間臨時表里脖卖。然后這些變更數(shù)據(jù)再從臨時表取出乒省,抽取到數(shù)據(jù)倉庫的過渡區(qū)中。大多數(shù)場合下畦木,不允許向操作型數(shù)據(jù)庫里添加觸發(fā)器袖扛,且這種方法會降低系統(tǒng)性能,所以用的不多十籍。
? ? ? ?可以使用源數(shù)據(jù)庫的復(fù)制功能蛆封,將源庫的數(shù)據(jù)備用到備用庫上,在備庫上創(chuàng)建觸發(fā)器勾栗。

3.基于快照的CDC

? ? ? ?如果沒有時間戳惨篱,不允許使用觸發(fā)器,就要使用快照表围俘≡一洌可以通過比較源表和快照表來獲得數(shù)據(jù)變化。
? ? ? ?基于快照的CDC可以檢測到插入界牡、更新和刪除的數(shù)據(jù)簿寂,這是相對于基于時間戳的CDC方案的有點(diǎn)。其缺點(diǎn)是需要大量存儲空間來保存快照宿亡。

4.基于日志的CDC

? ? ? ?最復(fù)雜的和沒有侵入性的CDC方法是基于日志的方式常遂。數(shù)據(jù)庫會把每個插入、更新她混、刪除操作記錄到日志里烈钞。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市坤按,隨后出現(xiàn)的幾起案子毯欣,更是在濱河造成了極大的恐慌,老刑警劉巖臭脓,帶你破解...
    沈念sama閱讀 222,378評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件酗钞,死亡現(xiàn)場離奇詭異,居然都是意外死亡来累,警方通過查閱死者的電腦和手機(jī)砚作,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嘹锁,“玉大人葫录,你說我怎么就攤上這事×旎” “怎么了米同?”我有些...
    開封第一講書人閱讀 168,983評論 0 362
  • 文/不壞的土叔 我叫張陵骇扇,是天一觀的道長。 經(jīng)常有香客問我面粮,道長少孝,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,938評論 1 299
  • 正文 為了忘掉前任熬苍,我火速辦了婚禮宙项,結(jié)果婚禮上纯赎,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好革娄,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評論 6 398
  • 文/花漫 我一把揭開白布菠剩。 她就那樣靜靜地躺著求厕,像睡著了一般趣苏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上凿歼,一...
    開封第一講書人閱讀 52,549評論 1 312
  • 那天褪迟,我揣著相機(jī)與錄音,去河邊找鬼答憔。 笑死味赃,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的虐拓。 我是一名探鬼主播心俗,決...
    沈念sama閱讀 41,063評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蓉驹!你這毒婦竟也來了城榛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,991評論 0 277
  • 序言:老撾萬榮一對情侶失蹤态兴,失蹤者是張志新(化名)和其女友劉穎狠持,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瞻润,經(jīng)...
    沈念sama閱讀 46,522評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡喘垂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了绍撞。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片正勒。...
    茶點(diǎn)故事閱讀 40,742評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖傻铣,靈堂內(nèi)的尸體忽然破棺而出章贞,到底是詐尸還是另有隱情,我是刑警寧澤非洲,帶...
    沈念sama閱讀 36,413評論 5 351
  • 正文 年R本政府宣布阱驾,位于F島的核電站就谜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏里覆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評論 3 335
  • 文/蒙蒙 一缆瓣、第九天 我趴在偏房一處隱蔽的房頂上張望喧枷。 院中可真熱鬧,春花似錦弓坞、人聲如沸隧甚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽戚扳。三九已至,卻和暖如春族吻,著一層夾襖步出監(jiān)牢的瞬間帽借,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評論 1 274
  • 我被黑心中介騙來泰國打工超歌, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留砍艾,地道東北人。 一個月前我還...
    沈念sama閱讀 49,159評論 3 378
  • 正文 我出身青樓巍举,卻偏偏與公主長得像脆荷,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子懊悯,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評論 2 361

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理蜓谋,服務(wù)發(fā)現(xiàn),斷路器炭分,智...
    卡卡羅2017閱讀 134,714評論 18 139
  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 31,950評論 2 89
  • 宮崎駿的《千與千尋》里桃焕,那個無臉男給我的感動很深刻。我所理解的他是一種孤獨(dú)到極點(diǎn)的代表欠窒。當(dāng)遇到善良的小千時覆旭,他的世...
    瑜伽喵閱讀 792評論 17 14
  • 剪短的發(fā),不帶一絲凌亂與分叉 一絲絲岖妄,一縷縷型将, 宣告分離的神秘與神話; 暗暗的紅荐虐,裝點(diǎn)久違的黑色揮灑七兜, 一處處,一...
    Hnlyx閱讀 427評論 0 0
  • 之前一直在追求干貨福扬,原因很簡單腕铸,簡單快捷省時省里惜犀,唯一需要付出的就是對他們的理解而已,簡直是高效學(xué)習(xí)的不二之選狠裹。 ...
    四橫閱讀 233評論 0 0