小程聊微服務-數(shù)據(jù)抽取那點事(二)

一、什么是ETL

ETL(Extract-Transform-Load的縮寫婆咸,即數(shù)據(jù)抽取竹捉、轉(zhuǎn)換、裝載的過程)尚骄,對于企業(yè)或行業(yè)應用來說块差,我們經(jīng)常會遇到各種數(shù)據(jù)的處理,轉(zhuǎn)換,遷移憨闰,所以了解并掌握一種etl工具的使用状蜗,這里介紹一個ETL工具Kettle,這個工具很強大鹉动,支持圖形化的GUI設計界面轧坎,然后可以以工作流的形式流轉(zhuǎn),在做一些簡單或復雜的數(shù)據(jù)抽取训裆、質(zhì)量檢測、數(shù)據(jù)清洗蜀铲、數(shù)據(jù)轉(zhuǎn)換边琉、數(shù)據(jù)過濾等方面有著比較穩(wěn)定的表現(xiàn)。

二记劝、Kettle概念

Kettle是一款國外開源的ETL工具变姨,純java編寫,可以在Window厌丑、Linux定欧、Unix上運行,綠色無需安裝怒竿,數(shù)據(jù)抽取高效穩(wěn)定砍鸠。
Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數(shù)據(jù)放到一個壺里耕驰,然后以一種指定的格式流出爷辱。
Kettle這個ETL工具集,它允許你管理來自不同數(shù)據(jù)庫的數(shù)據(jù)朦肘,通過提供一個圖形化的用戶環(huán)境來描述你想做什么饭弓,而不是你想怎么做。
Kettle中有兩種腳本文件媒抠,transformation和job弟断,transformation完成針對數(shù)據(jù)的基礎轉(zhuǎn)換,job則完成整個工作流的控制趴生。

Kettle可以在http://kettle.pentaho.org/網(wǎng)站下載阀趴。

三、Kettle的使用

要實現(xiàn)實時的增量更新共有兩種方法:

1苍匆、通過觸發(fā)器舍咖。
在要抽取的表上建立需要的觸發(fā)器,一般要建立插入锉桑、修改排霉、刪除三個觸發(fā)器,每當源表中的數(shù)據(jù)發(fā)生變化,就被相應的觸發(fā)器將變化的數(shù)據(jù)寫入一個臨時 表攻柠,抽取線程從臨時表中抽取數(shù)據(jù)球订,臨時表中抽取過的數(shù)據(jù)被標記或刪除。觸發(fā)器方式的優(yōu)點是數(shù)據(jù)抽取的性能較高瑰钮,缺點是要求業(yè)務表建立觸發(fā)器冒滩,對業(yè)務系統(tǒng)有 一定的影響。

2.通過時間戳浪谴。
可以在兩邊數(shù)據(jù)庫的表里插入了一列(用來取數(shù)據(jù)變動時的時間)开睡,然后做個計劃任務,設置每隔多少時間跑一次kettle苟耻,就行了篇恒。要實現(xiàn)“實時”,就只能把時間間隔設小一點凶杖。

  • 通過時間戳方式

利用kettle工具胁艰,通過時間戳完成某表實時的增量更新。
利用模塊完成即可智蝠,如下簡圖:

image.png

準備一個實驗環(huán)境:
準備基本完成如下效果:
select t.*, t.rowid from EMP_ETL t

image.png

編寫時間戳ktr轉(zhuǎn)換過程腾么,把原表中最大的hiredate作為變量,如下圖:

image.png

下面在“表輸入”環(huán)節(jié)中杈湾,使用傳遞過來的${MAXSJ}作為條件解虱,完成向目標表插入數(shù)據(jù),簡要流程如下:

image.png

執(zhí)行轉(zhuǎn)換漆撞,完成數(shù)據(jù)插入饭寺,簡圖如下:

image.png

最后利用kettle形成的整體數(shù)據(jù)流如下圖所示:


image.png

下一篇文章,我將重點介紹基于Oracle的雙活方案

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末叫挟,一起剝皮案震驚了整個濱河市艰匙,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌抹恳,老刑警劉巖员凝,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異奋献,居然都是意外死亡健霹,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進店門瓶蚂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來糖埋,“玉大人,你說我怎么就攤上這事窃这⊥穑” “怎么了?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長祟敛。 經(jīng)常有香客問我疤坝,道長,這世上最難降的妖魔是什么馆铁? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任跑揉,我火速辦了婚禮,結(jié)果婚禮上埠巨,老公的妹妹穿的比我還像新娘历谍。我一直安慰自己,他們只是感情好辣垒,可當我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布望侈。 她就那樣靜靜地躺著,像睡著了一般乍构。 火紅的嫁衣襯著肌膚如雪甜无。 梳的紋絲不亂的頭發(fā)上扛点,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天哥遮,我揣著相機與錄音,去河邊找鬼陵究。 笑死眠饮,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的铜邮。 我是一名探鬼主播仪召,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼松蒜!你這毒婦竟也來了扔茅?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤秸苗,失蹤者是張志新(化名)和其女友劉穎召娜,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惊楼,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡玖瘸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了檀咙。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雅倒。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖弧可,靈堂內(nèi)的尸體忽然破棺而出蔑匣,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布殖演,位于F島的核電站氧秘,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏趴久。R本人自食惡果不足惜丸相,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望彼棍。 院中可真熱鬧灭忠,春花似錦、人聲如沸座硕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽华匾。三九已至映琳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蜘拉,已是汗流浹背萨西。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留旭旭,地道東北人谎脯。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像持寄,于是被迫代替她去往敵國和親源梭。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容