數(shù)據(jù)整合是吧在不同數(shù)據(jù)源的數(shù)據(jù)收集荸频、整理菱肖、清洗、轉(zhuǎn)換(有點像ETL)后旭从,加載到一個新的數(shù)據(jù)源稳强,為數(shù)據(jù)使用者提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式场仲。
數(shù)據(jù)整合
數(shù)據(jù)整合是共享或者合并來自于兩個或者更多應用的數(shù)據(jù),創(chuàng)建一個具有更多功能的企業(yè)應用的過程退疫。傳統(tǒng)的商業(yè)應用有很強的面向?qū)ο笮浴此麄円揽砍掷m(xù)的數(shù)據(jù)結(jié)構(gòu)為商業(yè)實體和過程建模渠缕。當這種情況發(fā)生時,邏輯方式是通過數(shù)據(jù)共享或合并進行整合褒繁,而其他情況下亦鳞,來自于一個應用的數(shù)據(jù)可能是重新構(gòu)造才能和另一個應用的數(shù)據(jù)結(jié)構(gòu)匹配,然后被直接寫進另一個數(shù)據(jù)庫棒坏。
下面我們將介紹一個目前比較成熟穩(wěn)定的數(shù)據(jù)整合工具:Kettle
Kettle 介紹
Kettle是一款國外開源的ETL工具燕差,純java編寫,可以在Window坝冕、Linux谁不、Unix上運行,綠色無需安裝徽诲,數(shù)據(jù)抽取高效穩(wěn)定刹帕。
Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數(shù)據(jù)放到一個壺里谎替,然后以一種指定的格式流出偷溺。
Kettle這個ETL工具集,它允許你管理來自不同數(shù)據(jù)庫的數(shù)據(jù)钱贯,通過提供一個圖形化的用戶環(huán)境來描述你想做什么挫掏,而不是你想怎么做。
Kettle中有兩種腳本文件秩命,transformation和job尉共,transformation完成針對數(shù)據(jù)的基礎轉(zhuǎn)換,job則完成整個工作流的控制弃锐。
Kettle目前包含五個產(chǎn)品:Spoon袄友、Pan、Chef霹菊、Kithcen剧蚣、Encr。
SPOON: 是一個圖形用戶界面旋廷,允許你通過圖形界面來設計ETL轉(zhuǎn)換過程(Transformation)和任務鸠按。
PAN: 轉(zhuǎn)換(trasform)執(zhí)行器;允許你批量運行由Spoon設計的ETL轉(zhuǎn)換 (如使用一個時間調(diào)度器)饶碘。Pan是一個后臺執(zhí)行的程序目尖,沒有圖形界面。
CHEF: 允許你創(chuàng)建任務(Job)扎运。 任務通過允許每個轉(zhuǎn)換瑟曲,任務饮戳,腳本等等,更有利于自動化更新數(shù)據(jù)倉庫的復雜工作测蹲。任務通過允許每個轉(zhuǎn)換莹捡,任務,腳本等等扣甲。任務將會被檢查篮赢,看看是否正確地運行了。
KITHCEN: 作業(yè)(job)執(zhí)行器琉挖;允許你批量使用由Chef設計的任務 (如使用一個時間調(diào)度器)启泣。KITCHEN也是一個后臺運行的程序。
ENCR: 用來加密連接數(shù)據(jù)庫密碼與集群時使用的密碼
Kettle 下載和部署
1示辈、我們可以進入 Kettle官網(wǎng) 進行下載寥茫,進入之后,下拉頁面矾麻,看到如圖所示;
查看所有版本纱耻,我們可以看到最新版本以及所有舊版本的Kettle
此處選擇7.1版本
2、Kettle 環(huán)境配置
由于Kettle是使用Java語言編寫的险耀,所有Kettel的運行需要有Java環(huán)境弄喘,安裝JDK,請參考:Linux環(huán)境下JDK安裝和配置 和 Windows環(huán)境下JDK安裝和配置
3甩牺、運行Kettle
進入到Kettle目錄蘑志,如果Kettle部署在windows環(huán)境雙擊Spoon.bat文件啟動Kettle,如果是在Linux環(huán)境下贬派,則運行spoon.sh文件啟動急但。出現(xiàn)如下界面,則我們的Kettle就安裝成功了搞乏。
至此波桩,Kettle的下載、環(huán)境配置和安裝就基本完成了查描。