上一篇:etl-bigdata
更多信息查看:https://blue-shadow.top
下載调煎,使用Kettle
下載地址: https://sourceforge.net/projects/pentaho/files/Data%20Integration/
必備條件:安裝了Java環(huán)境,并配置了路徑攻旦;將從Kettle壓縮包解壓后即可用
打開方式: 針對Windows系統(tǒng)劝萤,在調(diào)用 Spoon.bat ; 在Linux系統(tǒng)上,調(diào)用 Spoon.sh
Kettle是什么 :Java編寫的開源ETL工具
Hello World
通過制作一個(gè)Hello World例子,進(jìn)行對Kettle的操作流程說明攘宙,認(rèn)識Kettle處理中的整體過程。
- 創(chuàng)建一個(gè)Transformation : File --> New --> Transformation
- 使用Generate Rows Step: Design --> Input --> Generate Rows
- 設(shè)置Generate Rows Step:左鍵雙擊或右鍵點(diǎn)擊在窗口中選擇Edit拐迁;進(jìn)行命名和設(shè)置要輸出的信息
- 使用Dummy Step : Design --> Flow --> Dummy
- 設(shè)置Dummy Step :通過Hop連接 Generate Rows Step 和 Dummy Step ; 認(rèn)識Step的工具欄 ; 預(yù)覽查看 ; 查看執(zhí)行信息
- 設(shè)置Kettle腳本說明: 右鍵工作區(qū)空白處 -- > New Note
- 設(shè)置Kettle腳本信息:菜單Edit --> Settings
- 通過工具欄 : 執(zhí)行蹭劈、預(yù)覽 、調(diào)試线召、分析
- 通過View窗口 : 查看Kettle工程的結(jié)構(gòu)
說明
以上的操作中主要目的就是為了熟悉Kettle操作界面铺韧、演示Kettle主要使用方法、將需要說明的概念可視化的演示缓淹。
這里提出4個(gè)最重要的概念: Transformation 哈打、 Job 、 Step 讯壶、 Hop 前酿。在上面的操作,其實(shí)可以隱約的發(fā)現(xiàn)這些關(guān)鍵字鹏溯。
- Transformation : ETL中的主要部分罢维,負(fù)責(zé)抽取、轉(zhuǎn)換丙挽、加載各階段中對數(shù)據(jù)的操作肺孵,轉(zhuǎn)換中包含一個(gè)或多個(gè)步驟(Step)。轉(zhuǎn)換中的步驟通過跳連接
這樣就允許數(shù)據(jù)從一個(gè)Step流向另一個(gè)Step - Job : 一個(gè)作業(yè)由多個(gè)作業(yè)項(xiàng)構(gòu)成颜阐,這些作業(yè)項(xiàng)按先后順序依次執(zhí)行平窘,作業(yè)項(xiàng)相當(dāng)于轉(zhuǎn)換中的Step。在作業(yè)中也使用跳連接兩個(gè)作業(yè)項(xiàng)凳怨。
- Step : 在轉(zhuǎn)換中的基本單元瑰艘,用于完成不同改的數(shù)據(jù)處理
- Hop : 連接Step或作業(yè)項(xiàng)
作業(yè)是步驟流,轉(zhuǎn)換是數(shù)據(jù)流肤舞。這是作業(yè)和轉(zhuǎn)換最大的區(qū)別 紫新。
作業(yè)的每一個(gè)步驟,必須等到前面的步驟都跑完了李剖,后面的步驟才會執(zhí)行芒率;而轉(zhuǎn)換會一次性把所有控件全部先啟動(一個(gè)控件對應(yīng)啟動一個(gè)線程),然后數(shù)據(jù)流會從第一個(gè)控件開始篙顺,一條記錄偶芍、一條記錄地流向最后的控件
在本次的演示中充择,使用到的是Transformation轉(zhuǎn)換,Transformation是通過Hop將Step連接成的實(shí)體匪蟀,而Step和Hop也就描述出數(shù)據(jù)流的路徑椎麦。
在Step中進(jìn)行數(shù)據(jù)創(chuàng)建或轉(zhuǎn)換,隨后通過Hop的指引流向其他的Step材彪。