Kettle插入/更新的組件在日常的抽取任務中使用頻率相當?shù)母弑剩约簩@部分的了解也僅限于輸出中的“插入/更新”影兽。最近公司正在開展BI數(shù)據(jù)倉庫建設,Kettle中輸出部分的“插入/更新”和數(shù)據(jù)倉庫菜單中的“維度查詢/更新”存在使用上的差異莱革,因此下面主要介紹這兩組件應用的情況峻堰。
1、輸出菜單——插入/更新
如下圖盅视,把該組件劃分為三個部分捐名,第一部分為組件屬性定義,第二部分為Keys闹击,第三部分為Fields镶蹋。
第一部分:屬性定義
1、目標模式:即Schema赏半,對應表的所屬擁有對象
2贺归、不執(zhí)行任何更新:如果勾選,則只根據(jù)查詢匹配結果進行插入操作断箫;未勾選拂酣,則執(zhí)行更新和插入操作;
第二部分:Keys
該部分為查詢匹配條件仲义,需根據(jù)具體業(yè)務場景進行設置定義婶熬。其中,表字段即屬性定義中的目標表埃撵;流里的字段X即整個Transactions數(shù)據(jù)流中最后輸出的字段尸诽;
只有當Keys部分中的所有匹配結果為True時,才算是匹配成功盯另;如果其中一個或多個匹配條件為False時性含,則為匹配失敗。
第三部分:Fields
該部分為包含兩個作用:1鸳惯、匹配表字段與流字段商蕴;2、判斷是更新表字段還是插入表字段芝发;如果“不行執(zhí)行更新”勾選了绪商,則均執(zhí)行插入操作,Keys域無意義辅鲸。當未勾選時格郁,包含以下情況:
1、Keys部分判斷結果為False
此時不管Fields域中“更新”字段是Y or N,都執(zhí)行插入操作例书。
2锣尉、Keys部分判斷結果為True
(1)當Fields域中所有字段匹配相同時,則不做更新决采、插入
(2)當Fields域中存在字段匹配不一致時自沧,則會對字段繼續(xù)進行更新。如果字段“更新”屬性為Y則更新树瞭,為N則不更新拇厢。
綜上,該組件基本可以應對所有數(shù)據(jù)的“插入/更新”操作晒喷。
2孝偎、數(shù)據(jù)倉庫菜單——維度查詢/更新
該組件主要涉及數(shù)據(jù)倉庫中的緩慢變化維的概念。緩慢變化維凉敲,是由于維度在實際業(yè)務場景中并不是靜態(tài)的邪媳,只是會隨著時間發(fā)生緩慢的變化,相比于事實表或者業(yè)務表荡陷,主要區(qū)別在于維度表變化慢雨效,頻率低,特定場景下需要記錄數(shù)據(jù)變化的過程废赞。具體的說明及應用場景徽龟,可通過各類搜索引擎查找,資料較為豐富唉地。
如下圖据悔,維度查詢/更新組件可分為四個部分,第一部分為組件屬性定義耘沼,第二部分為keys和Fields极颓,第三部分同為數(shù)據(jù)記錄的屬性定義。
第一部分:屬性定義
1群嗤、更新維度:如果勾選菠隆,則進行插入/更新操作;如果未勾選狂秘,則該組件僅作查詢用途骇径,查詢條件:a、keys域中的對比字段者春;b破衔、第三部分記錄域中時間流查詢條件,開始日期<=stream日期字段<=截止日期字段
2钱烟、使用緩存:使用緩存目的為了提升插入或更新的效率晰筛,該選項和“緩存行數(shù)”同步使用
第二部分:Keys域和Fields域
此部分盡討論組件屬性“更新維度”勾選的情況嫡丙,未勾選的情況已上面闡述。
在第二部分读第,Keys域為查詢條件曙博,F(xiàn)ields域為更新插入?yún)^(qū)域。
1卦方、Keys域匹配結果為False
此時無論Fields中更新屬性的值如何羊瘩,都執(zhí)行插入操作泰佳;
2盼砍、Keys域匹配結果為True
?(a)Fields字段中存在不同項,且更新屬性為插入選項逝她,則插入一條新數(shù)據(jù)行記錄
?(b)Fields字段中存在不同項浇坐,且更新屬性為‘punch through',則所有version版本的數(shù)據(jù)記錄都會發(fā)生更新
?(c)Fields字段中存在不同項,且更新屬性為'update'黔宛,則最后一個version記錄的屬性發(fā)生更新
?(d)Fields字段中所有都相同近刘,則不發(fā)生變化。
第三部分:記錄屬性域
1臀晃、代理關鍵字段:由于會記錄數(shù)據(jù)變化的歷史過程信息觉渴,因此需在表設計初期定義代理鍵
2、version字段:每次keys相同的記錄發(fā)生新增時徽惋,version字段自動+1案淋,最大的verison為最新的記錄
3、stream日期字段:記錄數(shù)據(jù)流的日期范圍险绘,通常為設置為開始日期字段值即可踢京。
4、開始日期字段:數(shù)據(jù)流導入的開始日期
5宦棺、結束日期字段:數(shù)據(jù)流導入結束日期
綜上瓣距,如使用“維度查詢/更新”組件最好的應用場景是維度表需要記錄歷史變化數(shù)據(jù)時,并非所有維度表都需要使用該組件代咸。同時蹈丸,在決定使用“維度查詢/更新”組件時,至少需定義四個字段:KEYS_SEQ_ID(代理鍵)呐芥、VERSION_NO(版本號)白华、BEGIN_DATE(開始日期)、END_DATE(結束日期)贩耐。正常非特殊需求時弧腥,使用“插入/更新”組件即可。
但是在以上的介紹過程中可以發(fā)現(xiàn)潮太,在該組件中并沒有時間戳的利用管搪,即Keys域在做比較時虾攻,是把Transaction流中的數(shù)據(jù)和維度表中的所有數(shù)據(jù)進行核對,需考慮在對比核對中可能存在的性能問題更鲁。
以上霎箍,如有說明錯誤或不明白之處,煩請指出澡为。