Kettle應用之插入更新組件詳解

Kettle插入/更新的組件在日常的抽取任務中使用頻率相當?shù)母弑剩约簩@部分的了解也僅限于輸出中的“插入/更新”影兽。最近公司正在開展BI數(shù)據(jù)倉庫建設,Kettle中輸出部分的“插入/更新”和數(shù)據(jù)倉庫菜單中的“維度查詢/更新”存在使用上的差異莱革,因此下面主要介紹這兩組件應用的情況峻堰。

1、輸出菜單——插入/更新

如下圖盅视,把該組件劃分為三個部分捐名,第一部分為組件屬性定義,第二部分為Keys闹击,第三部分為Fields镶蹋。

插入/更新組件

第一部分:屬性定義

1、目標模式:即Schema赏半,對應表的所屬擁有對象

2贺归、不執(zhí)行任何更新:如果勾選,則只根據(jù)查詢匹配結果進行插入操作断箫;未勾選拂酣,則執(zhí)行更新和插入操作;

第二部分:Keys

該部分為查詢匹配條件仲义,需根據(jù)具體業(yè)務場景進行設置定義婶熬。其中,表字段即屬性定義中的目標表埃撵;流里的字段X即整個Transactions數(shù)據(jù)流中最后輸出的字段尸诽;

只有當Keys部分中的所有匹配結果為True時,才算是匹配成功盯另;如果其中一個或多個匹配條件為False時性含,則為匹配失敗。

第三部分:Fields

該部分為包含兩個作用:1鸳惯、匹配表字段與流字段商蕴;2、判斷是更新表字段還是插入表字段芝发;如果“不行執(zhí)行更新”勾選了绪商,則均執(zhí)行插入操作,Keys域無意義辅鲸。當未勾選時格郁,包含以下情況:

1、Keys部分判斷結果為False

此時不管Fields域中“更新”字段是Y or N,都執(zhí)行插入操作例书。

2锣尉、Keys部分判斷結果為True

(1)當Fields域中所有字段匹配相同時,則不做更新决采、插入

(2)當Fields域中存在字段匹配不一致時自沧,則會對字段繼續(xù)進行更新。如果字段“更新”屬性為Y則更新树瞭,為N則不更新拇厢。

綜上,該組件基本可以應對所有數(shù)據(jù)的“插入/更新”操作晒喷。

2孝偎、數(shù)據(jù)倉庫菜單——維度查詢/更新

該組件主要涉及數(shù)據(jù)倉庫中的緩慢變化維的概念。緩慢變化維凉敲,是由于維度在實際業(yè)務場景中并不是靜態(tài)的邪媳,只是會隨著時間發(fā)生緩慢的變化,相比于事實表或者業(yè)務表荡陷,主要區(qū)別在于維度表變化慢雨效,頻率低,特定場景下需要記錄數(shù)據(jù)變化的過程废赞。具體的說明及應用場景徽龟,可通過各類搜索引擎查找,資料較為豐富唉地。

如下圖据悔,維度查詢/更新組件可分為四個部分,第一部分為組件屬性定義耘沼,第二部分為keys和Fields极颓,第三部分同為數(shù)據(jù)記錄的屬性定義。

維度查詢/更新

第一部分:屬性定義

1群嗤、更新維度:如果勾選菠隆,則進行插入/更新操作;如果未勾選狂秘,則該組件僅作查詢用途骇径,查詢條件:a、keys域中的對比字段者春;b破衔、第三部分記錄域中時間流查詢條件,開始日期<=stream日期字段<=截止日期字段

2钱烟、使用緩存:使用緩存目的為了提升插入或更新的效率晰筛,該選項和“緩存行數(shù)”同步使用

第二部分:Keys域和Fields域

此部分盡討論組件屬性“更新維度”勾選的情況嫡丙,未勾選的情況已上面闡述。

在第二部分读第,Keys域為查詢條件曙博,F(xiàn)ields域為更新插入?yún)^(qū)域。

更新域

1卦方、Keys域匹配結果為False

此時無論Fields中更新屬性的值如何羊瘩,都執(zhí)行插入操作泰佳;

2盼砍、Keys域匹配結果為True

?(a)Fields字段中存在不同項,且更新屬性為插入選項逝她,則插入一條新數(shù)據(jù)行記錄

?(b)Fields字段中存在不同項浇坐,且更新屬性為‘punch through',則所有version版本的數(shù)據(jù)記錄都會發(fā)生更新

?(c)Fields字段中存在不同項,且更新屬性為'update'黔宛,則最后一個version記錄的屬性發(fā)生更新

?(d)Fields字段中所有都相同近刘,則不發(fā)生變化。

第三部分:記錄屬性域

1臀晃、代理關鍵字段:由于會記錄數(shù)據(jù)變化的歷史過程信息觉渴,因此需在表設計初期定義代理鍵

2、version字段:每次keys相同的記錄發(fā)生新增時徽惋,version字段自動+1案淋,最大的verison為最新的記錄

3、stream日期字段:記錄數(shù)據(jù)流的日期范圍险绘,通常為設置為開始日期字段值即可踢京。

4、開始日期字段:數(shù)據(jù)流導入的開始日期

5宦棺、結束日期字段:數(shù)據(jù)流導入結束日期

綜上瓣距,如使用“維度查詢/更新”組件最好的應用場景是維度表需要記錄歷史變化數(shù)據(jù)時,并非所有維度表都需要使用該組件代咸。同時蹈丸,在決定使用“維度查詢/更新”組件時,至少需定義四個字段:KEYS_SEQ_ID(代理鍵)呐芥、VERSION_NO(版本號)白华、BEGIN_DATE(開始日期)、END_DATE(結束日期)贩耐。正常非特殊需求時弧腥,使用“插入/更新”組件即可。

但是在以上的介紹過程中可以發(fā)現(xiàn)潮太,在該組件中并沒有時間戳的利用管搪,即Keys域在做比較時虾攻,是把Transaction流中的數(shù)據(jù)和維度表中的所有數(shù)據(jù)進行核對,需考慮在對比核對中可能存在的性能問題更鲁。

以上霎箍,如有說明錯誤或不明白之處,煩請指出澡为。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末漂坏,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子媒至,更是在濱河造成了極大的恐慌顶别,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拒啰,死亡現(xiàn)場離奇詭異驯绎,居然都是意外死亡,警方通過查閱死者的電腦和手機谋旦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進店門剩失,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人册着,你說我怎么就攤上這事拴孤。” “怎么了甲捏?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵演熟,是天一觀的道長。 經(jīng)常有香客問我摊鸡,道長绽媒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任免猾,我火速辦了婚禮是辕,結果婚禮上,老公的妹妹穿的比我還像新娘猎提。我一直安慰自己获三,他們只是感情好,可當我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布锨苏。 她就那樣靜靜地躺著疙教,像睡著了一般。 火紅的嫁衣襯著肌膚如雪伞租。 梳的紋絲不亂的頭發(fā)上贞谓,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天,我揣著相機與錄音葵诈,去河邊找鬼裸弦。 笑死祟同,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的理疙。 我是一名探鬼主播晕城,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼窖贤!你這毒婦竟也來了砖顷?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤赃梧,失蹤者是張志新(化名)和其女友劉穎滤蝠,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體槽奕,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡几睛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年房轿,在試婚紗的時候發(fā)現(xiàn)自己被綠了粤攒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡囱持,死狀恐怖夯接,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情纷妆,我是刑警寧澤盔几,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站掩幢,受9級特大地震影響逊拍,放射性物質發(fā)生泄漏。R本人自食惡果不足惜际邻,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一芯丧、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧世曾,春花似錦缨恒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至血巍,卻和暖如春萧锉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背述寡。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工柿隙, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留玫恳,地道東北人。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓优俘,卻偏偏與公主長得像京办,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子帆焕,可洞房花燭夜當晚...
    茶點故事閱讀 43,666評論 2 350