前面我們介紹了2大類核心轉(zhuǎn)換場(chǎng)景。
【ETL】系列四:核心轉(zhuǎn)換場(chǎng)景—單表間直轉(zhuǎn)
【ETL】系列五:核心轉(zhuǎn)換場(chǎng)景-字段合并與字段拆分
接下來(lái)我們介紹第三類核心轉(zhuǎn)換場(chǎng)景——行轉(zhuǎn)列與列轉(zhuǎn)行扼褪。
簡(jiǎn)單來(lái)說(shuō)想幻,行轉(zhuǎn)列是指橫表轉(zhuǎn)豎表,列轉(zhuǎn)行是指豎表轉(zhuǎn)橫表话浇。
橫表的特點(diǎn)是一個(gè)ID對(duì)應(yīng)所有的值信息脏毯,以行Key-Value1-Value2-Value3的方式存儲(chǔ);
豎表的特點(diǎn)是每行僅存儲(chǔ)該ID的某一個(gè)類別字段的值幔崖,以行Key-Value的方式存儲(chǔ)食店。
我們這里看下網(wǎng)上常見的行轉(zhuǎn)列(橫表轉(zhuǎn)豎表)與列轉(zhuǎn)行(豎表轉(zhuǎn)橫表)例子以方便理解渣淤。
關(guān)于橫表和豎表的介紹可參考:數(shù)據(jù)庫(kù)設(shè)計(jì)---關(guān)于建表的時(shí)候選擇橫表和豎表(縱表)的一點(diǎn)思考
在本文的樣例中,依然以金融數(shù)據(jù)的行轉(zhuǎn)列(橫表轉(zhuǎn)豎表)與列轉(zhuǎn)行(豎表轉(zhuǎn)橫表)例子來(lái)進(jìn)行實(shí)操叛买。
在以往的數(shù)據(jù)業(yè)務(wù)中砂代,由于各種原因蹋订,數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的來(lái)源表是橫表或縱表率挣,在產(chǎn)品端的用到的是縱表或橫表,那就需要在數(shù)據(jù)處理環(huán)節(jié)露戒,用到行轉(zhuǎn)列或列轉(zhuǎn)行這樣的功能進(jìn)行數(shù)據(jù)的同步椒功。
首先,我們介紹行轉(zhuǎn)列智什。
(一)行轉(zhuǎn)列
應(yīng)用場(chǎng)景:不同的業(yè)務(wù)數(shù)據(jù)表动漾,數(shù)據(jù)存儲(chǔ)的方式不同,在不同使用場(chǎng)景下荠锭,涉及到不同的數(shù)據(jù)處理方式旱眯,希望將橫表的字段及數(shù)據(jù)作為值抽取出來(lái)并同步到豎表的記錄行中,比如常見的姓名证九、科目删豺、分?jǐn)?shù),一個(gè)姓名下所有科目的分?jǐn)?shù)一行存儲(chǔ)愧怜,映射到目標(biāo)表之后一個(gè)姓名下一個(gè)科目的分?jǐn)?shù)一行存儲(chǔ)呀页。接下來(lái)將以金融數(shù)據(jù)中利潤(rùn)表的財(cái)務(wù)科目存儲(chǔ)中,來(lái)源表是橫表的數(shù)據(jù)同步到目標(biāo)表是豎表的數(shù)據(jù)為例進(jìn)行實(shí)操拥坛。
業(yè)務(wù)目標(biāo):將來(lái)源庫(kù)A中的表A【com_income1(利潤(rùn)表橫表)】的數(shù)據(jù)推送到目標(biāo)數(shù)據(jù)庫(kù)B中的表B【com_income2(利潤(rùn)表豎表)】蓬蝶,并將來(lái)源表-利潤(rùn)表橫表如overall_income、main_income猜惋、overall_cost等利潤(rùn)表科目字段及值映射到目標(biāo)表-利潤(rùn)表豎表對(duì)應(yīng)的stand_pro_name(標(biāo)準(zhǔn)科目名稱)字段值中丸氛。
業(yè)務(wù)流程分析:
抽取數(shù)據(jù):抽取來(lái)源庫(kù)A的數(shù)據(jù)表A【com_income1(利潤(rùn)表橫表)】的數(shù)據(jù),可以定義抽取數(shù)據(jù)范圍著摔;
轉(zhuǎn)換數(shù)據(jù):將來(lái)源表-利潤(rùn)表橫表如overall_income缓窜、main_income、overall_cost等字段轉(zhuǎn)為目標(biāo)表-利潤(rùn)表豎表stand_pro_name(標(biāo)準(zhǔn)科目名稱)的值梨撞,將來(lái)源表-利潤(rùn)表橫表如overall_income雹洗、main_income、overall_cost等字段的數(shù)據(jù)轉(zhuǎn)為了目標(biāo)表-利潤(rùn)表豎表cur_amount(本期金額)的值卧波,其他字段直接映射时肿;
加載數(shù)據(jù):數(shù)據(jù)加載到目標(biāo)庫(kù)B的數(shù)據(jù)表B【 com_income2(利潤(rùn)表豎表)】中,目標(biāo)表已有數(shù)據(jù)港粱,進(jìn)行更新螃成;否則旦签,新增數(shù)據(jù)。
操作步驟:
1寸宏、點(diǎn)擊左側(cè)的核心對(duì)象宁炫,選擇表輸入并把它拖到右側(cè)的編輯區(qū)中進(jìn)行配置。
選擇表輸入并把它拖到右側(cè)的編輯區(qū)中進(jìn)行配置氮凝,主要是進(jìn)行自定義來(lái)源表的抽取SQL語(yǔ)句羔巢。
如截圖所示,將來(lái)源庫(kù)表信息進(jìn)行填寫或選擇后罩阵,進(jìn)行來(lái)源表的抽取SQL的定義竿秆,此處限制抽取數(shù)據(jù)的范圍,只處理一個(gè)公司的利潤(rùn)表科目數(shù)據(jù)稿壁。
2幽钢、選擇行轉(zhuǎn)列并把它拖到右側(cè)的編輯區(qū)中進(jìn)行列轉(zhuǎn)行配置。
在這里傅是,需要理解key字段匪燕、字段名稱、key值喧笔、value字段的含義帽驯。
1.Key字段:行轉(zhuǎn)列之后,overall_income溃斋、main_income界拦、overall_cost等字段會(huì)變成一個(gè)新的字段的值,Key字段就是這個(gè)新字段的名稱梗劫,該樣例中關(guān)鍵字段為stand_pro_name享甸;
2.字段名稱:填寫橫表需要行轉(zhuǎn)列的字段,在這寫的字段會(huì)從原來(lái)的字段名轉(zhuǎn)變?yōu)橐涣袛?shù)據(jù)梳侨,這列數(shù)據(jù)的列名為上面設(shè)置的Key字段名蛉威,該樣例中的字段名稱為overall_income、main_income走哺、overall_cost等財(cái)務(wù)科目名稱蚯嫌;
3.Key值:轉(zhuǎn)為列之后key字段的值,該樣例中的key值為營(yíng)業(yè)總收入丙躏、營(yíng)業(yè)收入择示、營(yíng)業(yè)總成本等;
4.Value字段:行轉(zhuǎn)列的那些字段是有數(shù)據(jù)的,這些數(shù)據(jù)轉(zhuǎn)換為豎表的值,需要給這些數(shù)據(jù)起個(gè)名字悄谐,名字需要都一致刊侯,該樣例中的value字段為cur_amount功舀。
3绕沈、選擇插入/更新并把它拖到右側(cè)的編輯區(qū)中進(jìn)行相關(guān)配置瞧甩。
如截圖中的配置哪怔,選擇完目標(biāo)數(shù)據(jù)庫(kù)和目標(biāo)數(shù)據(jù)表之后拟烫,用來(lái)查詢的關(guān)鍵字该编,選擇id,表示這里按照id查詢硕淑,如果此id存在课竣,則更新數(shù)據(jù),若不存在則插入數(shù)據(jù)喜颁;獲取目標(biāo)表字段和來(lái)源表的流字段映射關(guān)系稠氮,排除在上一步【行轉(zhuǎn)列】配置的字段名稱。
插入/更新配置完成后半开,保存轉(zhuǎn)換文件,可點(diǎn)擊【運(yùn)行這個(gè)轉(zhuǎn)換】按鈕進(jìn)行本地運(yùn)行赃份。
4寂拆、轉(zhuǎn)換成功后,也可以檢查本地?cái)?shù)據(jù)庫(kù)抓韩,查看數(shù)據(jù)是否推送成功纠永,是否進(jìn)行了行轉(zhuǎn)列。
到這里谒拴,行轉(zhuǎn)列的轉(zhuǎn)換流程就配置成功了尝江,后續(xù)打開.ktr后綴的文件即可。與行轉(zhuǎn)列相對(duì)的英上,就是列轉(zhuǎn)行了炭序。
(二)列轉(zhuǎn)行
應(yīng)用場(chǎng)景:不同的業(yè)務(wù)數(shù)據(jù)表,數(shù)據(jù)存儲(chǔ)的方式不同苍日,希望將豎表的數(shù)據(jù)抽取作為新的字段同步到目標(biāo)表中惭聂,比如常見的姓名、科目相恃、分?jǐn)?shù)辜纲,一個(gè)姓名下一個(gè)科目的分?jǐn)?shù)一行存儲(chǔ),映射到目標(biāo)表之后一個(gè)姓名下所有科目的分?jǐn)?shù)一行存儲(chǔ)拦耐。接下來(lái)將以金融數(shù)據(jù)中利潤(rùn)表的財(cái)務(wù)科目存儲(chǔ)中耕腾,來(lái)源表是豎表的數(shù)據(jù)同步到目標(biāo)表是橫表的數(shù)據(jù)為例進(jìn)行實(shí)操。
業(yè)務(wù)目標(biāo):將來(lái)源庫(kù)A中的表A【com_income1(利潤(rùn)表豎表)】的數(shù)據(jù)推送到目標(biāo)數(shù)據(jù)庫(kù)B中的表B【com_income2(利潤(rùn)表橫表)】杀糯,并將來(lái)源表A的stand_pro_name(標(biāo)準(zhǔn)科目名稱)的值映射到目標(biāo)表B對(duì)應(yīng)科目的字段值中扫俺。
業(yè)務(wù)流程分析:
抽取數(shù)據(jù):抽取來(lái)源庫(kù)A的數(shù)據(jù)表A【com_income1(利潤(rùn)表豎表)】的數(shù)據(jù),可以定義抽取數(shù)據(jù)范圍火脉;
轉(zhuǎn)換數(shù)據(jù):將來(lái)源表A的stand_pro_name(標(biāo)準(zhǔn)科目名稱)的值映射到目標(biāo)表B對(duì)應(yīng)科目的字段值中牵舵,目標(biāo)表B的com_uni_code(公司統(tǒng)一編碼)柒啤、decl_date(公告日期)、statement_name(報(bào)表類型名稱)為一組畸颅,其他字段直接映射担巩;
加載數(shù)據(jù):數(shù)據(jù)加載到目標(biāo)庫(kù)B的數(shù)據(jù)表B【 com_income2(利潤(rùn)表橫表)】中,目標(biāo)表已有數(shù)據(jù)没炒,進(jìn)行更新涛癌;否則,新增數(shù)據(jù)送火。
操作步驟:
1拳话、點(diǎn)擊左側(cè)的核心對(duì)象,選擇表輸入并把它拖到右側(cè)的編輯區(qū)中進(jìn)行配置种吸。
選擇表輸入并把它拖到右側(cè)的編輯區(qū)中進(jìn)行配置弃衍,主要是進(jìn)行自定義來(lái)源表抽取SQL語(yǔ)句。
如截圖所示坚俗,將來(lái)源庫(kù)表信息進(jìn)行填寫或選擇后镜盯,進(jìn)行來(lái)源表的抽取SQL的定義,此處限制抽取數(shù)據(jù)的范圍猖败,只處理一個(gè)公司的利潤(rùn)表科目數(shù)據(jù)速缆。
2、選擇列轉(zhuǎn)行并把它拖到右側(cè)的編輯區(qū)中進(jìn)行列轉(zhuǎn)行配置恩闻。
在這里艺糜,需要理解關(guān)鍵字段、分組字段幢尚、目標(biāo)字段破停、數(shù)據(jù)字段、關(guān)鍵字值侠草、類型/長(zhǎng)度/精度的含義辱挥。
1.關(guān)鍵字段:列轉(zhuǎn)行的核心字段,此字段會(huì)進(jìn)行聚合操作边涕,聚合結(jié)果作為之后橫表的新字段名晤碘,該樣例中關(guān)鍵字段是stand_pro_name(標(biāo)準(zhǔn)科目名稱),即以這個(gè)標(biāo)準(zhǔn)科目名稱的值作為橫表的新字段名功蜓,如轉(zhuǎn)換為【營(yíng)業(yè)總收入】园爷、【營(yíng)業(yè)收入】、【營(yíng)業(yè)總成本】等字段式撼。
2.分組字段:關(guān)鍵字段的數(shù)據(jù)(營(yíng)業(yè)總收入童社,營(yíng)業(yè)收入, 營(yíng)業(yè)總成本等)有重復(fù)著隆,利潤(rùn)表的數(shù)據(jù)來(lái)源于公司發(fā)布的財(cái)報(bào)數(shù)據(jù)扰楼,每個(gè)公司每個(gè)報(bào)告期會(huì)發(fā)布合并利潤(rùn)表和母公司利潤(rùn)表呀癣,即每一個(gè)唯一標(biāo)識(shí)的公司com_uni_code(公司統(tǒng)一編碼)在decl_date(公告日期)發(fā)布合并或母公司利潤(rùn)表statement_name(報(bào)表類型名稱)就會(huì)增加一條記錄,其關(guān)鍵字段的數(shù)據(jù)就會(huì)重復(fù)一次弦赖,其中決定重復(fù)的字段就是com_uni_code项栏、decl_date、statement_name蹬竖,這三個(gè)字段就是分組字段沼沈。
3.目標(biāo)字段:關(guān)鍵字段的數(shù)據(jù)去重后(營(yíng)業(yè)總收入,營(yíng)業(yè)收入币厕,?營(yíng)業(yè)總成本等)變成的字段名列另,這個(gè)目標(biāo)字段也就是轉(zhuǎn)換后目標(biāo)表的物理名,比如overall_income旦装、main_income页衙、overall_cost等。
4.數(shù)據(jù)字段:在豎表中同辣,有一個(gè)與關(guān)鍵字段一一對(duì)應(yīng)的數(shù)據(jù)字段拷姿,它的字段名填在這,該樣例中為cur_amount(本期金額)旱函;
5.關(guān)鍵字值:關(guān)鍵字值是關(guān)鍵字段的數(shù)據(jù),關(guān)鍵字段的數(shù)據(jù)去重后(營(yíng)業(yè)總收入描滔,營(yíng)業(yè)收入棒妨,?營(yíng)業(yè)總成本等)有多少列,關(guān)鍵字值就有多少個(gè)含长;
6.類型/長(zhǎng)度/精度:定義關(guān)鍵字值的數(shù)據(jù)類型券腔、長(zhǎng)度和精度,該樣例中利潤(rùn)表科目中的數(shù)值是分別為number拘泞、18纷纫、4。
3陪腌、選擇插入/更新并把它拖到右側(cè)的編輯區(qū)中進(jìn)行相關(guān)配置辱魁。
如截圖中的配置,選擇完目標(biāo)數(shù)據(jù)庫(kù)和目標(biāo)數(shù)據(jù)表之后诗鸭,用來(lái)查詢的關(guān)鍵字染簇,選擇id,表示這里按照id查詢强岸,如果此id存在锻弓,則更新數(shù)據(jù),若不存在則插入數(shù)據(jù)蝌箍;獲取目標(biāo)表字段和來(lái)源表的流字段映射關(guān)系青灼,排除在上一步【列轉(zhuǎn)行】配置的目標(biāo)字段暴心。
插入/更新配置完成后,保存轉(zhuǎn)換文件杂拨,可點(diǎn)擊【運(yùn)行這個(gè)轉(zhuǎn)換】按鈕進(jìn)行本地運(yùn)行专普。
4、轉(zhuǎn)換成功后扳躬,也可以檢查本地?cái)?shù)據(jù)庫(kù)脆诉,查看數(shù)據(jù)是否推送成功,是否進(jìn)行列轉(zhuǎn)行贷币。
到這里击胜,列轉(zhuǎn)行的轉(zhuǎn)換流程就配置成功了,后續(xù)打開.ktr后綴的文件即可役纹。
除了用kettle的轉(zhuǎn)換插件偶摔,行轉(zhuǎn)列與列轉(zhuǎn)行同樣可以使用SQL語(yǔ)句來(lái)實(shí)現(xiàn),與上一篇【ETL】系列五:核心轉(zhuǎn)換場(chǎng)景-字段合并與字段拆分的流程類似促脉,在表輸入的SQL抽取語(yǔ)句中進(jìn)行抽取SQL的定義辰斋,以進(jìn)行橫表和豎表的互轉(zhuǎn)。詳情可以參考這篇文章:縱表和橫表的概念及其相互轉(zhuǎn)換
以上是行轉(zhuǎn)列和列轉(zhuǎn)行2類轉(zhuǎn)換場(chǎng)景的操作方式瘸味。
最后宫仗,那么問(wèn)題來(lái)了,對(duì)于B端工具類產(chǎn)品經(jīng)理來(lái)說(shuō)旁仿,有什么啟發(fā)藕夫?
B端產(chǎn)品是為了解決業(yè)務(wù)問(wèn)題而設(shè)計(jì)的,重點(diǎn)是滿足業(yè)務(wù)需求枯冈。
作為B端產(chǎn)品經(jīng)理毅贮,一定要非常懂業(yè)務(wù)。只有足夠的了解業(yè)務(wù)邏輯尘奏,才能把B端產(chǎn)品相應(yīng)的功能做好滩褥,并推動(dòng)整個(gè)B端生態(tài)體系搭建。
行轉(zhuǎn)列和列轉(zhuǎn)行的轉(zhuǎn)換場(chǎng)景炫加,是數(shù)據(jù)業(yè)務(wù)的常見應(yīng)用場(chǎng)景瑰煎,只有深入了解數(shù)據(jù)業(yè)務(wù)方的數(shù)據(jù)加工處理邏輯,才能抽象出功能點(diǎn)琢感,在kettle這款成熟的產(chǎn)品中體現(xiàn)出來(lái)的是【行轉(zhuǎn)列】丢间、【列轉(zhuǎn)行】的插件功能設(shè)計(jì),那如果是自研的ETL工具呢驹针,作為產(chǎn)品經(jīng)理烘挫,你又會(huì)怎么設(shè)計(jì)呢?
誠(chéng)然,kettle的【行轉(zhuǎn)列】饮六、【列轉(zhuǎn)行】功能已相當(dāng)完善其垄,但也存在應(yīng)用場(chǎng)景引導(dǎo)不明顯、批量操作不方便等問(wèn)題卤橄,這些易用性問(wèn)題也比較影響工具的使用效率绿满。
針對(duì)工具類產(chǎn)品的設(shè)計(jì)原則和方法,我會(huì)在后續(xù)的文章中做詳細(xì)的總結(jié)和分享窟扑。歡迎大家關(guān)注哦喇颁!
本文其他參考文章:kettle 行轉(zhuǎn)列 與 列轉(zhuǎn)行