//
ETL調(diào)度介紹 - 大數(shù)據(jù)和云計(jì)算技術(shù) (歡迎關(guān)注同名微信公眾號(hào)) - ITeye技術(shù)網(wǎng)站
http://jiezhu2007.iteye.com/blog/1885261
ETL :提取 轉(zhuǎn)換 加載
大數(shù)據(jù)的的一個(gè)最重要特點(diǎn)是,很多數(shù)據(jù)是無用的,必須經(jīng)過一定的處理之后才有加載撩穿。而將雜亂無章的數(shù)據(jù)處理成有用的數(shù)據(jù)的過程叫ETL霍弹。BI系統(tǒng)發(fā)展了很多年,形成了很多ETL方法身弊,工具辟汰。主要分為以下幾類:
第一類:傳統(tǒng)ETL,如DATASTAGE阱佛,INFORMATIC帖汞。這類是最傳統(tǒng)的ETL,可以接入多種數(shù)據(jù)源凑术,用戶通過工具自帶的界面定制任務(wù)和處理流程翩蘸,復(fù)雜業(yè)務(wù)邏輯可以通過工具支持的腳本語言編程實(shí)現(xiàn)。任務(wù)和流程定制完成之后淮逊,轉(zhuǎn)發(fā)成JAVA任務(wù)催首,自動(dòng)在集群負(fù)荷分擔(dān)。傳統(tǒng)ETL存在效率底泄鹏,對(duì)數(shù)據(jù)的處理支持有限的問題郎任。
第二類:數(shù)據(jù)庫廠商,如ORACLE ODI备籽,充分利用自身的數(shù)據(jù)庫作為高效引擎舶治。數(shù)據(jù)的轉(zhuǎn)換和抽取都在數(shù)據(jù)庫中完成,任務(wù)用SQL實(shí)現(xiàn)。通常霉猛,為了區(qū)分傳統(tǒng)的ETL尺锚,數(shù)據(jù)庫廠商都稱自己為ELT。之所以叫ELT韩脏,主要區(qū)分是使用數(shù)據(jù)庫作為引擎的時(shí)候缩麸,加載動(dòng)作在轉(zhuǎn)換之前。
第三類:是專業(yè)的企業(yè)任務(wù)調(diào)度赡矢。在這類調(diào)度里面杭朱,CONTROL-M 2009年被甘特評(píng)為領(lǐng)導(dǎo)廠商。另外國內(nèi)的有 TASKCTL吹散。這種調(diào)度弧械,將數(shù)據(jù)庫和DATASTAGE作為執(zhí)行引擎。支持多種引擎和數(shù)據(jù)源空民。
另外如果不用這些成熟的調(diào)度工具刃唐,自己編碼實(shí)現(xiàn)的話,SPRING-BATCH是一個(gè)好的選擇界轩。SPRING-BATCH就是將任務(wù)調(diào)度框架抽象出來画饥,用戶只需要專注業(yè)務(wù)編碼即可。