?? [tools]開源的 ETL 工具及 ELT 初探

//
幾款開源的 ETL 工具及 ELT 初探
http://mp.weixin.qq.com/s?__biz=MjM5NzM0MjcyMQ==&mid=2650070090&idx=2&sn=ebcfd0c4733571df021616cb41c9526d&chksm=bedb072489ac8e32353cc222c756a2f8d8da097c7754a263b02438d8a115d4dce23f70315197&mpshare=1&scene=1&srcid=0209PXCmsAB9cfO85qiIWd94#rd

ETL笤成,是英文 Extract-Transform-Load 的縮寫乏盐,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)抵碟、加載(load)至目的端的過程翩剪。ETL 是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù)猖凛,經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)倉庫模型盏缤,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去砰蠢。
我們在下方列出了 7 款開源的 ETL 工具,并討論了從 ETL 轉(zhuǎn)向“無 ETL”的過程唉铜,因為 ELT 正迅速成為現(xiàn)代數(shù)據(jù)和云環(huán)境的終極過程台舱。
注:原文包含 11 項 ETL 工具,本文提取了其中開源的 7 項潭流,如需對另外 4 項進行了解竞惋,可點擊文末鏈接進行查看。

優(yōu)秀的 ETL 工具

1

Apache Camel

Apache Camel 是一個非常強大的基于規(guī)則的路由以及媒介引擎灰嫉,該引擎提供了一個基于 POJO 的企業(yè)應用模式(Enterprise Integration Patterns)的實現(xiàn)拆宛,你可以采用其異常強大且十分易用的 API (可以說是一種 Java 的領(lǐng)域定義語言 Domain Specific Language)來配置其路由或者中介的規(guī)則。 通過這種領(lǐng)域定義語言讼撒,你可以在你的 IDE 中用簡單的 Java Code 就可以寫出一個類型安全并具有一定智能的規(guī)則描述文件浑厚。


主頁:http://camel.apache.org/

2

Apache Kafka

Apache Kafka 是一個開源的消息系統(tǒng),用 Scale 和 Java 寫成根盒。該項目為處理實時數(shù)據(jù)提供了一個統(tǒng)一钳幅、高通量、低延時的平臺郑象。有如下特性:
通過 O(1) 的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化贡这,這種結(jié)構(gòu)對于即使數(shù)以TB的消息存儲也能夠保持長時間的穩(wěn)定性能。

高吞吐量:即使是非常普通的硬件 kafka 也可以支持每秒數(shù)十萬的消息厂榛。

支持通過 kafka 服務器和消費機集群來分區(qū)消息盖矫。

支持 Hadoop 并行數(shù)據(jù)加載。

主頁:https://kafka.apache.org/

3

Apatar

Apatar 用 Java 編寫击奶,是一個開源的數(shù)據(jù)抽取辈双、轉(zhuǎn)換、 裝載(ETL)項目柜砾。模塊化的架構(gòu)湃望。提供可視化的 Job 設計器與映射工具,支持所有主流數(shù)據(jù)源痰驱,提供靈活的基于 GUI证芭、服務器和嵌入式的部署選項。它具有符合 Unicode 的功能担映,可用于跨團隊集成數(shù)據(jù)废士,填充數(shù)據(jù)倉庫與數(shù)據(jù)市場,在連接到其他系統(tǒng)時在代碼少量或沒有代碼的情況下進行維護蝇完。
主頁:http://apatar.com/

4

Heka

來自 Mozilla 的 Heka 是一個用來收集和整理來自多個不同源的數(shù)據(jù)的工具官硝,通過對數(shù)據(jù)進行收集和整理后發(fā)送結(jié)果報告到不同的目標用于進一步分析矗蕊。


主頁:http://hekad.readthedocs.io/en/v0.10.0/

5

Logstash

Logstash 是一個應用程序日志、事件的傳輸氢架、處理傻咖、管理和搜索的平臺。你可以用它來統(tǒng)一對應用程序日志進行收集管理岖研,提供 Web 接口用于查詢和統(tǒng)計卿操。Logstash 現(xiàn)在是 ElasticSearch 家族成員之一。
主頁:https://www.elastic.co/products/logstash

6

Scriptella

Scriptella 是一個開源的 ETL (抽取-轉(zhuǎn)換-加載)工具和一個腳本執(zhí)行工具孙援,采用 Java 開發(fā)硬纤。Scriptella 支持跨數(shù)據(jù)庫的 ETL 腳本,并且可以在單個的 ETL 文件中與多個數(shù)據(jù)源運行赃磨。Scriptella 可與任何 JDBC / ODBC 兼容的驅(qū)動程序集成,并提供與非 JDBC 數(shù)據(jù)源和腳本語言的互操作性的接口洼裤。它還可以與 Java EE邻辉,Spring,JMX腮鞍,JNDI 和 JavaMail 集成值骇。


主頁:http://scriptella.org/

7

Talend

Talend (踏藍) 是第一家針對的數(shù)據(jù)集成工具市場的 ETL(數(shù)據(jù)的提取 Extract、傳輸 Transform移国、載入Load)開源軟件供應商吱瘩。Talend 以它的技術(shù)和商業(yè)雙重模式為 ETL 服務提供了一個全新的遠景。它打破了傳統(tǒng)的獨有封閉服務迹缀,提供了一個針對所有規(guī)模的公司的公開的使碾,創(chuàng)新的,強大的靈活的軟件解決方案祝懂。最終票摇,由于 Talend 的出現(xiàn),數(shù)據(jù)整合方案不再被大公司所獨享砚蓬。
主頁:http://www.talend.com/

ELT 初探

雖然 Stitch 也是一個 ETL 服務企業(yè)矢门,但其 CEO 在 TechTarget 雜志的訪談中也稱贊了 AWS Athena 服務,同時提出了從 ETL 轉(zhuǎn)向 ELT 的需要灰蛙。
在他看來祟剔,“無 ETL”即 ETL 過程由提取(Extract)摩梧,加載(Load)物延,變換(Transform)代替,其中數(shù)據(jù)變換根據(jù)下游使用的需要而在 SQL 中進行障本,而不是在加載階段期間教届。他承認 ETL 公司來推廣 ELT 概念有點讓人匪夷所思响鹃,但他解釋了這么做的好處。
“使用 Athena案训,你可以從數(shù)據(jù)源中提取數(shù)據(jù)买置,經(jīng)過少量或不加載預處理后進行加載。 這種風格的 ELT 是大多數(shù)使用案例的優(yōu)秀模型强霎,因為它能產(chǎn)生更簡單的架構(gòu)忿项,使分析人員更好地了解原始數(shù)據(jù)的變換過程〕俏瑁”點此了解更多轩触。
使用 ELT 方法,在提取完成之后家夺,數(shù)據(jù)加載會立即開始脱柱,而不用等待“恰當?shù)摹睌?shù)據(jù)變換操作。 轉(zhuǎn)換還可以在查詢時運行拉馋,比 ETL 更省時榨为,因為 ETL 需要用戶等待轉(zhuǎn)換完成。 ELT 允許 BI 用戶和分析人員無限制地訪問整個原始數(shù)據(jù)煌茴,為用戶提供了更大的靈活性随闺,使之能更好地支持該業(yè)務。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蔓腐,一起剝皮案震驚了整個濱河市矩乐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌回论,老刑警劉巖散罕,帶你破解...
    沈念sama閱讀 212,080評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異透葛,居然都是意外死亡笨使,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,422評論 3 385
  • 文/潘曉璐 我一進店門僚害,熙熙樓的掌柜王于貴愁眉苦臉地迎上來硫椰,“玉大人,你說我怎么就攤上這事萨蚕“胁荩” “怎么了?”我有些...
    開封第一講書人閱讀 157,630評論 0 348
  • 文/不壞的土叔 我叫張陵岳遥,是天一觀的道長奕翔。 經(jīng)常有香客問我,道長浩蓉,這世上最難降的妖魔是什么派继? 我笑而不...
    開封第一講書人閱讀 56,554評論 1 284
  • 正文 為了忘掉前任宾袜,我火速辦了婚禮,結(jié)果婚禮上驾窟,老公的妹妹穿的比我還像新娘庆猫。我一直安慰自己,他們只是感情好绅络,可當我...
    茶點故事閱讀 65,662評論 6 386
  • 文/花漫 我一把揭開白布月培。 她就那樣靜靜地躺著,像睡著了一般恩急。 火紅的嫁衣襯著肌膚如雪杉畜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,856評論 1 290
  • 那天衷恭,我揣著相機與錄音此叠,去河邊找鬼。 笑死随珠,一個胖子當著我的面吹牛拌蜘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播牙丽,決...
    沈念sama閱讀 39,014評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼兔魂!你這毒婦竟也來了烤芦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,752評論 0 268
  • 序言:老撾萬榮一對情侶失蹤析校,失蹤者是張志新(化名)和其女友劉穎构罗,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體智玻,經(jīng)...
    沈念sama閱讀 44,212評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡遂唧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,541評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了吊奢。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盖彭。...
    茶點故事閱讀 38,687評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖页滚,靈堂內(nèi)的尸體忽然破棺而出召边,到底是詐尸還是另有隱情,我是刑警寧澤裹驰,帶...
    沈念sama閱讀 34,347評論 4 331
  • 正文 年R本政府宣布隧熙,位于F島的核電站,受9級特大地震影響幻林,放射性物質(zhì)發(fā)生泄漏贞盯。R本人自食惡果不足惜音念,卻給世界環(huán)境...
    茶點故事閱讀 39,973評論 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望躏敢。 院中可真熱鬧闷愤,春花似錦、人聲如沸父丰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,777評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蛾扇。三九已至攘烛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間镀首,已是汗流浹背坟漱。 一陣腳步聲響...
    開封第一講書人閱讀 32,006評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留更哄,地道東北人芋齿。 一個月前我還...
    沈念sama閱讀 46,406評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像成翩,于是被迫代替她去往敵國和親觅捆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,576評論 2 349

推薦閱讀更多精彩內(nèi)容