如今,各個(gè)行業(yè)與組織能夠訪問(wèn)到的數(shù)據(jù)越來(lái)越龐大寿桨、且越來(lái)越復(fù)雜。不過(guò)强戴,我們需要對(duì)這些海量的信息進(jìn)行有效的處理和分析亭螟,進(jìn)而發(fā)掘出那些隱藏在“噪聲”中的數(shù)據(jù)洞見(jiàn)。目前骑歹,當(dāng)屬ETL(提取预烙、轉(zhuǎn)換、加載道媚,三個(gè)首字母縮寫)方法最為常見(jiàn)默伍。它是指:我們需要先從諸如數(shù)據(jù)庫(kù)、文件衰琐、以及電子表格之類的數(shù)據(jù)源中提取信息,然后對(duì)其進(jìn)行轉(zhuǎn)換羡宙,以符合數(shù)據(jù)倉(cāng)庫(kù)的標(biāo)準(zhǔn)狸剃,最后將它們加載到集中式的數(shù)據(jù)倉(cāng)庫(kù)中。
作為數(shù)據(jù)倉(cāng)庫(kù)分析與轉(zhuǎn)化的重要組成部分狗热,ETL往往需要依賴合適的工具來(lái)實(shí)現(xiàn)钞馁。目前市場(chǎng)上此類工具可謂林林總總虑省。本文將為您篩選出七大頂級(jí)、八大補(bǔ)充ETL軟件工具僧凰,在逐一介紹其特點(diǎn)和社區(qū)得分的基礎(chǔ)上探颈,最后給出各種適用的場(chǎng)景。
1.?Xplenty
作為基于云端的ETL和ELT(提取训措、加載伪节、轉(zhuǎn)換)數(shù)據(jù)的集成平臺(tái),Xplenty可以輕松地組合多個(gè)數(shù)據(jù)源绩鸣。該平臺(tái)提供了一個(gè)簡(jiǎn)單怀大、直觀的可視化界面,可用于在大量數(shù)據(jù)源和目標(biāo)之間建立管道呀闻。
目前化借,Xplenty包裝了上百種流行的數(shù)據(jù)存儲(chǔ)和SaaS(軟件即服務(wù))應(yīng)用,其中包括:MongoDB捡多、MySQL蓖康、PostgreSQL、Amazon Redshift垒手、Google Cloud Platform蒜焊、Facebook、Salesforce淫奔、Jira山涡、Slack、以及QuickBooks等唆迁。
Xplenty的優(yōu)勢(shì)在于:可擴(kuò)展性鸭丛、安全性和出色的客戶支持。例如唐责,Xplenty具有一項(xiàng)稱為“字段級(jí)加密(Field Level Encryption)”的新功能鳞溉,可允許用戶使用自己的加密密鑰,對(duì)數(shù)據(jù)字段進(jìn)行加密或解密鼠哥。同時(shí)熟菲,Xplenty也能遵守HIPPA、GDPR和CCPA等法律法規(guī)朴恳。
目前抄罕,在G2網(wǎng)站(譯者注:知名的軟件與服務(wù)評(píng)價(jià)平臺(tái))上有93位評(píng)論者為Xplenty給出了4.4顆星(滿分為5顆星),并將其稱為ETL工具領(lǐng)域的“領(lǐng)先者”之一于颖。作為其中的一名評(píng)論者呆贿,Kerry D.聲稱:“該工具非常實(shí)用,它使得代碼的開發(fā)與支持變得迅速且高效∽鋈耄”
2.?Talend
Talend Data Integration是一個(gè)開源的ETL數(shù)據(jù)集成解決方案冒晰。Talend平臺(tái)不但能夠與本地和云中的數(shù)據(jù)源相兼容,而且包括了數(shù)百個(gè)預(yù)構(gòu)建(pre-built)的集成竟块。
雖然對(duì)于一般用戶而言壶运,Talend的開源版本足以夠用,但是較大型的企業(yè)用戶則會(huì)選用其付費(fèi)版本的數(shù)據(jù)管理平臺(tái)浪秘。畢竟蒋情,付費(fèi)版里包含了用于設(shè)計(jì)、生產(chǎn)力管理秫逝、監(jiān)空恕出、以及數(shù)據(jù)治理的各種工具和功能询枚。
Talend在G2上的平均得分為4.0顆星违帆,并在Gartner的《數(shù)據(jù)集成工具魔力象限》報(bào)告中被評(píng)為“領(lǐng)先者”。作為其中的一名評(píng)論者金蜀,Jan L.認(rèn)為:Talend是一個(gè)強(qiáng)大的刷后、具有清晰易用界面的通用數(shù)據(jù)集成工具。
3.?Stitch
Stitch是一個(gè)開源的ELT數(shù)據(jù)集成平臺(tái)渊抄。與Talend類似尝胆,Stitch也提供了付費(fèi)的服務(wù)版本,應(yīng)用于更高級(jí)的用例护桦、以及更多的數(shù)據(jù)源含衔。有趣的是,Talend于2018年11月收購(gòu)了Stitch二庵。
Stitch平臺(tái)通過(guò)提供自助式的ELT和自動(dòng)化的數(shù)據(jù)流水線贪染,來(lái)簡(jiǎn)化流程。鑒于Stitch的ELT工具不會(huì)自動(dòng)執(zhí)行任意轉(zhuǎn)換催享。因此杭隙,Stitch團(tuán)隊(duì)建議,轉(zhuǎn)換一旦被添加到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部因妙,就應(yīng)在原始數(shù)據(jù)之上添加各種分層痰憎。
G2上的評(píng)論者為Stitch給出了諸如高性能之類的正面評(píng)價(jià)。一位評(píng)論者稱贊Stitch為“定價(jià)簡(jiǎn)單攀涵、提供內(nèi)部工作流铣耘、且開源易用”。當(dāng)然以故,Stitch也存在著一些小的技術(shù)問(wèn)題蜗细,以及缺乏對(duì)小眾數(shù)據(jù)源的支持。
4.?Informatica PowerCenter
Informatica PowerCenter是用于ETL任務(wù)的成熟据德、且功能豐富的企業(yè)級(jí)數(shù)據(jù)集成平臺(tái)鳄乏。當(dāng)然跷车,PowerCenter只是Informatica云數(shù)據(jù)管理工具套件中的一種。
作為企業(yè)級(jí)橱野、且與數(shù)據(jù)庫(kù)類型無(wú)關(guān)的解決方案朽缴,PowerCenter以其高性能、以及能與許多不同數(shù)據(jù)源(包括各種SQL和非SQL數(shù)據(jù)庫(kù))相兼容而著稱水援。而Informatica PowerCenter的缺點(diǎn)在于:售價(jià)過(guò)高密强,且對(duì)于小型組織而言,可能由于較難學(xué)習(xí)與掌握蜗元,進(jìn)而帶來(lái)技術(shù)障礙或渤。
盡管存在著上述缺點(diǎn),Informatica PowerCenter還是在G2上斬獲了4.3顆星奕扣,同時(shí)被譽(yù)為數(shù)據(jù)集成軟件領(lǐng)域的“領(lǐng)先者”薪鹦。作為其中的一名評(píng)論者,Victor C.認(rèn)為PowerCenter是自己曾用過(guò)的惯豆、功能最強(qiáng)大的ETL工具池磁。當(dāng)然,他也抱怨PowerCenter的速度過(guò)慢楷兽,且無(wú)法與Tableau和QlikView等可視化的工具進(jìn)行很好的集成地熄。
5.?Oracle Data Integrator
作為Oracle數(shù)據(jù)管理生態(tài)系統(tǒng)中的一部分,Oracle Data Integrator(ODI)是一個(gè)全面的數(shù)據(jù)集成解決方案芯杀。顯然端考,該平臺(tái)是Hyperion Financial Management和Oracle E-Business Suite(EBS)等其他Oracle產(chǎn)品用戶的合適選擇。ODI既具有本地版本揭厚,又提供了Oracle數(shù)據(jù)集成平臺(tái)云却特。
與其他工具不同的是,Oracle Data Integrator只支持ELT任務(wù)棋弥,而不支持ETL核偿。而用戶對(duì)此褒貶不一。同時(shí)顽染,由于大部分外圍功能都已經(jīng)包含在了其他Oracle軟件之中漾岳,因此ODI比其他各種工具更為簡(jiǎn)單。
目前粉寞,Oracle Data Integrator在G2上的平均得分為4.0尼荆。作為其中的一名評(píng)論者,Christopher T.認(rèn)為唧垦,雖然ODI是眾多選項(xiàng)中最強(qiáng)大的一款工具捅儒,但是需要經(jīng)過(guò)必要的培訓(xùn),方可上手。
6.?Skyvia
Skyvia是一款可用于大數(shù)據(jù)集成巧还、遷移和備份的云平臺(tái)鞭莽。用戶可以用它來(lái)為包括Redshift、BigQuery和Azure在內(nèi)的數(shù)據(jù)倉(cāng)庫(kù)麸祷,創(chuàng)建數(shù)據(jù)管道澎怒。Skyvia的最大亮點(diǎn)是:它通過(guò)提供無(wú)代碼式的數(shù)據(jù)集成向?qū)В苑奖阈陆纂埂⒗螮TL用戶使用喷面。
Skyvia在G2的用戶群中備受歡迎,其評(píng)分為4.8走孽。作為其中的一名評(píng)論者惧辈,David K.認(rèn)為:即便知識(shí)有限,他們?nèi)匀豢梢允褂糜蒘kyvia提供的直觀且靈活的連接工具磕瓷,在多渠道零售業(yè)務(wù)中同步庫(kù)存盒齿。
當(dāng)然,在使用Skyvia作為ETL工具之前生宛,請(qǐng)事先注意如下三個(gè)方面:
Skyvia主要專注于ETL的提取和加載階段县昂,其轉(zhuǎn)換功能比較有限肮柜。
與其他ETL工具相比陷舅,Skyvia提供的集成和連接器數(shù)量較少。
有用戶抱怨在遇到技術(shù)問(wèn)題時(shí)审洞,其客戶支持在效率上存在問(wèn)題莱睁。
7.?Fivetran
作為基于云端的ETL解決方案,F(xiàn)ivetran支持與Redshift芒澜、BigQuery仰剿、Azure和Snowflake等數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成。Fivetran的最大優(yōu)勢(shì)在于提供了豐富的數(shù)據(jù)源陣列痴晦,其中包括約90種SaaS源南吮,以及添加用戶自定義集成的能力。
目前誊酌,F(xiàn)ivetran在G2上斬獲了4.2星部凑。許多用戶對(duì)其簡(jiǎn)單性和易用性贊許有加。作為其中的一名評(píng)論者碧浊,Daniel H.認(rèn)為:Fivetran可以提供快速涂邀、可靠的文檔連接,并能夠直接連接到新的連接器上箱锐。
當(dāng)然比勉,針對(duì)Fivetran從連接器的數(shù)量更改為基于消費(fèi)的嶄新定價(jià)模式,有用戶提出了異議。同時(shí)浩聋,也有少數(shù)用戶在技術(shù)和客戶支持方面遇到過(guò)問(wèn)題观蜗。他們認(rèn)為:Fivetran是一個(gè)黑匣子,當(dāng)出現(xiàn)問(wèn)題時(shí)衣洁,不但很難自行診斷嫂便,而且難以獲取熱線支持。
其他值得參考的8種ETL工具
8.?Striim
Striim為大數(shù)據(jù)任務(wù)提供了一個(gè)實(shí)時(shí)的數(shù)據(jù)集成平臺(tái)闸与。用戶能夠以約20多種不同的文件格式毙替,集成各種數(shù)據(jù)源與目標(biāo),其中包括Oracle践樱、SQL Server厂画、MySQL、PostgreSQL拷邢、MongoDB和Hadoop袱院。由于Striim符合GDPR和HIPAA等數(shù)據(jù)隱私法規(guī),因此用戶可以使用SQL或Java定義預(yù)加載式的轉(zhuǎn)換瞭稼。
Striim平臺(tái)主要缺點(diǎn)是:它無(wú)法包含任何SaaS源或目標(biāo)忽洛,也不允許用戶添加新的數(shù)據(jù)源。此外环肘,Striim的用戶群并不大欲虚,目前G2上只有1條評(píng)論。
9.?Matillion
作為一個(gè)云端的ETL平臺(tái)悔雹,Matillion可以將數(shù)據(jù)與Redshift复哆、Snowflake、BigQuery和Azure Synapse相集成腌零。用戶可以通過(guò)界面上的簡(jiǎn)單點(diǎn)擊或在SQL中的定義梯找,在Matillion中創(chuàng)建數(shù)據(jù)轉(zhuǎn)換。
與Striim類似益涧,與前面討論的其他工具相比锈锤,Matillion僅支持約40種SaaS數(shù)據(jù)源。雖然它在G2處獲得了4.2顆星闲询,它的基于虛擬機(jī)的時(shí)間久免,而非實(shí)際工作量、或正在使用的計(jì)算資源的定價(jià)模式嘹裂,讓部分評(píng)論者們表示不認(rèn)可妄壶。
10.?Pentaho
由Hitachi Vantara提供的Pentaho(也稱為Kettle)是一種可被用于數(shù)據(jù)集成和分析的開源平臺(tái)。用戶既可以選擇Pentaho的免費(fèi)社區(qū)版本寄狼,又可以購(gòu)買其企業(yè)版的商用許可證丁寄。與Xplenty類似氨淌,Pentaho具有易用的界面,即使是ETL的新手伊磺,也可以使用它來(lái)構(gòu)建穩(wěn)定的數(shù)據(jù)管道盛正。當(dāng)然,Pentaho也存在著諸如:模板和技術(shù)有限等缺點(diǎn)屑埋。
目前豪筝,Pentaho在G2上的平均得分為4.3顆星。不過(guò)摘能,有用戶抱怨:由于在日志記錄中缺乏針對(duì)錯(cuò)誤的詳細(xì)注釋续崖,因此他們很難識(shí)別錯(cuò)誤的真正原因。
11.?AWS Glue
可用于大數(shù)據(jù)分析任務(wù)的AWS Glue团搞,是由Amazon Web Services提供的完全托管式的ETL服務(wù)严望。作為一種端到端的ETL產(chǎn)品,AWS Glue不但減輕了ETL的工作負(fù)載逻恐,而且能夠與AWS生態(tài)系統(tǒng)中的其余部分像吻,進(jìn)行良好的集成。
值得注意的是复隆,AWS Glue是無(wú)服務(wù)器的拨匆。這意味著Amazon會(huì)自動(dòng)為用戶配置服務(wù)器,并在工作負(fù)載完成后將其關(guān)閉挽拂。AWS Glue通過(guò)提供作業(yè)調(diào)度惭每、以及開發(fā)者端點(diǎn)(developer endpoints)等功能,方便易用地測(cè)試各種AWS Glue腳本轻局。
目前洪鸭,AWS Glue不但在G2平臺(tái)上獲得了3.9顆星,而且在X2上被評(píng)為ETL工具領(lǐng)域的“領(lǐng)先者”(類似Xplenty)仑扑。我們未將其列為前面7大頂級(jí)ETL工具的原因在于,它不如其他工具靈活置鼻,并且通常更適合那些已經(jīng)處于AWS生態(tài)系統(tǒng)內(nèi)的用戶镇饮。
12.?Panoply
作為一個(gè)自動(dòng)化的自助式云端數(shù)據(jù)倉(cāng)庫(kù),Panoply旨在簡(jiǎn)化數(shù)據(jù)集成的過(guò)程箕母。那些標(biāo)準(zhǔn)的ODBC/JDBC連接储藐、Postgres連接、以及AWS Redshift連接的等數(shù)據(jù)連接器嘶是,都可以與Panoply兼容钙勃。此外,用戶也可以將Panoply與前面提到的Stitch和Fivetran等ETL工具相連接聂喇,以進(jìn)一步擴(kuò)展其數(shù)據(jù)集成的工作流辖源。
在G2上蔚携,Panoply已獲得了4.4顆星。作為一名評(píng)論者克饶,Stacie B認(rèn)為:Panoply的最大優(yōu)點(diǎn)是能夠輕松地從多個(gè)來(lái)源導(dǎo)入數(shù)據(jù)酝蜒,并能快速地設(shè)置程序,與實(shí)現(xiàn)數(shù)據(jù)的加載矾湃。
Panoply未被入選七大頂級(jí)ETL工具的理由在于:Panoply既是數(shù)據(jù)倉(cāng)庫(kù)亡脑,又是ETL解決方案。因此邀跃,如果您已經(jīng)正在使用其他類型的云端數(shù)據(jù)倉(cāng)庫(kù)霉咨,并且不打算進(jìn)行更換的話,則沒(méi)有必要選用Panoply拍屑。
13.?Alooma
作為一種云端數(shù)據(jù)倉(cāng)庫(kù)的ETL數(shù)據(jù)遷移工具躯护,Alooma的主要賣點(diǎn)在于,它自動(dòng)化了大部分?jǐn)?shù)據(jù)管道丽涩,以方便用戶去關(guān)注技術(shù)細(xì)節(jié)棺滞,而非結(jié)果。
2019年2月矢渊,谷歌收購(gòu)了Alooma继准,并將其注冊(cè)僅限于Google Cloud Platform的用戶。這意味著任何使用其他數(shù)據(jù)倉(cāng)庫(kù)(如Redshift或Snowflake)的客戶矮男,都將無(wú)法使用該工具移必。
盡管如此,Alooma在G2上仍收獲了4.0顆星的好評(píng)毡鉴。其中的一名評(píng)論者認(rèn)為:雖然Alooma通過(guò)其代碼引擎功能提供了各種靈活性崔泵,但是其某些關(guān)鍵性的工具棧服務(wù)尚未成熟。
14.?Hevo Data
作為一個(gè)ETL數(shù)據(jù)集成平臺(tái)猪瞬,Hevo Data具有上百種預(yù)構(gòu)建的連接器憎瘸,可用于連接諸如Redshift、BigQuery和Snowflake等各種數(shù)據(jù)庫(kù)陈瘦,云端存儲(chǔ)和SaaS源幌甘。用戶可以使用Python在Hevo Data中自定義預(yù)加載的轉(zhuǎn)換。
Hevo的最大局限性在于痊项,它無(wú)法添加自己的數(shù)據(jù)源锅风,以建立新的連接。此外鞍泉,Hevo Data的用戶群較小皱埠,目前在G2上只有6條評(píng)論。
15.?FlyData
作為一個(gè)實(shí)時(shí)數(shù)據(jù)復(fù)制平臺(tái)咖驮,F(xiàn)lyData的最大優(yōu)勢(shì)在于:它僅與Amazon Redshift數(shù)據(jù)倉(cāng)庫(kù)相兼容边器。也就是說(shuō)训枢,如果您是Redshift的“骨灰級(jí)用戶”,那么可以直接使用這款為Redshift量身定制的工具饰抒。不過(guò)肮砾,如果您正在使用其他的數(shù)據(jù)倉(cāng)庫(kù)方案,或者想要保持靈活性袋坑,并避免被供應(yīng)商鎖定的風(fēng)險(xiǎn)仗处,那么FlyData就不太適合了。此外枣宫,F(xiàn)lyData僅適用于諸如Amazon RDS婆誓、Amazon Aurora、MySQL也颤、Percona洋幻、PostgreSQL和MariaDB等,少數(shù)數(shù)據(jù)源(其中并無(wú)SaaS平臺(tái))翅娶。
優(yōu)秀ETL工具的用例
由上可見(jiàn)文留,沒(méi)有兩款ETL軟件工具是完全相同的,它們各有自己的優(yōu)竭沫、缺點(diǎn)燥翅。為了讓您能夠?yàn)樽约旱臉I(yè)務(wù)需求,找到最佳的ETL工具蜕提,下面我們來(lái)討論每種工具最適合的應(yīng)用場(chǎng)景森书。您可以據(jù)此進(jìn)行綜合評(píng)估與選用。
Xplenty:適用于日常處理ETL和(或)ELT的任務(wù)需求谎势,滿足非技術(shù)人員直觀的拖放界面凛膏,以及那些需要多種預(yù)構(gòu)建的集成、且重視數(shù)據(jù)安全性的項(xiàng)目脏榆。
Talend:適用于偏好開源解決方案的公司猖毫,以及需要多種預(yù)構(gòu)建集成的項(xiàng)目。
Stitch:適用于那些偏好開源的方案姐霍,簡(jiǎn)單的ELT流程鄙麦,但不想進(jìn)行復(fù)雜轉(zhuǎn)換的用戶。
Informatica PowerCenter:適用于具有大量預(yù)算镊折,且對(duì)性能要求苛刻的大型企業(yè)。
Oracle Data Integrator:適用于現(xiàn)有的Oracle客戶介衔,以及需要處理ELT任務(wù)的公司恨胚。
Skyvia:適用于采用無(wú)代碼解決方案,且不需要執(zhí)行大量轉(zhuǎn)換的項(xiàng)目炎咖。
Fivetran:適用于需要各種預(yù)構(gòu)建集成赃泡,以及通過(guò)多個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)滿足靈活性的用戶寒波。
Striim:適用于需要遵守GDPR或HIPAA,且不需添加新的數(shù)據(jù)源(尤其是SaaS)的項(xiàng)目升熊。
Matillion:適用于希望使用簡(jiǎn)單的點(diǎn)擊界面俄烁,以及有限數(shù)據(jù)源的公司。
Pentaho:適用于采用了開源ETL工具的項(xiàng)目级野。
AWS Glue:適用于現(xiàn)有的AWS用戶页屠,以及需要完全托管式ETL方案的公司。
Panoply:適用于需要結(jié)合使用ETL和數(shù)據(jù)倉(cāng)庫(kù)方案的項(xiàng)目蓖柔。
Alooma:適用于現(xiàn)有的Google Cloud Platform用戶辰企。
Hevo Data:適用于需要將Python添加到自己的數(shù)據(jù)轉(zhuǎn)換任務(wù)中,但不需要添加新的數(shù)據(jù)源的項(xiàng)目况鸣。
FlyData:適用于只需要使用Redshift作為數(shù)據(jù)倉(cāng)庫(kù)的公司牢贸。
如您所見(jiàn),在為自己的團(tuán)隊(duì)確定最佳ETL軟件工具時(shí)镐捧,您需要了解項(xiàng)目的特點(diǎn)和使用場(chǎng)景潜索,通過(guò)試用與研究,方能發(fā)現(xiàn)最佳選擇懂酱。