//
hive - 有沒有好用的大數(shù)據(jù)ETL工具 - SegmentFault
https://segmentfault.com/q/1010000002701693
目前業(yè)界有沒有好用的etl工具妖胀?用于數(shù)據(jù)倉庫建設(shè)的惠勒。
1赚抡、hadoop的oozie和azkaban用了下感覺更適合小型任務(wù)的纠屋,但在數(shù)據(jù)倉庫建設(shè)中感覺會十分麻煩。
2、ETL Automation署辉、kettle等適合于oracle等,不太適合hadoop等哭尝。
3、自己開發(fā)ETL了材鹦,有些互聯(lián)網(wǎng)公司就是這么干的耕姊。
你是準備ETL之后把數(shù)據(jù)放進傳統(tǒng)的SQL數(shù)據(jù)倉庫么?
如果數(shù)據(jù)量非常大茉兰,可以試著直接存放在Hadoop或者NonSQL數(shù)據(jù)庫,比如Cassandra规脸。然后在這基礎(chǔ)上使用一些SQL on Hadoop的方案去查詢數(shù)據(jù),比如Spark燃辖,或者Impala等网棍。也有個中國人做的開源產(chǎn)品Apache Kylin,可以一看滥玷。