如何選擇滿足需求的SQL on Hadoop系統(tǒng) - 文章
http://weibo.com/p/1001603864171165928729
總的來說,目前來看Hive依然是批處理/ETL 類應(yīng)用的首選逛漫。Hive on Spark能夠降低Hive的延遲,但是還是達(dá)不到交互式BI查詢的需求砌烁。目前交互式BI查詢最好的選擇是Impala。Spark SQL/DataFrame是Spark用戶使用SQL或者DataFrame API構(gòu)建Spark pipeline的一種選擇喧半,并不是一個(gè)通用的支持交互式查詢的引擎惧磺,更多的會(huì)用在基于Spark的機(jī)器學(xué)習(xí)任務(wù)的數(shù)據(jù)處理和準(zhǔn)備的環(huán)節(jié)。
Impala部署赏寇、權(quán)限吉嫩、資源隔離雜談 - Hello World - 博客頻道 - CSDN.NET
http://blog.csdn.net/yu616568/article/details/52751081
如何選擇滿足需求的SQL on Hadoop系統(tǒng) - 文章
http://weibo.com/p/1001603864171165928729
Impala主要的推動(dòng)者是Cloudera,自從推出以來一直不溫不火嗅定。Impala是一種MPP架構(gòu)的執(zhí)行引擎自娩,查詢速度非常快渠退,是交互式BI查詢最好的選擇忙迁,即使是在并發(fā)性非常高的情況下也能保證查詢延遲脐彩,所以在multi-tenant, shared clusters上表現(xiàn)比較好。Impala的另外一個(gè)重要的優(yōu)點(diǎn)就是支持的SQL是在以上這些系統(tǒng)中是最標(biāo)準(zhǔn)的动漾,也就是跟SQL99是最像的丁屎,所以對于傳統(tǒng)企業(yè)來說可能是個(gè)不錯(cuò)的選擇荠锭。Impala的主要缺點(diǎn)是社區(qū)不活躍旱眯,由C++開發(fā),可維護(hù)性差证九,目前系統(tǒng)穩(wěn)定性還有待提高删豺。