如何選擇滿足需求的SQL on Hadoop系統(tǒng) - 文章
http://weibo.com/p/1001603864171165928729
特別是目前Spark社區(qū)把Spark SQL朝向DataFrame發(fā)展患朱,目標(biāo)是提供一個類似R或者Pandas的接口,把這個作為主要的發(fā)展方向炊苫。DataFrame這個功能使得Spark成為機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域不可或缺的一個組件裁厅,但是在數(shù)據(jù)倉庫(ETL,交互式分析侨艾,BI查詢)領(lǐng)域感覺已經(jīng)不打算作為他們主要的發(fā)展目標(biāo)了执虹。
總的來說,目前來看Hive依然是批處理/ETL 類應(yīng)用的首選唠梨。Hive on Spark能夠降低Hive的延遲袋励,但是還是達(dá)不到交互式BI查詢的需求。目前交互式BI查詢最好的選擇是Impala当叭。Spark SQL/DataFrame是Spark用戶使用SQL或者DataFrame API構(gòu)建Spark pipeline的一種選擇茬故,并不是一個通用的支持交互式查詢的引擎,更多的會用在基于Spark的機(jī)器學(xué)習(xí)任務(wù)的數(shù)據(jù)處理和準(zhǔn)備的環(huán)節(jié)科展。