Hive使用Spark on Yarn作為執(zhí)行引擎 – lxw的大數(shù)據(jù)田地
http://lxw1234.com/archives/2016/05/673.htm
Hive從1.1之后壳影,支持使用Spark作為執(zhí)行引擎遮咖,配置使用Spark On Yarn作為Hive的執(zhí)行引擎,首先需要注意以下兩個(gè)問(wèn)題:
Hive的版本和Spark的版本要匹配虏缸;
SparkSQL讀取HBase數(shù)據(jù) – lxw的大數(shù)據(jù)田地
http://lxw1234.com/archives/2015/07/330.htm
通過(guò)Hive和spark-sql去訪問(wèn)HBase表,只是為統(tǒng)計(jì)分析提供了一定的便捷性浦译,個(gè)人覺(jué)得性能上的優(yōu)勢(shì)并不明顯常侣。
可能Spark通過(guò)API去讀取HBase數(shù)據(jù),性能更好些吧条辟,以后再試黔夭。
另外,spark-sql有一點(diǎn)好處羽嫡,就是可以先把HBase中的數(shù)據(jù)cache到一張內(nèi)存表中本姥,然后在這張內(nèi)存表中,
通過(guò)SQL去統(tǒng)計(jì)分析杭棵,那就爽多了婚惫。
Spark1.4.0-SparkSQL與Hive整合-支持窗口分析函數(shù) – lxw的大數(shù)據(jù)田地
http://lxw1234.com/archives/2015/06/294.htm
Spark1.4發(fā)布,除了重量級(jí)的SparkR,其中的SparkSQL支持了我期待已久的窗口分析函數(shù)(window functions),關(guān)于Hive中窗口分析函數(shù)的用法可參考 Hive分析函數(shù)系列 文章先舷。
在我們的數(shù)據(jù)平臺(tái)中艰管,90%以上的離線分析任務(wù)都是使用Hive實(shí)現(xiàn),其中必然會(huì)使用很多窗口分析函數(shù)蒋川,如果SparkSQL支持窗口分析函數(shù)蛙婴,
那么對(duì)于后面Hive向SparkSQL中的遷移的工作量會(huì)大大降低,因此迫不及待將Spark1.4下載試用一下尔破。