日前远搪,ApacheHive2.1極速登場劫瞳!攜著內(nèi)存計算,其性能提高了約26倍。Hive計算性能得到如此大的提升,是得益于什么呢?Hive能夠影響目前SQL On Hadoop的競爭局面的原因又是什么呢筐乳?大圣眾包威客平臺(www.dashengzb.cn)為你揭秘贮懈!
大數(shù)據(jù)時代,處理數(shù)據(jù)信息的速度越快,兼容性越高水孩,性能越優(yōu)秀宙刘,產(chǎn)品的競爭力才越大布近。而讓ApacheHive2.1版本擁有以上特性的幕后功臣铁追,分別為以下6個:
1.LLAP的引入
其實涩禀,早在ApacheHive2.0版本時屿岂,其已引入了LLAP(LiveLongAndProcess),而2.1版本則對其進行了極大的優(yōu)化,因此2.1版本相比于ApacheHive1版本,其性能提升了約26倍。
如圖所示,相比于Hive1+Tez,Hive2.1+Tez+LLAP的性能提升了約26倍,測試結(jié)果如下圖所示:
正是Hive2LLAP的引入递礼,標志著ApacheHive進入第三代內(nèi)存計算時代将硝。讓ApacheHive2.1性能提升的至關(guān)重要的優(yōu)化秘密涛贯,在于LLAP稀余。LLAP是下一代分布式計算架構(gòu)师骗,它能夠智能地將數(shù)據(jù)緩存到多臺機器內(nèi)存中黍少,并允許所有客戶端共享這些緩存的數(shù)據(jù)昵济,同時保留了彈性伸縮能力沼溜。為什么它能擁有這些優(yōu)勢找都?因為晓猛,LLAP引入了分布式持久化查詢服務(wù)洪燥,并結(jié)合了經(jīng)優(yōu)化的數(shù)據(jù)緩存機制快速啟動查詢計算作業(yè),同時,還避免了無需的磁盤IO操作。
2.更魯邦的SQLACID支持
3.2XETL性能的提升
ApacheHive2.1引入了更智能的CBO(CostBasedOptimizer),實現(xiàn)了更快的類型轉(zhuǎn)換拌滋,以及動態(tài)分區(qū)優(yōu)化昌犹。
4.存儲過程的支持
通過開源項目HPL/SQL千贯,讓ApacheHive2.1加大簡化了從EDW遷移到Hive的流程敦第。而HPL/SQL的目的,是為實現(xiàn)ApacheHive、SparkSQL房待、Impala以及其他SQL-on-Hadoop,以及任何NoSQL和RDBMS增加存儲的過程极谊。
5.對文本格式數(shù)據(jù)增加向量化計算的支持
6.新的診斷和監(jiān)控工具的引入
包括新的HiveServer2UI、LLAPUI和改進的TezUI淑蔚,都是ApacheHive2.1引入的新的診斷和監(jiān)控工具音羞,這讓它性能更穩(wěn)定叽躯。
原文地址:http://www.dashengzb.cn/articles/a-302.html
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨、或電子書葛菇,可添加個人微信號(dashenghuaer))