Hive on Spark參數(shù)調(diào)優(yōu)姿勢(shì)小結(jié)

前言

Hive on Spark是指使用Spark替代傳統(tǒng)MapReduce作為Hive的執(zhí)行引擎隶垮,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需要合理調(diào)整參數(shù)才能最大化性能匕争,本文簡(jiǎn)單列舉一些調(diào)優(yōu)項(xiàng)渊啰。為了符合實(shí)際情況,Spark也采用on YARN部署方式來(lái)說(shuō)明捂齐。

Executor參數(shù)

spark.executor.cores

該參數(shù)表示每個(gè)Executor可利用的CPU核心數(shù)蛮放。其值不宜設(shè)定過(guò)大,因?yàn)镠ive的底層以HDFS存儲(chǔ)奠宜,而HDFS有時(shí)對(duì)高并發(fā)寫(xiě)入處理不太好筛武,容易造成race condition。根據(jù)我們的實(shí)踐挎塌,設(shè)定在3~6之間比較合理徘六。

假設(shè)我們使用的服務(wù)器單節(jié)點(diǎn)有32個(gè)CPU核心可供使用×穸迹考慮到系統(tǒng)基礎(chǔ)服務(wù)和HDFS等組件的余量待锈,一般會(huì)將YARN NodeManager的yarn.nodemanager.resource.cpu-vcores參數(shù)設(shè)為28,也就是YARN能夠利用其中的28核嘴高,此時(shí)將spark.executor.cores設(shè)為4最合適竿音,最多可以正好分配給7個(gè)Executor而不造成浪費(fèi)和屎。又假設(shè)yarn.nodemanager.resource.cpu-vcores為26,那么將spark.executor.cores設(shè)為5最合適春瞬,只會(huì)剩余1個(gè)核柴信。

由于一個(gè)Executor需要一個(gè)YARN Container來(lái)運(yùn)行,所以還需保證spark.executor.cores的值不能大于單個(gè)Container能申請(qǐng)到的最大核心數(shù)宽气,即yarn.scheduler.maximum-allocation-vcores的值随常。

spark.executor.memory/spark.yarn.executor.memoryOverhead

這兩個(gè)參數(shù)分別表示每個(gè)Executor可利用的堆內(nèi)內(nèi)存量和堆外內(nèi)存量。堆內(nèi)內(nèi)存越大萄涯,Executor就能緩存更多的數(shù)據(jù)绪氛,在做諸如map join之類(lèi)的操作時(shí)就會(huì)更快,但同時(shí)也會(huì)使得GC變得更麻煩涝影。Hive官方提供了一個(gè)計(jì)算Executor總內(nèi)存量的經(jīng)驗(yàn)公式枣察,如下:

yarn.nodemanager.resource.memory-mb * (spark.executor.cores / yarn.nodemanager.resource.cpu-vcores)

其實(shí)就是按核心數(shù)的比例分配。在計(jì)算出來(lái)的總內(nèi)存量中燃逻,80%~85%劃分給堆內(nèi)內(nèi)存序目,剩余的劃分給堆外內(nèi)存。

假設(shè)集群中單節(jié)點(diǎn)有128G物理內(nèi)存伯襟,yarn.nodemanager.resource.memory-mb(即單個(gè)NodeManager能夠利用的主機(jī)內(nèi)存量)設(shè)為120G猿涨,那么總內(nèi)存量就是:120 * 1024 * (4 / 28) ≈ 17554MB。再按8:2比例劃分的話逗旁,最終spark.executor.memory設(shè)為約13166MB嘿辟,spark.yarn.executor.memoryOverhead設(shè)為約4389MB。

與上一節(jié)同理片效,這兩個(gè)內(nèi)存參數(shù)相加的總量也不能超過(guò)單個(gè)Container最多能申請(qǐng)到的內(nèi)存量红伦,即yarn.scheduler.maximum-allocation-mb

spark.executor.instances

該參數(shù)表示執(zhí)行查詢(xún)時(shí)一共啟動(dòng)多少個(gè)Executor實(shí)例淀衣,這取決于每個(gè)節(jié)點(diǎn)的資源分配情況以及集群的節(jié)點(diǎn)數(shù)昙读。若我們一共有10臺(tái)32C/128G的節(jié)點(diǎn),并按照上述配置(即每個(gè)節(jié)點(diǎn)承載7個(gè)Executor)膨桥,那么理論上講我們可以將spark.executor.instances設(shè)為70蛮浑,以使集群資源最大化利用。但是實(shí)際上一般都會(huì)適當(dāng)設(shè)小一些(推薦是理論值的一半左右)只嚣,因?yàn)镈river也要占用資源沮稚,并且一個(gè)YARN集群往往還要承載除了Hive on Spark之外的其他業(yè)務(wù)。

spark.dynamicAllocation.enabled

上面所說(shuō)的固定分配Executor數(shù)量的方式可能不太靈活册舞,尤其是在Hive集群面向很多用戶提供分析服務(wù)的情況下蕴掏。所以更推薦將spark.dynamicAllocation.enabled參數(shù)設(shè)為true,以啟用Executor動(dòng)態(tài)分配。該機(jī)制由Spark內(nèi)部的ExecutorAllocationManager實(shí)現(xiàn)盛杰,原理相對(duì)復(fù)雜挽荡,看官可參見(jiàn)這里

Driver參數(shù)

spark.driver.cores

該參數(shù)表示每個(gè)Driver可利用的CPU核心數(shù)即供。絕大多數(shù)情況下設(shè)為1都?jí)蛴谩?/p>

spark.driver.memory/spark.driver.memoryOverhead

這兩個(gè)參數(shù)分別表示每個(gè)Driver可利用的堆內(nèi)內(nèi)存量和堆外內(nèi)存量定拟。根據(jù)資源富余程度和作業(yè)的大小,一般是將總量控制在512MB~4GB之間逗嫡,并且沿用Executor內(nèi)存的“二八分配方式”青自。例如,spark.driver.memory可以設(shè)為約819MB祸穷,spark.driver.memoryOverhead設(shè)為約205MB性穿,加起來(lái)正好1G勺三。

Hive參數(shù)

絕大部分Hive參數(shù)的含義和調(diào)優(yōu)方法都與on MR時(shí)相同雷滚,但仍有兩個(gè)需要注意。

hive.auto.convert.join.noconditionaltask.size

我們知道吗坚,當(dāng)Hive中做join操作的表有一方是小表時(shí)祈远,如果hive.auto.convert.joinhive.auto.convert.join.noconditionaltask開(kāi)關(guān)都為true(默認(rèn)即如此),就會(huì)自動(dòng)轉(zhuǎn)換成比較高效的map-side join商源。而hive.auto.convert.join.noconditionaltask.size這個(gè)參數(shù)就是map join轉(zhuǎn)化的閾值车份,在Hive on MR下默認(rèn)為10MB。

但是Hive on MR下統(tǒng)計(jì)表的大小時(shí)牡彻,使用的是數(shù)據(jù)在磁盤(pán)上存儲(chǔ)的近似大小扫沼,而Hive on Spark下則改用在內(nèi)存中存儲(chǔ)的近似大小。由于HDFS上的數(shù)據(jù)很有可能被壓縮或序列化庄吼,使得大小減小缎除,所以由MR遷移到Spark時(shí)要適當(dāng)調(diào)高這個(gè)參數(shù),以保證map join正常轉(zhuǎn)換总寻。一般會(huì)設(shè)為100~200MB左右器罐,如果內(nèi)存充裕,可以更大點(diǎn)渐行。

hive.merge.sparkfiles

小文件是HDFS的天敵轰坊,所以Hive原生提供了合并小文件的選項(xiàng),在on MR時(shí)是hive.merge.mapredfiles祟印,但是on Spark時(shí)會(huì)改成hive.merge.sparkfiles肴沫,注意要把這個(gè)參數(shù)設(shè)為true。至于小文件合并的閾值參數(shù)蕴忆,即hive.merge.smallfiles.avgsizehive.merge.size.per.task都沒(méi)有變化颤芬。

The End

民那晚安。祝身體健康,百毒不侵驻襟。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末夺艰,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子沉衣,更是在濱河造成了極大的恐慌郁副,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,311評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件豌习,死亡現(xiàn)場(chǎng)離奇詭異存谎,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)肥隆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)既荚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人栋艳,你說(shuō)我怎么就攤上這事恰聘。” “怎么了吸占?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,671評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵晴叨,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我矾屯,道長(zhǎng)兼蕊,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,252評(píng)論 1 279
  • 正文 為了忘掉前任件蚕,我火速辦了婚禮孙技,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘排作。我一直安慰自己牵啦,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布纽绍。 她就那樣靜靜地躺著蕾久,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拌夏。 梳的紋絲不亂的頭發(fā)上僧著,一...
    開(kāi)封第一講書(shū)人閱讀 49,031評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音障簿,去河邊找鬼盹愚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛站故,可吹牛的內(nèi)容都是我干的皆怕。 我是一名探鬼主播毅舆,決...
    沈念sama閱讀 38,340評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼愈腾!你這毒婦竟也來(lái)了憋活?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,973評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤虱黄,失蹤者是張志新(化名)和其女友劉穎悦即,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體橱乱,經(jīng)...
    沈念sama閱讀 43,466評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡辜梳,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了泳叠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片作瞄。...
    茶點(diǎn)故事閱讀 38,039評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖危纫,靈堂內(nèi)的尸體忽然破棺而出宗挥,到底是詐尸還是另有隱情,我是刑警寧澤叶摄,帶...
    沈念sama閱讀 33,701評(píng)論 4 323
  • 正文 年R本政府宣布属韧,位于F島的核電站安拟,受9級(jí)特大地震影響蛤吓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜糠赦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評(píng)論 3 307
  • 文/蒙蒙 一会傲、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拙泽,春花似錦淌山、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,259評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至荷荤,卻和暖如春退渗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蕴纳。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工会油, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人古毛。 一個(gè)月前我還...
    沈念sama閱讀 45,497評(píng)論 2 354
  • 正文 我出身青樓翻翩,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子嫂冻,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評(píng)論 2 345