大數(shù)據(jù)開發(fā)之Hive優(yōu)化篇1-Hive 優(yōu)化概述

備注:
Hive 版本 2.1.1

一.Hive的實(shí)現(xiàn)原理

Hive的編譯器將HQL轉(zhuǎn)換成一組操作符(Operator)
操作符是Hive的最小處理單元
每個(gè)操作符代表一道HDFS操作或者M(jìn)R Job 作業(yè)


image.png

Hive的操作符

image.png

Hive編譯器
Parser:
將SQL轉(zhuǎn)換成抽象語法樹
語法解析器:
將抽象語法樹轉(zhuǎn)換成查詢塊
邏輯計(jì)劃生成器:
將查詢塊轉(zhuǎn)換成邏輯計(jì)劃
物理計(jì)劃生成器:
將邏輯計(jì)劃轉(zhuǎn)換成物理計(jì)劃
物理計(jì)劃優(yōu)化器:
物理計(jì)劃優(yōu)化策略

編譯流程

image.png

利用Explain查看執(zhí)行計(jì)劃
語法:

:EXPLAIN [EXTENDED] query

輸出:

  1. 查詢語句的抽象語法樹(AST)
  2. 執(zhí)行計(jì)劃丌同階段間的依賴關(guān)系
  3. 每個(gè)階段的描述

二Hive優(yōu)化

優(yōu)化的目的:提升查詢性能,快速產(chǎn)出結(jié)果
Hive的優(yōu)化思路:

  1. 編譯器優(yōu)化器優(yōu)化:采用合理的優(yōu)化策略滥搭,生成高效的物理計(jì)劃
  2. MapReduce執(zhí)行層優(yōu)化:通過MR參數(shù)優(yōu)化色徘,提升Job運(yùn)行效率
  3. HDFS存儲(chǔ)層優(yōu)化:采用合理的存儲(chǔ)格式和合理的Schema設(shè)計(jì),降低IO瓶頸

2.1 選擇合理的存儲(chǔ)格式和壓縮格式

列存儲(chǔ)活逆,高壓縮比,列剪枝,過濾無用字段IO

  1. Orc
  2. Parquet

壓縮格式選擇:snappy

2.2 MR Job優(yōu)化

并行執(zhí)行
Hive產(chǎn)生的MR Job默認(rèn)是順序執(zhí)行的,如果Job之間無依賴可以并行執(zhí)行

set hive.exec.parallel=true;

本地執(zhí)行
雖然Hive能夠利用MR處理大規(guī)模數(shù)據(jù)第煮,但某些場(chǎng)景下處理的數(shù)據(jù)量非常小可以本地執(zhí)行解幼,不必提交集群

set hive.exec.mode.local.auto=true;
hive.exec.mode.local.auto.inputbytes.max(默認(rèn)128MB)
hive.exec.mode.local.auto.input.files.max(默認(rèn)4)

合并輸入小文件
如果Job輸入有很多小文件,造成Map數(shù)太多包警,影響效率

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

合并輸出小文件

set hive.merge.mapfiles=true; // map only job結(jié)束時(shí)合并小文件
set hive.merge.mapredfiles=true; // 合并reduce輸出的小文件
set hive.merge.smallfiles.avgsize=256000000; //當(dāng)輸出文件平均大小小于該值撵摆,啟動(dòng)新job合并文件
set hive.merge.size.per.task=64000000; //合并之后的每個(gè)文件大小

控制Map/Reduce數(shù)
控制Map/Reduce數(shù)來控制Job執(zhí)行的并行度

Num_Map_tasks= $inputsize/ max($mapred.min.split.size, min($dfs.block.size, $mapred.max.split.size))
Num_Reduce_tasks= min($hive.exec.reducers.max, $inputsize/$hive.exec.reducers.bytes.per.reducer)

JVM重用
JVM重利用可以使job長時(shí)間保留slot,直到作業(yè)結(jié)束

set mapred.job.reuse.jvm.num.tasks=10 //每個(gè)jvm運(yùn)行10個(gè)task

推測(cè)執(zhí)行

set hive.mapred.reduce.tasks.speculative.execution=true
set mapreduce.map.speculative=true
set mapreduce.reduce.speculative=true

一定要開啟壓縮
中間結(jié)果壓縮揽趾,減少Job跟Job之間的IO開銷

set hive.exec.compress.intermediate=true
set mapred.map.output.compression.codec=<CodecClassName>

最終結(jié)果壓縮台汇,減少存儲(chǔ)空間

set hive.exec.compress.output=true
Set mapred.output.compression.codec=<CodecClassName>

2.3 Join優(yōu)化

Hive的Join類型:

  1. Shuffle Join
  2. Broadcast Join(MapJoin)
  3. Sort-Merge-Bucket Join


    image.png

2.3.1 MapJoin 優(yōu)化

方式一(自動(dòng)判斷):

set.hive.auto.convert.join=true;
hive.mapjoin.smalltable.filesize  // 默認(rèn)值是25mb, 小表小于25mb自動(dòng)啟動(dòng)mapjoin

方式二(手動(dòng)顯式):
select /+mapjoin(A)/ f.a,f.bfrom A t join B f on (f.a=t.a)

image.png

2.3.2 SMB Join 優(yōu)化

使用方式:

hive.optimize.bucketmapjoin= true

和mapjoin一起工作,所有要Join的表都必須對(duì)Join key做了分桶苛骨,并且大表的桶數(shù)是小表的整數(shù)倍

由于對(duì)表設(shè)計(jì)有太多的限制篱瞎,不太常用

2.4 數(shù)據(jù)傾斜

數(shù)據(jù)傾斜是指由于數(shù)據(jù)分布不均勻,個(gè)別值集中占據(jù)大部分?jǐn)?shù)據(jù)量痒芝,導(dǎo)致某一個(gè)或者幾個(gè)ReduceTask處理的數(shù)據(jù)量相對(duì)很大造成的Job運(yùn)行非常慢俐筋,甚至OOM掛掉

在SQL上,一般是由于group by 或者join shuffle key丌均勻造成的

數(shù)據(jù)傾斜是業(yè)務(wù)數(shù)據(jù)問題導(dǎo)致的严衬,如果從業(yè)務(wù)上下手避免是最好的

  1. 比如由于Null值引起的澄者,或者某一個(gè)特殊的key造成的數(shù)據(jù)量特別大
  2. 先過濾掉特殊key的數(shù)據(jù)再進(jìn)行處理

Hive自身的優(yōu)化方案:

  1. 由group by 引起的數(shù)據(jù)傾斜:
hive.map.aggr=true //做map端預(yù)聚合,相當(dāng)于Map端Combiner
hive.groupby.skewindata//將key的數(shù)據(jù)隨機(jī)分發(fā)到Reduce端做聚合请琳,然后再起一個(gè)Job對(duì)上一步的結(jié)果做聚合
  1. 由Join引起的數(shù)據(jù)傾斜(Skew Join)
set hive.optimize.skewjoin= true
set hive.skewjoin.key= 100000
// 超過閾值就判斷為skew key
image.png

2.5 Hive的優(yōu)化配置參數(shù)

hive-site.xml中更改默認(rèn)配置
在腳本中set變量
Hive的優(yōu)化配置非常多粱挡,具體情況具體分析

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市俄精,隨后出現(xiàn)的幾起案子询筏,更是在濱河造成了極大的恐慌,老刑警劉巖竖慧,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嫌套,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡圾旨,警方通過查閱死者的電腦和手機(jī)踱讨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來砍的,“玉大人痹筛,你說我怎么就攤上這事±希” “怎么了味混?”我有些...
    開封第一講書人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長诫惭。 經(jīng)常有香客問我翁锡,道長,這世上最難降的妖魔是什么夕土? 我笑而不...
    開封第一講書人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任馆衔,我火速辦了婚禮瘟判,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘角溃。我一直安慰自己拷获,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開白布减细。 她就那樣靜靜地躺著匆瓜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪未蝌。 梳的紋絲不亂的頭發(fā)上驮吱,一...
    開封第一講書人閱讀 51,718評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音萧吠,去河邊找鬼左冬。 笑死,一個(gè)胖子當(dāng)著我的面吹牛纸型,可吹牛的內(nèi)容都是我干的拇砰。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼狰腌,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼除破!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起琼腔,我...
    開封第一講書人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤瑰枫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后展姐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體躁垛,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年圾笨,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了教馆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡擂达,死狀恐怖土铺,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情板鬓,我是刑警寧澤悲敷,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站俭令,受9級(jí)特大地震影響后德,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抄腔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一瓢湃、第九天 我趴在偏房一處隱蔽的房頂上張望理张。 院中可真熱鬧,春花似錦绵患、人聲如沸雾叭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽织狐。三九已至,卻和暖如春筏勒,著一層夾襖步出監(jiān)牢的瞬間移迫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來泰國打工奏寨, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留起意,地道東北人鹰服。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓病瞳,卻偏偏與公主長得像,于是被迫代替她去往敵國和親悲酷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子套菜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 引語 大數(shù)據(jù)開發(fā)之路漫漫其修遠(yuǎn)兮,吾將上下而求索设易。很多入門大數(shù)據(jù)的小伙伴逗柴,可能第一個(gè)接觸到的,就是一只可愛的“小象...
    yoku醬閱讀 519評(píng)論 0 1
  • 在工作中使用hive比較多顿肺,也寫了很多HiveQL戏溺。這里從三個(gè)方面對(duì) Hive 常用的一些性能優(yōu)化進(jìn)行了總結(jié)。 表...
    digger30閱讀 967評(píng)論 0 5
  • 數(shù)據(jù)倉庫中的SQL性能優(yōu)化(Hive篇) - 簡書 http://www.reibang.com/p/808a5...
    葡萄喃喃囈語閱讀 4,556評(píng)論 0 31
  • 推薦指數(shù): 6.0 書籍主旨關(guān)鍵詞:特權(quán)屠尊、焦點(diǎn)旷祸、注意力、語言聯(lián)想讼昆、情景聯(lián)想 觀點(diǎn): 1.統(tǒng)計(jì)學(xué)現(xiàn)在叫數(shù)據(jù)分析托享,社會(huì)...
    Jenaral閱讀 5,721評(píng)論 0 5
  • 昨天,在回家的路上浸赫,坐在車?yán)镉圃沼圃盏乜粗摹度龉衬墓适隆啡蛭В冶焕锩娴膬?nèi)容深深吸引住了,盡管上學(xué)時(shí)...
    夜闌曉語閱讀 3,788評(píng)論 2 9