大數(shù)據(jù)開發(fā)之Hive優(yōu)化篇1-Hive 優(yōu)化概述

備注:
Hive 版本 2.1.1

一.Hive的實(shí)現(xiàn)原理

Hive的編譯器將HQL轉(zhuǎn)換成一組操作符(Operator)
操作符是Hive的最小處理單元
每個(gè)操作符代表一道HDFS操作或者M(jìn)R Job 作業(yè)

image.png

Hive的操作符

image.png

Hive編譯器
Parser：
將SQL轉(zhuǎn)換成抽象語法樹
語法解析器：
將抽象語法樹轉(zhuǎn)換成查詢塊
邏輯計(jì)劃生成器：
將查詢塊轉(zhuǎn)換成邏輯計(jì)劃
物理計(jì)劃生成器：
將邏輯計(jì)劃轉(zhuǎn)換成物理計(jì)劃
物理計(jì)劃優(yōu)化器：
物理計(jì)劃優(yōu)化策略

編譯流程

image.png

利用Explain查看執(zhí)行計(jì)劃
語法:

：EXPLAIN [EXTENDED] query

輸出：

查詢語句的抽象語法樹（AST）
執(zhí)行計(jì)劃丌同階段間的依賴關(guān)系
每個(gè)階段的描述

二Hive優(yōu)化

優(yōu)化的目的：提升查詢性能，快速產(chǎn)出結(jié)果
Hive的優(yōu)化思路：

編譯器優(yōu)化器優(yōu)化：采用合理的優(yōu)化策略滥搭，生成高效的物理計(jì)劃
MapReduce執(zhí)行層優(yōu)化：通過MR參數(shù)優(yōu)化色徘，提升Job運(yùn)行效率
HDFS存儲(chǔ)層優(yōu)化：采用合理的存儲(chǔ)格式和合理的Schema設(shè)計(jì)，降低IO瓶頸

2.1 選擇合理的存儲(chǔ)格式和壓縮格式

列存儲(chǔ)活逆，高壓縮比，列剪枝，過濾無用字段IO

Orc
Parquet

壓縮格式選擇:snappy

2.2 MR Job優(yōu)化

并行執(zhí)行
Hive產(chǎn)生的MR Job默認(rèn)是順序執(zhí)行的，如果Job之間無依賴可以并行執(zhí)行

set hive.exec.parallel=true;

本地執(zhí)行
雖然Hive能夠利用MR處理大規(guī)模數(shù)據(jù)第煮，但某些場(chǎng)景下處理的數(shù)據(jù)量非常小可以本地執(zhí)行解幼，不必提交集群

set hive.exec.mode.local.auto=true;
hive.exec.mode.local.auto.inputbytes.max（默認(rèn)128MB）
hive.exec.mode.local.auto.input.files.max（默認(rèn)4）

合并輸入小文件
如果Job輸入有很多小文件，造成Map數(shù)太多包警，影響效率

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

合并輸出小文件

set hive.merge.mapfiles=true; // map only job結(jié)束時(shí)合并小文件
set hive.merge.mapredfiles=true; // 合并reduce輸出的小文件
set hive.merge.smallfiles.avgsize=256000000; //當(dāng)輸出文件平均大小小于該值撵摆，啟動(dòng)新job合并文件
set hive.merge.size.per.task=64000000; //合并之后的每個(gè)文件大小

控制Map/Reduce數(shù)
控制Map/Reduce數(shù)來控制Job執(zhí)行的并行度

Num_Map_tasks= $inputsize/ max($mapred.min.split.size, min($dfs.block.size, $mapred.max.split.size))
Num_Reduce_tasks= min($hive.exec.reducers.max, $inputsize/$hive.exec.reducers.bytes.per.reducer)

JVM重用
JVM重利用可以使job長時(shí)間保留slot，直到作業(yè)結(jié)束

set mapred.job.reuse.jvm.num.tasks=10 //每個(gè)jvm運(yùn)行10個(gè)task

推測(cè)執(zhí)行

set hive.mapred.reduce.tasks.speculative.execution=true
set mapreduce.map.speculative=true
set mapreduce.reduce.speculative=true

一定要開啟壓縮
中間結(jié)果壓縮揽趾，減少Job跟Job之間的IO開銷

set hive.exec.compress.intermediate=true
set mapred.map.output.compression.codec=<CodecClassName>

最終結(jié)果壓縮台汇，減少存儲(chǔ)空間

set hive.exec.compress.output=true
Set mapred.output.compression.codec=<CodecClassName>

2.3 Join優(yōu)化

Hive的Join類型：

Shuffle Join
Broadcast Join(MapJoin)
Sort-Merge-Bucket Join

image.png

2.3.1 MapJoin 優(yōu)化

方式一(自動(dòng)判斷）:

set.hive.auto.convert.join=true;
hive.mapjoin.smalltable.filesize  // 默認(rèn)值是25mb, 小表小于25mb自動(dòng)啟動(dòng)mapjoin

方式二(手動(dòng)顯式）：
select /+mapjoin(A)/ f.a,f.bfrom A t join B f on (f.a=t.a)

image.png

2.3.2 SMB Join 優(yōu)化

使用方式：

hive.optimize.bucketmapjoin= true

和mapjoin一起工作,所有要Join的表都必須對(duì)Join key做了分桶苛骨，并且大表的桶數(shù)是小表的整數(shù)倍

由于對(duì)表設(shè)計(jì)有太多的限制篱瞎，不太常用

2.4 數(shù)據(jù)傾斜

數(shù)據(jù)傾斜是指由于數(shù)據(jù)分布不均勻，個(gè)別值集中占據(jù)大部分?jǐn)?shù)據(jù)量痒芝，導(dǎo)致某一個(gè)或者幾個(gè)ReduceTask處理的數(shù)據(jù)量相對(duì)很大造成的Job運(yùn)行非常慢俐筋，甚至OOM掛掉

在SQL上，一般是由于group by 或者join shuffle key丌均勻造成的

數(shù)據(jù)傾斜是業(yè)務(wù)數(shù)據(jù)問題導(dǎo)致的严衬，如果從業(yè)務(wù)上下手避免是最好的

比如由于Null值引起的澄者，或者某一個(gè)特殊的key造成的數(shù)據(jù)量特別大
先過濾掉特殊key的數(shù)據(jù)再進(jìn)行處理

Hive自身的優(yōu)化方案:

由group by 引起的數(shù)據(jù)傾斜：

hive.map.aggr=true //做map端預(yù)聚合，相當(dāng)于Map端Combiner
hive.groupby.skewindata//將key的數(shù)據(jù)隨機(jī)分發(fā)到Reduce端做聚合请琳，然后再起一個(gè)Job對(duì)上一步的結(jié)果做聚合

由Join引起的數(shù)據(jù)傾斜(Skew Join)

set hive.optimize.skewjoin= true
set hive.skewjoin.key= 100000
// 超過閾值就判斷為skew key

image.png

2.5 Hive的優(yōu)化配置參數(shù)

hive-site.xml中更改默認(rèn)配置
在腳本中set變量
Hive的優(yōu)化配置非常多粱挡，具體情況具體分析

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市俄精，隨后出現(xiàn)的幾起案子询筏，更是在濱河造成了極大的恐慌，老刑警劉巖竖慧，帶你破解...
沈念sama閱讀 219,270評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件嫌套，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡圾旨，警方通過查閱死者的電腦和手機(jī)踱讨，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來砍的，“玉大人痹筛，你說我怎么就攤上這事±希” “怎么了味混？”我有些...
開封第一講書人閱讀 165,630評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長诫惭。經(jīng)常有香客問我翁锡，道長，這世上最難降的妖魔是什么夕土？我笑而不...
開封第一講書人閱讀 58,906評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任馆衔，我火速辦了婚禮瘟判，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘角溃。我一直安慰自己拷获，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,928評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布减细。她就那樣靜靜地躺著匆瓜，像睡著了一般。火紅的嫁衣襯著肌膚如雪未蝌。梳的紋絲不亂的頭發(fā)上驮吱，一...
開封第一講書人閱讀 51,718評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音萧吠，去河邊找鬼左冬。笑死，一個(gè)胖子當(dāng)著我的面吹牛纸型，可吹牛的內(nèi)容都是我干的拇砰。我是一名探鬼主播，決...
沈念sama閱讀 40,442評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼狰腌，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼除破！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起琼腔，我...
開封第一講書人閱讀 39,345評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤瑰枫，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后展姐，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體躁垛，經(jīng)...
沈念sama閱讀 45,802評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,984評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年圾笨，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了教馆。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,117評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡擂达，死狀恐怖土铺，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情板鬓，我是刑警寧澤悲敷，帶...
沈念sama閱讀 35,810評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站俭令，受9級(jí)特大地震影響后德，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抄腔，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,462評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一瓢湃、第九天我趴在偏房一處隱蔽的房頂上張望理张。院中可真熱鬧，春花似錦绵患、人聲如沸雾叭。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,011評(píng)論 0贊 22
一樁弒父案落蝙，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽织狐。三九已至，卻和暖如春筏勒，著一層夾襖步出監(jiān)牢的瞬間移迫，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,139評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工奏寨，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留起意，地道東北人鹰服。一個(gè)月前我還...
沈念sama閱讀 48,377評(píng)論 3贊 373
代替公主和親
正文我出身青樓病瞳，卻偏偏與公主長得像，于是被迫代替她去往敵國和親悲酷。傳聞我的和親對(duì)象是個(gè)殘疾皇子套菜，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,060評(píng)論 2贊 355

大數(shù)據(jù)開發(fā)之Hive優(yōu)化篇1-Hive 優(yōu)化概述

一.Hive的實(shí)現(xiàn)原理

二Hive優(yōu)化

2.1 選擇合理的存儲(chǔ)格式和壓縮格式

2.2 MR Job優(yōu)化

2.3 Join優(yōu)化

2.3.1 MapJoin 優(yōu)化

2.3.2 SMB Join 優(yōu)化

2.4 數(shù)據(jù)傾斜

2.5 Hive的優(yōu)化配置參數(shù)

推薦閱讀更多精彩內(nèi)容