hive 插入parquet二級(jí)分區(qū)表數(shù)據(jù)傾斜優(yōu)化

單個(gè)表每天數(shù)據(jù)有50億左右。需用二級(jí)分區(qū)優(yōu)化該表利耍。

1、最初查詢

insert into table xx_parquet_v2 PARTITION(dt, uiappid) select %s from xxx where dt= %s;

錯(cuò)誤:
Java Heap Space盔粹“妫或者GC overhead limit exceeded。
原因:
Parquet和ORC是列式批處理文件格式舷嗡。這些格式要求在寫入文件之前將批次的行(batches of rows)緩存在內(nèi)存中轴猎。在執(zhí)行INSERT語(yǔ)句時(shí),動(dòng)態(tài)分區(qū)目前的實(shí)現(xiàn)是:至少為每個(gè)動(dòng)態(tài)分區(qū)目錄打開一個(gè)文件寫入器(file writer)进萄。由于這些緩沖區(qū)是按分區(qū)維護(hù)的捻脖,因此在運(yùn)行時(shí)所需的內(nèi)存量隨著分區(qū)數(shù)量的增加而增加。所以經(jīng)常會(huì)導(dǎo)致mappers或reducers的OOM中鼠,具體取決于打開的文件寫入器(file writer)的數(shù)量可婶。

通過(guò)INSERT語(yǔ)句插入數(shù)據(jù)到動(dòng)態(tài)分區(qū)表中,也可能會(huì)超過(guò)HDFS同時(shí)打開文件數(shù)的限制援雇。

如果沒(méi)有join或聚合扰肌,INSERT ... SELECT語(yǔ)句會(huì)被轉(zhuǎn)換為只有map任務(wù)的作業(yè)。mapper任務(wù)會(huì)讀取輸入記錄然后將它們發(fā)送到目標(biāo)分區(qū)目錄熊杨。在這種情況下曙旭,每個(gè)mapper必須為遇到的每個(gè)動(dòng)態(tài)分區(qū)創(chuàng)建一個(gè)新的文件寫入器(file writer)盗舰。mapper在運(yùn)行時(shí)所需的內(nèi)存量隨著它遇到的分區(qū)數(shù)量的增加而增加。

詳細(xì)原因:https://blog.csdn.net/frank_jyp/article/details/81780821

2桂躏、第一次修改

set hive.optimize.sort.dynamic.partition = true钻趋,從新跑上述語(yǔ)句。

通過(guò)這個(gè)優(yōu)化剂习,這個(gè)只有map任務(wù)的mapreduce會(huì)引入reduce過(guò)程蛮位,這樣動(dòng)態(tài)分區(qū)的那個(gè)字段比如日期在傳到reducer時(shí)會(huì)被排序。由于分區(qū)字段是排序的鳞绕,因此每個(gè)reducer只需要保持一個(gè)文件寫入器(file writer)隨時(shí)處于打開狀態(tài)失仁,在收到來(lái)自特定分區(qū)的所有行后,關(guān)閉記錄寫入器(record writer)们何,從而減小內(nèi)存壓力萄焦。這種優(yōu)化方式在寫parquet文件時(shí)使用的內(nèi)存要相對(duì)少一些,但代價(jià)是要對(duì)分區(qū)字段進(jìn)行排序冤竹。

但reduce階段一直卡在99%拂封,判斷是uiappid數(shù)據(jù)傾斜導(dǎo)致。驗(yàn)證數(shù)據(jù)傾斜:

# 找出uiappid條數(shù)大于1億條的uiappid
select uiappid, count(*) as t from xxx where dt=%s group by uiappid having t>100000000;  

然后你會(huì)發(fā)現(xiàn)跑得特別慢鹦蠕。開啟map group優(yōu)化(Map端部分聚合冒签,相當(dāng)于Combiner):

hive.map.aggr=true

設(shè)置上述參數(shù)即可。若是其他情況的group優(yōu)化钟病,可參考hive.groupby.skewindata參數(shù)萧恕。

hive.groupby.skewindata=true

有數(shù)據(jù)傾斜的時(shí)候進(jìn)行負(fù)載均衡,當(dāng)hive.groupby.skewindata設(shè)定為 true肠阱,生成的查詢計(jì)劃會(huì)有兩個(gè) MR Job廊鸥。第一個(gè) MR Job 中,Map 的輸出結(jié)果集合會(huì)隨機(jī)分布到 Reduce 中辖所,每個(gè) Reduce 做部分聚合操作惰说,并輸出結(jié)果,這樣處理的結(jié)果是相同的 Group By Key 有可能被分發(fā)到不同的 Reduce 中缘回,從而達(dá)到負(fù)載均衡的目的吆视;第二個(gè) MR Job 再根據(jù)預(yù)處理的數(shù)據(jù)結(jié)果按照 Group By Key 分布到 Reduce 中(這個(gè)過(guò)程可以保證相同的 Group By Key 被分布到同一個(gè) Reduce 中),最后完成最終的聚合操作酥宴。

3啦吧、第二次修改

分兩步:
1、第一步:找出條數(shù)大于1億的uiappid后拙寡,select時(shí)過(guò)濾調(diào)這些大的uiappid授滓。通過(guò)這個(gè)優(yōu)化過(guò),reduce階段單個(gè)key的數(shù)據(jù)都不超過(guò)1億條,可以快速得到結(jié)果般堆。

set hive.optimize.sort.dynamic.partition = true;
insert into table xx_parquet_v2 PARTITION(dt='%s', uiappid) select %s from xxx where dt= %s and uiappid not in ('a','b');

2在孝、第二步:再次將uiappid條數(shù)大于1億的數(shù)據(jù)插入表中。因?yàn)榇笥?億條的uiappid比較少淮摔,可以為每個(gè)mapper遇到的分區(qū)創(chuàng)建一個(gè)文件寫入器(file writer)私沮。

insert into table xx_parquet_v2 PARTITION(dt='%s', uiappid) select %s from xxx where dt= %s and uiappid in ('a','b');

4、其他的配置

set mapreduce.map.memory.mb=6144;
set mapreduce.map.java.opts=-Xmx4096m;  # map 內(nèi)存配置
set mapreduce.input.fileinputformat.split.maxsize=1024000000;
set mapreduce.input.fileinputformat.split.minsize=1024000000;
set mapred.max.split.size=1024000000;
set mapred.min.split.size.per.node=1024000000;
set mapred.min.split.size.per.rack=1024000000;  # map文件大小配置
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set parquet.memory.min.chunk.size=100000; # parquet文件格式配置
set hive.exec.dynamic.partition.mode=nonstrict; #配置動(dòng)態(tài)分區(qū)
set mapreduce.reduce.memory.mb=8192;
set mapreduce.reduce.java.opts=-Xmx6144m; # 配置reduce內(nèi)存限制
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末和橙,一起剝皮案震驚了整個(gè)濱河市仔燕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌魔招,老刑警劉巖晰搀,帶你破解...
    沈念sama閱讀 221,198評(píng)論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異办斑,居然都是意外死亡外恕,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門俄周,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人髓迎,你說(shuō)我怎么就攤上這事峦朗。” “怎么了排龄?”我有些...
    開封第一講書人閱讀 167,643評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵波势,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我橄维,道長(zhǎng)尺铣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,495評(píng)論 1 296
  • 正文 為了忘掉前任争舞,我火速辦了婚禮凛忿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘竞川。我一直安慰自己店溢,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評(píng)論 6 397
  • 文/花漫 我一把揭開白布委乌。 她就那樣靜靜地躺著床牧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪遭贸。 梳的紋絲不亂的頭發(fā)上戈咳,一...
    開封第一講書人閱讀 52,156評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼著蛙。 笑死删铃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的册踩。 我是一名探鬼主播泳姐,決...
    沈念sama閱讀 40,743評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼暂吉!你這毒婦竟也來(lái)了胖秒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤慕的,失蹤者是張志新(化名)和其女友劉穎阎肝,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肮街,經(jīng)...
    沈念sama閱讀 46,200評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡风题,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嫉父。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片沛硅。...
    茶點(diǎn)故事閱讀 40,424評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖绕辖,靈堂內(nèi)的尸體忽然破棺而出摇肌,到底是詐尸還是另有隱情,我是刑警寧澤仪际,帶...
    沈念sama閱讀 36,107評(píng)論 5 349
  • 正文 年R本政府宣布围小,位于F島的核電站,受9級(jí)特大地震影響树碱,放射性物質(zhì)發(fā)生泄漏肯适。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評(píng)論 3 333
  • 文/蒙蒙 一成榜、第九天 我趴在偏房一處隱蔽的房頂上張望框舔。 院中可真熱鬧,春花似錦赎婚、人聲如沸雨饺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)额港。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背领曼。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工十减, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留糯耍,地道東北人歹嘹。 一個(gè)月前我還...
    沈念sama閱讀 48,798評(píng)論 3 376
  • 正文 我出身青樓栗柒,卻偏偏與公主長(zhǎng)得像陵像,于是被迫代替她去往敵國(guó)和親猖任。 傳聞我的和親對(duì)象是個(gè)殘疾皇子你稚,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容