Hive如何處理大量小文件

小文件是如何產(chǎn)生的

  1. 動態(tài)分區(qū)插入數(shù)據(jù)的時候,會產(chǎn)生大量的小文件从媚,從而導(dǎo)致map數(shù)量的暴增
  2. 數(shù)據(jù)源本身就包含有大量的小文件
  3. reduce個數(shù)越多,生成的小文件也越多

小文件的危害

  1. 從HIVE角度來看的話呢,小文件越多沪斟,map的個數(shù)也會越多,每一個map都會開啟一個JVM虛擬機暇矫,每個虛擬機都要創(chuàng)建任務(wù)主之,執(zhí)行任務(wù),這些流程都會造成大量的資源浪費李根,嚴重影響性能
  2. 在HDFS中槽奕,每個小文件約占150byte,如果小文件過多則會占用大量的內(nèi)存房轿。這樣namenode內(nèi)存容量嚴重制約了集群的發(fā)展

小文件的解決方案

從小文件的產(chǎn)生途徑解決:

  1. 使用sequencefile作為表存儲形式粤攒,不要使用textfile所森,在一定程度上可以減少小文件
  2. 減少reduce的個數(shù)(減少生成分區(qū)數(shù)量)
  3. 少用動態(tài)分區(qū),使用distribute by分區(qū)

對已經(jīng)存在的小文件做出的解決方案:

  1. 使用Hadoop achieve把小文件進行歸檔

  2. 重建表夯接,建表時減少reduce的數(shù)量

  3. 通過參數(shù)調(diào)節(jié)焕济,設(shè)置map/reduce的數(shù)量

    • 設(shè)置map輸入合并小文件的相關(guān)參數(shù):

      //每個Map最大輸入大小(這個值決定了合并后文件的數(shù)量)
      set mapred.max.split.size=256000000;  
      //一個節(jié)點上split的至少的大小(這個值決定了多個DataNode上的文件是否需要合并)
      set mapred.min.split.size.per.node=100000000;
      //一個交換機下split的至少的大小(這個值決定了多個交換機上的文件是否需要合并)  
      set mapred.min.split.size.per.rack=100000000;
      //執(zhí)行Map前進行小文件合并
      set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 
      
      
    • 設(shè)置map輸出和reduce輸出進行合并的相關(guān)參數(shù):

      //設(shè)置map端輸出進行合并,默認為true
      set hive.merge.mapfiles = true
      //設(shè)置reduce端輸出進行合并盔几,默認為false
      set hive.merge.mapredfiles = true
      //設(shè)置合并文件的大小
      set hive.merge.size.per.task = 256*1000*1000
      //當輸出文件的平均大小小于該值時晴弃,啟動一個獨立的MapReduce任務(wù)進行文件merge。
      set hive.merge.smallfiles.avgsize=16000000
      

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末逊拍,一起剝皮案震驚了整個濱河市上鞠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌芯丧,老刑警劉巖芍阎,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異缨恒,居然都是意外死亡谴咸,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門肿轨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來寿冕,“玉大人,你說我怎么就攤上這事椒袍⊥粘” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵驹暑,是天一觀的道長玫恳。 經(jīng)常有香客問我,道長优俘,這世上最難降的妖魔是什么京办? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮帆焕,結(jié)果婚禮上惭婿,老公的妹妹穿的比我還像新娘。我一直安慰自己叶雹,他們只是感情好财饥,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著折晦,像睡著了一般钥星。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上满着,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天谦炒,我揣著相機與錄音贯莺,去河邊找鬼。 笑死宁改,一個胖子當著我的面吹牛缕探,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播还蹲,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼撕蔼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了秽誊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤琳骡,失蹤者是張志新(化名)和其女友劉穎锅论,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體楣号,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡最易,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了炫狱。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片藻懒。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖视译,靈堂內(nèi)的尸體忽然破棺而出嬉荆,到底是詐尸還是另有隱情,我是刑警寧澤酷含,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布鄙早,位于F島的核電站,受9級特大地震影響椅亚,放射性物質(zhì)發(fā)生泄漏限番。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一呀舔、第九天 我趴在偏房一處隱蔽的房頂上張望弥虐。 院中可真熱鬧,春花似錦媚赖、人聲如沸霜瘪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽粥庄。三九已至,卻和暖如春豺妓,著一層夾襖步出監(jiān)牢的瞬間惜互,已是汗流浹背布讹。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留训堆,地道東北人描验。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像坑鱼,于是被迫代替她去往敵國和親膘流。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355