Hadoop壓縮

Hadoop 作為一個較通用的海量數(shù)據(jù)處理平臺,每次運算都會需要處理大量數(shù)據(jù)棚亩,我們會在 Hadoop 系統(tǒng)中對數(shù)據(jù)進行壓縮處理來優(yōu)化磁盤使用率蓖议,提高數(shù)據(jù)在磁盤和網(wǎng)絡(luò)中的傳輸速度,從而提高系統(tǒng)處理數(shù)據(jù)的效率讥蟆。在使用壓縮方式方面勒虾,主要考慮壓縮速度和壓縮文件的可分割性。

綜合所述瘸彤,使用壓縮的優(yōu)點如下:

  1. 節(jié)省數(shù)據(jù)占用的磁盤空間修然;
  2. 加快數(shù)據(jù)在磁盤和網(wǎng)絡(luò)中的傳輸速度,從而提高系統(tǒng)的處理速度质况。

1愕宋、壓縮格式

Hadoop 對于壓縮格式的是自動識別。如果我們壓縮的文件有相應(yīng)壓縮格式的擴展名(比如 lzo结榄,gz中贝,bzip2 等)。Hadoop 會根據(jù)壓縮格式的擴展名自動選擇相對應(yīng)的解碼器來解壓數(shù)據(jù)臼朗,此過程完全是 Hadoop 自動處理邻寿,我們只需要確保輸入的壓縮文件有擴展名。

Hadoop 對每個壓縮格式的支持, 詳細見下表:

壓縮格式

2视哑、性能對比

Hadoop 下各種壓縮算法的壓縮比绣否,壓縮時間,解壓時間見下表:

壓縮性能對比

因此我們可以得出:

  1. Bzip2 壓縮效果明顯是最好的挡毅,但是 bzip2 壓縮速度慢蒜撮,可分割。
  2. Gzip 壓縮效果不如 Bzip2跪呈,但是壓縮解壓速度快淀弹,不支持分割。
  3. LZO 壓縮效果不如 Bzip2 和 Gzip庆械,但是壓縮解壓速度最快!并且支持分割菌赖!

這里提一下缭乘,文件的可分割性在 Hadoop 中是很非常重要的,它會影響到在執(zhí)行作業(yè)時 Map 啟動的個數(shù)琉用,從而會影響到作業(yè)的執(zhí)行效率堕绩!

所有的壓縮算法都顯示出一種時間空間的權(quán)衡,更快的壓縮和解壓速度通常會耗費更多的空間邑时。在選擇使用哪種壓縮格式時奴紧,我們應(yīng)該根據(jù)自身的業(yè)務(wù)需求來選擇。

3晶丘、壓縮的使用

MapReduce 可以在三個階段中使用壓縮黍氮。

1唐含、輸入階段
如果輸入的文件是壓縮過的,那么在被 MapReduce 讀取時沫浆,它們會被自動解壓捷枯。

2、map輸出中間結(jié)果
(1) 在 core-site.xml 文件中配置专执,代碼如下

<property>
     <name>mapred.compress.map.output</name>
    <value>true</value>
</property>

(2)使用Java代碼指定

conf.setCompressMapOut(true);
conf.setMapOutputCompressorClass(GzipCode.class);

3淮捆、reduce輸出最終結(jié)果
(1) 在 core-site.xml 文件中配置,代碼如下

<property>
     <name>mapred.output.compress</name>
    <value>true</value>
</property>

(2)使用Java代碼指定

conf.setBoolean(“mapred.output.compress”,true);
conf.setClass(“mapred.output.compression.codec”,GzipCode.class,CompressionCodec.class);
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末本股,一起剝皮案震驚了整個濱河市攀痊,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拄显,老刑警劉巖苟径,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異凿叠,居然都是意外死亡涩笤,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進店門盒件,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蹬碧,“玉大人,你說我怎么就攤上這事炒刁《鞴粒” “怎么了?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵翔始,是天一觀的道長罗心。 經(jīng)常有香客問我,道長城瞎,這世上最難降的妖魔是什么渤闷? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮脖镀,結(jié)果婚禮上飒箭,老公的妹妹穿的比我還像新娘。我一直安慰自己蜒灰,他們只是感情好弦蹂,可當我...
    茶點故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著强窖,像睡著了一般凸椿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上翅溺,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天脑漫,我揣著相機與錄音髓抑,去河邊找鬼。 笑死窿撬,一個胖子當著我的面吹牛启昧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播劈伴,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼密末,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了跛璧?” 一聲冷哼從身側(cè)響起严里,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎追城,沒想到半個月后刹碾,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡座柱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年迷帜,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片色洞。...
    茶點故事閱讀 38,643評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡戏锹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出火诸,到底是詐尸還是另有隱情锦针,我是刑警寧澤,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布置蜀,位于F島的核電站奈搜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏盯荤。R本人自食惡果不足惜馋吗,卻給世界環(huán)境...
    茶點故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一宏粤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧堰怨,春花似錦备图、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽零院。三九已至告抄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間打洼,已是汗流浹背募疮。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工诡必, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留爸舒,地道東北人稿蹲。 一個月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓涂炎,卻偏偏與公主長得像唱捣,于是被迫代替她去往敵國和親网梢。 傳聞我的和親對象是個殘疾皇子战虏,可洞房花燭夜當晚...
    茶點故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內(nèi)容