Hadoop壓縮

本文作者:林偉兵,叩丁狼高級(jí)講師耙册。原創(chuàng)文章给僵,轉(zhuǎn)載請(qǐng)注明出處毫捣。

1. 概述

? 隨著大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)體量越來(lái)越大帝际,處理這些數(shù)據(jù)會(huì)越來(lái)越受到網(wǎng)絡(luò)IO的限制蔓同,為了盡可能多的處理更多的數(shù)據(jù)我們必須使用壓縮。

? 壓縮技術(shù)能夠有效減少底層存儲(chǔ)系統(tǒng)(HDFS) 讀寫(xiě)字節(jié)數(shù)蹲诀。壓縮提高了網(wǎng)絡(luò)帶寬和磁盤(pán)空間的效率斑粱。在 Hadoop 下,尤其是數(shù)據(jù)規(guī)模很大和工作負(fù)載密集的情況下脯爪,使用數(shù)據(jù)壓縮顯得非常重要则北。在這種情況下, I/O 操作和網(wǎng)絡(luò)數(shù)據(jù)傳輸要花大量的時(shí)間痕慢。還有尚揣, Shuffle與 Merge 過(guò)程同樣也面臨著巨大的 I/O 壓力。

? 鑒于磁盤(pán) I/O 和網(wǎng)絡(luò)帶寬是 Hadoop 的寶貴資源掖举,數(shù)據(jù)壓縮對(duì)于節(jié)省資源快骗、最小化磁盤(pán)I/O 和網(wǎng)絡(luò)傳輸非常有幫助。不過(guò), 盡管壓縮與解壓操作的 CPU 開(kāi)銷(xiāo)不高方篮,其性能的提升和資源的節(jié)省并非沒(méi)有代價(jià)名秀。如果磁盤(pán) I/O 和網(wǎng)絡(luò)帶寬影響了 MapReduce 作業(yè)性能,在任意 MapReduce 階段啟用壓縮都可以改善端到端處理時(shí)間并減少 I/O 和網(wǎng)絡(luò)流量藕溅。

2. 四種壓縮

1.gzip壓縮

優(yōu)點(diǎn):壓縮率比較高匕得,而且壓縮/解壓速度也比較快;hadoop本身支持巾表,在應(yīng)用中處理gzip格式的文件就和直接處理文本一樣耗跛;有hadoop native庫(kù);大部分linux系統(tǒng)都自帶gzip命令攒发,使用方便调塌。

缺點(diǎn):不支持split。

應(yīng)用場(chǎng)景:當(dāng)每個(gè)文件壓縮之后在130M以?xún)?nèi)的(1個(gè)塊大小內(nèi))惠猿,都可以考慮用gzip壓縮格式羔砾。譬如說(shuō)一天或者一個(gè)小時(shí)的日志壓縮成一個(gè)gzip 文件,運(yùn)行mapreduce程序的時(shí)候通過(guò)多個(gè)gzip文件達(dá)到并發(fā)偶妖。hive程序姜凄,streaming程序,和java寫(xiě)的mapreduce程序完 全和文本處理一樣趾访,壓縮之后原來(lái)的程序不需要做任何修改态秧。

2.lzo壓縮

優(yōu)點(diǎn):壓縮/解壓速度也比較快,合理的壓縮率扼鞋;支持split申鱼,是hadoop中最流行的壓縮格式;支持hadoop native庫(kù)云头;可以在linux系統(tǒng)下安裝lzop命令捐友,使用方便。

缺點(diǎn):壓縮率比gzip要低一些溃槐;hadoop本身不支持匣砖,需要安裝;在應(yīng)用中對(duì)lzo格式的文件需要做一些特殊處理(為了支持split需要建索引昏滴,還需要指定inputformat為lzo格式)猴鲫。

應(yīng)用場(chǎng)景:一個(gè)很大的文本文件,壓縮之后還大于200M以上的可以考慮谣殊,而且單個(gè)文件越大拂共,lzo優(yōu)點(diǎn)越越明顯。

3.snappy壓縮

優(yōu)點(diǎn):高速壓縮速度和合理的壓縮率蟹倾;支持hadoop native庫(kù)匣缘。

缺點(diǎn):不支持split猖闪;壓縮率比gzip要低;hadoop本身不支持肌厨,需要安裝培慌;linux系統(tǒng)下沒(méi)有對(duì)應(yīng)的命令。

應(yīng)用場(chǎng)景:當(dāng)mapreduce作業(yè)的map輸出的數(shù)據(jù)比較大的時(shí)候柑爸,作為map到reduce的中間數(shù)據(jù)的壓縮格式吵护;或者作為一個(gè)mapreduce作業(yè)的輸出和另外一個(gè)mapreduce作業(yè)的輸入。

4.bzip2壓縮

優(yōu)點(diǎn):支持split表鳍;具有很高的壓縮率馅而,比gzip壓縮率都高;hadoop本身支持譬圣,但不支持native瓮恭;在linux系統(tǒng)下自帶bzip2命令,使用方便厘熟。

缺點(diǎn):壓縮/解壓速度慢屯蹦;不支持native。

應(yīng)用場(chǎng)景:適合對(duì)速度要求不高绳姨,但需要較高的壓縮率的時(shí)候登澜,可以作為mapreduce作業(yè)的輸出格式;或者輸出之后的數(shù)據(jù)比較大飘庄,處理之后的數(shù)據(jù) 需要壓縮存檔減少磁盤(pán)空間并且以后數(shù)據(jù)用得比較少的情況脑蠕;或者對(duì)單個(gè)很大的文本文件想壓縮減少存儲(chǔ)空間,同時(shí)又需要支持split跪削,而且兼容之前的應(yīng)用程 序(即應(yīng)用程序不需要修改)的情況谴仙。

叩丁狼教育.png

總結(jié):壓縮比:bzip2 > gzip > lzo > snappy ,壓縮速度:snappy > lzo> gzip > bzip2

3. 常用的編碼器

Zlib:org.apache.hadoop.io.compress.DefaultCodec
Gzip:org.apache.hadoop.io.compress.GzioCodec
Bzip2:org.apache.hadoop.io.compress.Bzip2Codec
Lzo:com.apache.compression.lzo.LzoCodec
Lz4:org.apache.hadoop.io.compress.Lz4Codec
Snappy:org.apache.hadoop.io.compress.SnappyCodec

4. 壓縮實(shí)戰(zhàn)

4.1 hadoop的壓縮

1.修改core-site.xml配置文件

<property>
    <name>io.compression.codecs</name>
    <value>
        org.apache.hadoop.io.compress.GzipCodec,
        org.apache.hadoop.io.compress.DefaultCodec,
        org.apache.hadoop.io.compress.BZip2Codec,
    </value>
</property>

2.修改mapred-site.xml配置文件

<property>
    <name>io.compression.codecs</name>
    <value>
        org.apache.hadoop.io.compress.GzipCodec,
        org.apache.hadoop.io.compress.DefaultCodec,
        org.apache.hadoop.io.compress.BZip2Codec,
    </value>
</property>

3.修改mapred-site.xml配置文件

<property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
</property>
<property>
    <name>mapreduce.output.fileoutputformat.compress.codec</name>
    <value>org.apache.hadoop.io.compress.BZip2Codec</value>
</property>

4.2 MapReduce測(cè)試

[hadoop@hadoop01 ~]$ cd app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/
[hadoop@hadoop01 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /tmp/input.txt /tmp/compression-out/
...
[hadoop@hadoop01 mapreduce]$

查看結(jié)果切揭,輸出結(jié)果的壓縮格式為.bz2狞甚,與配置文件一致

[hadoop@hadoop01 mapreduce]$ hdfs dfs -ls /tmp/compression-out/
Found 2 items
-rw-r--r--   1 hadoop supergroup          0 2018-08-13 20:01 /tmp/compression-out/_SUCCESS
-rw-r--r--   1 hadoop supergroup         65 2018-08-13 20:01 /tmp/compression-out/part-r-00000.bz2
[hadoop@hadoop01 mapreduce]$ hdfs dfs -text /tmp/compression-out/part-r-00000.bz2
18/08/13 20:02:53 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native
18/08/13 20:02:53 INFO compress.CodecPool: Got brand-new decompressor [.bz2]
data    1
is  2
sample  1
test    2
this    2
[hadoop@hadoop01 mapreduce]$ 

4.3 壓縮位置選擇

壓縮可以在 MapReduce 作用的任意階段啟用锁摔。

叩丁狼教育.png

4.4 hive的壓縮

? Hive的建表語(yǔ)句里面有一個(gè)STORED AS file_format結(jié)合使用的方法廓旬,指定hive的存儲(chǔ)格式。不僅能節(jié)省hive的存儲(chǔ)空間谐腰,還可以提高執(zhí)行效率孕豹。

不壓縮

在hive創(chuàng)建一張不壓縮的表,把數(shù)據(jù)導(dǎo)進(jìn)去

hive> create table test1(
    > c1 string,
    > c2 string,
    > c3 string,
    > c4 string,
    > c5 string)
    > row format delimited fields terminated by '||';
OK
Time taken: 0.716 seconds
hive> load data local inpath '/home/hadoop/data/20180813000203.txt' overwrite into table test1;
hive> select count(1) from test1;
OK
76241
Time taken: 20.67 seconds, Fetched: 1 row(s)
hive>

此時(shí)hdfs上查看一下文件的大小

[hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1
37.4 M  37.4 M  /user/hive/warehouse/test1

[hadoop@hadoop01 data]$

bzip2壓縮

在hive創(chuàng)建一張bzip2的表十气,把數(shù)據(jù)導(dǎo)進(jìn)去(查看hive怎么壓縮励背,打開(kāi)hive官網(wǎng),點(diǎn)擊compression)

查看hive當(dāng)前的壓縮格式砸西,默認(rèn)是不壓縮的

hive> SET hive.exec.compress.output;
hive.exec.compress.output=false
hive> 

查看hive當(dāng)前的codec叶眉,默認(rèn)是bzip2

hive> SET mapreduce.output.fileoutputformat.compress.codec;
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec
hive> 

設(shè)置一下壓縮格式為bzip2址儒,codec也為bzip2,并且創(chuàng)建一張表

hive> SET hive.exec.compress.output=true;
hive> SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
hive> create table test1_bzip2
    > row format delimited fields terminated by '||'
    > as select * from test1;

去hdfs上查看文件的大小衅疙,文件大小由最初的37.4M變成了450.0K(這里bzip2的壓縮比應(yīng)該是30%左右莲趣,因?yàn)槲业臄?shù)據(jù)本身有很多重復(fù),所以壓縮后體積縮小非常大)饱溢,hdfs上存儲(chǔ)的格式也變成了.bz2

[hadoop@hadoop01 data]$ hdfs dfs -du -s -h /user/hive/warehouse/test1_bzip2
450.0 K  450.0 K  /user/hive/warehouse/test1_bzip2
[hadoop@hadoop01 data]$ hdfs dfs -ls /user/hive/warehouse/test1_bzip2
Found 1 items
-rwxr-xr-x   1 hadoop supergroup     460749 2018-08-13 20:32 /user/hive/warehouse/test1_bzip2/000000_0.bz2

想獲取更多技術(shù)干貨喧伞,請(qǐng)前往叩丁狼官網(wǎng):http://www.wolfcode.cn/all_article.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市绩郎,隨后出現(xiàn)的幾起案子潘鲫,更是在濱河造成了極大的恐慌,老刑警劉巖肋杖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件溉仑,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡状植,警方通過(guò)查閱死者的電腦和手機(jī)彼念,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)浅萧,“玉大人逐沙,你說(shuō)我怎么就攤上這事⊥莩” “怎么了吩案?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)帝簇。 經(jīng)常有香客問(wèn)我徘郭,道長(zhǎng),這世上最難降的妖魔是什么丧肴? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任残揉,我火速辦了婚禮,結(jié)果婚禮上芋浮,老公的妹妹穿的比我還像新娘抱环。我一直安慰自己,他們只是感情好纸巷,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布镇草。 她就那樣靜靜地躺著,像睡著了一般瘤旨。 火紅的嫁衣襯著肌膚如雪梯啤。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天存哲,我揣著相機(jī)與錄音因宇,去河邊找鬼七婴。 笑死,一個(gè)胖子當(dāng)著我的面吹牛察滑,可吹牛的內(nèi)容都是我干的本姥。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼杭棵,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼婚惫!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起魂爪,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤先舷,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后滓侍,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蒋川,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年撩笆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了捺球。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡夕冲,死狀恐怖氮兵,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情歹鱼,我是刑警寧澤泣栈,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站弥姻,受9級(jí)特大地震影響南片,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜庭敦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一疼进、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧秧廉,春花似錦伞广、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春垢箕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背恤煞。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留刊苍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓濒析,卻偏偏與公主長(zhǎng)得像正什,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子号杏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 1 gzip壓縮 優(yōu)點(diǎn):壓縮率比較高婴氮,而且壓縮/解壓速度也比較快;hadoop本身支持盾致,在應(yīng)用中處理gzip格式的...
    scottzcw閱讀 5,616評(píng)論 0 0
  • HADOOP與HDFS數(shù)據(jù)壓縮格式 1主经、cloudera 數(shù)據(jù)壓縮的一般準(zhǔn)則 一般準(zhǔn)則 是否壓縮數(shù)據(jù)以及使用何種壓...
    VentLam閱讀 7,848評(píng)論 0 8
  • Hadoop 作為一個(gè)較通用的海量數(shù)據(jù)處理平臺(tái),每次運(yùn)算都會(huì)需要處理大量數(shù)據(jù)庭惜,我們會(huì)在 Hadoop 系統(tǒng)中對(duì)數(shù)據(jù)...
    yannhuang閱讀 680評(píng)論 0 0
  • github鏈接 針對(duì)Hive的優(yōu)化主要有以下幾個(gè)方面: map reduce file format shuff...
    zoyanhui閱讀 6,169評(píng)論 2 33
  • 現(xiàn)在生活條件越來(lái)越好,應(yīng)該說(shuō)吃的好營(yíng)養(yǎng)也會(huì)跟的上呀骏啰,可身邊還是有不少的女性貧血节吮,本來(lái)由于女性的生理特點(diǎn)的原因,本來(lái)...
    女性健康小衛(wèi)士閱讀 380評(píng)論 0 0