Hadoop數(shù)據(jù)壓縮

一、概述

壓縮技術(shù)能夠有效減少底層存儲系統(tǒng)(HDFS)讀寫字節(jié)數(shù),提高了網(wǎng)絡(luò)帶寬和磁盤空間的效率竖伯。

在 Hadoop 下,尤其是數(shù)據(jù)規(guī)模很大和工作負(fù)載密集的情況下因宇,使用數(shù)據(jù)壓縮顯得非常重要七婴。在這種情況下,I/O 操作和網(wǎng)絡(luò)數(shù)據(jù)傳輸要花大量的時間察滑。還有打厘,Shuffle與 Merge 過程同樣也面臨著巨大的 I/O 壓力。

鑒于磁盤 I/O 和網(wǎng)絡(luò)帶寬是 Hadoop 的寶貴資源贺辰,數(shù)據(jù)壓縮對于節(jié)省資源户盯、最小化磁盤I/O 和網(wǎng)絡(luò)傳輸非常有幫助。不過魂爪,盡管壓縮與解壓操作的 CPU 開銷不高先舷,其性能的提升和資源的節(jié)省并非沒有代價。

如果磁盤 I/O 和網(wǎng)絡(luò)帶寬影響了 MapReduce 作業(yè)性能滓侍,在任意 MapReduce 階段啟用壓縮都可以改善端到端處理時間并減少 I/O 和網(wǎng)絡(luò)流量蒋川。

壓縮 Mapreduce 的一種優(yōu)化策略:通過壓縮編碼對 Mapper 或者 Reducer 的輸出進(jìn)行壓縮,以減少磁盤 IO撩笆,提高 MR 程序運(yùn)行速度(但相應(yīng)增加了 cpu 運(yùn)算負(fù)擔(dān))捺球。

注意:壓縮特性運(yùn)用得當(dāng)能提高性能缸浦,但運(yùn)用不當(dāng)也可能降低性能。

基本原則:

(1)運(yùn)算密集型的 job氮兵,少用壓縮

(2)IO 密集型的 job裂逐,多用壓縮

二、MR 支持的壓縮編碼

1泣栈、壓縮格式

壓縮格式hadoop 自帶卜高?算法文件擴(kuò)展名是否可切分換成壓縮格式后,原來的程序是否需要修改

DEFAULT是南片,直接使用DEFAULT.deflate否和文本處理一樣掺涛,不需要修改

Gzip是,直接使用DEFAULT.gz否和文本處理一樣疼进,不需要修改

bzip2是薪缆,直接使用bzip2.bz2是和文本處理一樣,不需要修改

LZO否伞广,需要安裝LZO.lzo是需要建索引拣帽,還需要指定輸入格式

Snappy否,需要安裝Snappy.snappy否和文本處理一樣嚼锄,不需要修改

2减拭、編碼/解碼器

為了支持多種壓縮/解壓縮算法,Hadoop 引入了編碼/解碼器灾票,如下表所示

壓縮格式對應(yīng)的編碼/解碼器

DEFLATEorg.apache.hadoop.io.compress.DefaultCodec

gziporg.apache.hadoop.io.compress.GzipCodec

bzip2org.apache.hadoop.io.compress.BZip2Codec

LZOcom.hadoop.compression.lzo.LzopCodec

Snappyorg.apache.hadoop.io.compress.SnappyCodec

3峡谊、壓縮性能的比較

壓縮算法原始文件大小壓縮文件大小壓縮速度解壓速度

gzip8.3GB1.8GB17.5MB/s58MB/s

bzip28.3GB1.1GB2.4MB/s9.5MB/s

LZO8.3GB2.9GB49.3MB/s74.6MB/s

Snappy250 MB/s500 MB/s

三、壓縮方式選擇

Bzip2:Map輸出結(jié)果

Lzo刊苍、Snappy:shuffle中間階段結(jié)果

Gzip:reduce輸出結(jié)果

1

2

3

1、Gzip 壓縮

優(yōu)點:

壓縮率比較高濒析,而且壓縮/解壓速度也比較快正什;

hadoop 本身支持,在應(yīng)用中處理gzip 格式的文件就和直接處理文本一樣号杏;大部分 linux 系統(tǒng)都自帶 gzip 命令婴氮,使用方便。

缺點:

不支持 split盾致。

應(yīng)用場景:

當(dāng)每個文件壓縮之后在 130M 以內(nèi)的(1 個塊大小內(nèi))主经,都可以考慮用 gzip壓縮格式。

例如說一天或者一個小時的日志壓縮成一個 gzip 文件庭惜,運(yùn)行 mapreduce 程序的時候通過多個 gzip 文件達(dá)到并發(fā)罩驻。hive 程序,streaming 程序护赊,和 java 寫的 mapreduce 程序完全和文本處理一樣惠遏,壓縮之后原來的程序不需要做任何修改砾跃。

2、Bzip2 壓縮

優(yōu)點:

支持 split节吮;

具有很高的壓縮率抽高,比 gzip 壓縮率都高;

hadoop 本身支持透绩,但不支持 native翘骂;

在 linux 系統(tǒng)下自帶 bzip2 命令,使用方便帚豪。

缺點:

壓縮/解壓速度慢雏胃;

不支持 native。

應(yīng)用場景:

適合對速度要求不高志鞍,但需要較高的壓縮率的時候瞭亮,可以作為 mapreduce 作業(yè)的輸出格式;

或者輸出之后的數(shù)據(jù)比較大固棚,處理之后的數(shù)據(jù)需要壓縮存檔減少磁盤空間并且以后數(shù)據(jù)用得比較少的情況统翩;

或者對單個很大的文本文件想壓縮減少存儲空間,同時又需要支持 split此洲,而且兼容之前的應(yīng)用程序(即應(yīng)用程序不需要修改)的情況厂汗。

3、Lzo 壓縮

優(yōu)點:

壓縮/解壓速度也比較快呜师,合理的壓縮率娶桦;

支持 split,是 hadoop 中最流行的壓縮格式汁汗;

可以在 linux 系統(tǒng)下安裝 lzop 命令衷畦,使用方便。

缺點:

壓縮率比 gzip 要低一些知牌;

hadoop 本身不支持祈争,需要安裝;

在應(yīng)用中對 lzo 格式的文件需要做一些特殊處理(為了支持 split 需要建索引角寸,還需要指定 inputformat 為 lzo 格式)菩混。

應(yīng)用場景:

一個很大的文本文件,壓縮之后還大于 200M 以上的可以考慮扁藕,而且單個文件越大沮峡,lzo 優(yōu)點越越明顯。

4亿柑、Snappy 壓縮

優(yōu)點:

高速壓縮速度和合理的壓縮率邢疙。

缺點:

不支持 split;

壓縮率比 gzip 要低;

hadoop 本身不支持秘症,需要安裝照卦;

應(yīng)用場景:

當(dāng) Mapreduce 作業(yè)的 Map 輸出的數(shù)據(jù)比較大的時候,作為 Map 到 Reduce的中間數(shù)據(jù)的壓縮格式乡摹;或者作為一個 Mapreduce 作業(yè)的輸出和另外一個 Mapreduce 作業(yè)的輸入役耕。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市聪廉,隨后出現(xiàn)的幾起案子瞬痘,更是在濱河造成了極大的恐慌,老刑警劉巖板熊,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件框全,死亡現(xiàn)場離奇詭異,居然都是意外死亡干签,警方通過查閱死者的電腦和手機(jī)津辩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來容劳,“玉大人喘沿,你說我怎么就攤上這事〗叻罚” “怎么了蚜印?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長留量。 經(jīng)常有香客問我窄赋,道長,這世上最難降的妖魔是什么楼熄? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任忆绰,我火速辦了婚禮,結(jié)果婚禮上孝赫,老公的妹妹穿的比我還像新娘较木。我一直安慰自己,他們只是感情好青柄,可當(dāng)我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著预侯,像睡著了一般致开。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上萎馅,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天双戳,我揣著相機(jī)與錄音,去河邊找鬼糜芳。 笑死飒货,一個胖子當(dāng)著我的面吹牛魄衅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播塘辅,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼晃虫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了扣墩?” 一聲冷哼從身側(cè)響起哲银,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎呻惕,沒想到半個月后荆责,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡亚脆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年做院,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片濒持。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡键耕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出弥喉,到底是詐尸還是另有隱情郁竟,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布由境,位于F島的核電站棚亩,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏虏杰。R本人自食惡果不足惜讥蟆,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望纺阔。 院中可真熱鬧瘸彤,春花似錦、人聲如沸笛钝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽玻靡。三九已至结榄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間囤捻,已是汗流浹背臼朗。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人视哑。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓绣否,卻偏偏與公主長得像,于是被迫代替她去往敵國和親挡毅。 傳聞我的和親對象是個殘疾皇子蒜撮,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容

  • 4.1 概述 壓縮技術(shù)能夠有效減少底層存儲系統(tǒng)(HDFS)讀寫字節(jié)數(shù)。壓縮提高了網(wǎng)絡(luò)帶寬和磁盤空間的效率慷嗜。在Had...
    碼農(nóng)GG閱讀 102評論 0 0
  • 簡潔而不簡單 Hadoop數(shù)據(jù)壓縮 數(shù)據(jù)壓縮優(yōu)點和缺點 ? 壓縮技術(shù)能夠有效減少底層存儲系統(tǒng)(HDFS)讀寫字...
    focusbigdata閱讀 185評論 0 0
  • 壓縮概述 壓縮技術(shù)能夠有效減少底層存儲系統(tǒng)(HDFS)讀寫字節(jié)數(shù)淀弹。壓縮提高了網(wǎng)絡(luò)帶寬和磁盤空間的效率。在運(yùn)行M...
    bullion閱讀 739評論 0 0
  • HADOOP與HDFS數(shù)據(jù)壓縮格式 1庆械、cloudera 數(shù)據(jù)壓縮的一般準(zhǔn)則 一般準(zhǔn)則 是否壓縮數(shù)據(jù)以及使用何種壓...
    VentLam閱讀 7,850評論 0 8
  • 久違的晴天薇溃,家長會。 家長大會開好到教室時缭乘,離放學(xué)已經(jīng)沒多少時間了沐序。班主任說已經(jīng)安排了三個家長分享經(jīng)驗。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,515評論 16 22