壓縮技術(shù)能夠有效減少底層存儲系統(tǒng)(HDFS)讀寫字節(jié)數(shù),提高了網(wǎng)絡(luò)帶寬和磁盤空間的效率竖伯。
在 Hadoop 下,尤其是數(shù)據(jù)規(guī)模很大和工作負(fù)載密集的情況下因宇,使用數(shù)據(jù)壓縮顯得非常重要七婴。在這種情況下,I/O 操作和網(wǎng)絡(luò)數(shù)據(jù)傳輸要花大量的時間察滑。還有打厘,Shuffle與 Merge 過程同樣也面臨著巨大的 I/O 壓力。
鑒于磁盤 I/O 和網(wǎng)絡(luò)帶寬是 Hadoop 的寶貴資源贺辰,數(shù)據(jù)壓縮對于節(jié)省資源户盯、最小化磁盤I/O 和網(wǎng)絡(luò)傳輸非常有幫助。不過魂爪,盡管壓縮與解壓操作的 CPU 開銷不高先舷,其性能的提升和資源的節(jié)省并非沒有代價。
如果磁盤 I/O 和網(wǎng)絡(luò)帶寬影響了 MapReduce 作業(yè)性能滓侍,在任意 MapReduce 階段啟用壓縮都可以改善端到端處理時間并減少 I/O 和網(wǎng)絡(luò)流量蒋川。
壓縮 Mapreduce 的一種優(yōu)化策略:通過壓縮編碼對 Mapper 或者 Reducer 的輸出進(jìn)行壓縮,以減少磁盤 IO撩笆,提高 MR 程序運(yùn)行速度(但相應(yīng)增加了 cpu 運(yùn)算負(fù)擔(dān))捺球。
注意:壓縮特性運(yùn)用得當(dāng)能提高性能缸浦,但運(yùn)用不當(dāng)也可能降低性能。
基本原則:
(1)運(yùn)算密集型的 job氮兵,少用壓縮
(2)IO 密集型的 job裂逐,多用壓縮
壓縮格式hadoop 自帶卜高?算法文件擴(kuò)展名是否可切分換成壓縮格式后,原來的程序是否需要修改
DEFAULT是南片,直接使用DEFAULT.deflate否和文本處理一樣掺涛,不需要修改
Gzip是,直接使用DEFAULT.gz否和文本處理一樣疼进,不需要修改
bzip2是薪缆,直接使用bzip2.bz2是和文本處理一樣,不需要修改
LZO否伞广,需要安裝LZO.lzo是需要建索引拣帽,還需要指定輸入格式
Snappy否,需要安裝Snappy.snappy否和文本處理一樣嚼锄,不需要修改
為了支持多種壓縮/解壓縮算法,Hadoop 引入了編碼/解碼器灾票,如下表所示
壓縮格式對應(yīng)的編碼/解碼器
DEFLATEorg.apache.hadoop.io.compress.DefaultCodec
gziporg.apache.hadoop.io.compress.GzipCodec
bzip2org.apache.hadoop.io.compress.BZip2Codec
LZOcom.hadoop.compression.lzo.LzopCodec
Snappyorg.apache.hadoop.io.compress.SnappyCodec
壓縮算法原始文件大小壓縮文件大小壓縮速度解壓速度
gzip8.3GB1.8GB17.5MB/s58MB/s
bzip28.3GB1.1GB2.4MB/s9.5MB/s
LZO8.3GB2.9GB49.3MB/s74.6MB/s
Snappy250 MB/s500 MB/s
Bzip2:Map輸出結(jié)果
Lzo刊苍、Snappy:shuffle中間階段結(jié)果
Gzip:reduce輸出結(jié)果
1
2
3
優(yōu)點:
壓縮率比較高濒析,而且壓縮/解壓速度也比較快正什;
hadoop 本身支持,在應(yīng)用中處理gzip 格式的文件就和直接處理文本一樣号杏;大部分 linux 系統(tǒng)都自帶 gzip 命令婴氮,使用方便。
缺點:
不支持 split盾致。
應(yīng)用場景:
當(dāng)每個文件壓縮之后在 130M 以內(nèi)的(1 個塊大小內(nèi))主经,都可以考慮用 gzip壓縮格式。
例如說一天或者一個小時的日志壓縮成一個 gzip 文件庭惜,運(yùn)行 mapreduce 程序的時候通過多個 gzip 文件達(dá)到并發(fā)罩驻。hive 程序,streaming 程序护赊,和 java 寫的 mapreduce 程序完全和文本處理一樣惠遏,壓縮之后原來的程序不需要做任何修改砾跃。
優(yōu)點:
支持 split节吮;
具有很高的壓縮率抽高,比 gzip 壓縮率都高;
hadoop 本身支持透绩,但不支持 native翘骂;
在 linux 系統(tǒng)下自帶 bzip2 命令,使用方便帚豪。
缺點:
壓縮/解壓速度慢雏胃;
不支持 native。
應(yīng)用場景:
適合對速度要求不高志鞍,但需要較高的壓縮率的時候瞭亮,可以作為 mapreduce 作業(yè)的輸出格式;
或者輸出之后的數(shù)據(jù)比較大固棚,處理之后的數(shù)據(jù)需要壓縮存檔減少磁盤空間并且以后數(shù)據(jù)用得比較少的情況统翩;
或者對單個很大的文本文件想壓縮減少存儲空間,同時又需要支持 split此洲,而且兼容之前的應(yīng)用程序(即應(yīng)用程序不需要修改)的情況厂汗。
優(yōu)點:
壓縮/解壓速度也比較快呜师,合理的壓縮率娶桦;
支持 split,是 hadoop 中最流行的壓縮格式汁汗;
可以在 linux 系統(tǒng)下安裝 lzop 命令衷畦,使用方便。
缺點:
壓縮率比 gzip 要低一些知牌;
hadoop 本身不支持祈争,需要安裝;
在應(yīng)用中對 lzo 格式的文件需要做一些特殊處理(為了支持 split 需要建索引角寸,還需要指定 inputformat 為 lzo 格式)菩混。
應(yīng)用場景:
一個很大的文本文件,壓縮之后還大于 200M 以上的可以考慮扁藕,而且單個文件越大沮峡,lzo 優(yōu)點越越明顯。
優(yōu)點:
高速壓縮速度和合理的壓縮率邢疙。
缺點:
不支持 split;
壓縮率比 gzip 要低;
hadoop 本身不支持秘症,需要安裝照卦;
應(yīng)用場景:
當(dāng) Mapreduce 作業(yè)的 Map 輸出的數(shù)據(jù)比較大的時候,作為 Map 到 Reduce的中間數(shù)據(jù)的壓縮格式乡摹;或者作為一個 Mapreduce 作業(yè)的輸出和另外一個 Mapreduce 作業(yè)的輸入役耕。