Hive的數(shù)據(jù)壓縮
壓縮格式: bzip2, gzip, lzo, snappy等
壓縮比:bzip2>gzip>lzo bzip2最節(jié)省存儲(chǔ)空間
解壓速度:lzo>gzip>bzip2 lzo解壓速度是最快的
用的最多的是snappy
檢查hadoop支持那些壓縮格式
檢查命令:[root@hadoop-senior hadoop-2.5.0]# bin/hadoop checknative
下載snappy并安裝
編譯hadoop 2.x源碼
并把native下的文件復(fù)制到現(xiàn)在/opt/modules/hadoop-2.5.0/lib/native
再次檢查hadoop支持的壓縮類型(都為true)
使用snappy前后比較
沒(méi)有壓縮前
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/beifeng/mapreduce/wordcount/input /user/beifeng/mapreduce/wordcount/output0310
壓縮后
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount -Dmapreduce.map.output.compress=true -Dmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec /user/beifeng/mapreduce/wordcount/input /user/beifeng/mapreduce/wordcount/output0310
說(shuō)明:上面加黑的是開(kāi)啟壓縮痊银,并配置了壓縮類怔檩。