0003-如何在CDH中使用LZO壓縮

Fayson的github: https://github.com/fayson/cdhproject
推薦關(guān)注微信公眾號:“Hadoop實操”酬蹋,ID:gh_c4c535955d0f锌杀,或者掃描文末二維碼萌京。

1.問題描述

CDH中默認不支持Lzo壓縮編碼虽缕,需要下載額外的Parcel包,才能讓Hadoop相關(guān)組件如HDFS暂刘,Hive谈况,Spark支持Lzo編碼。

具體請參考:
Configuring Services to Use the GPL Extras Parcel
Installing the GPL Extras Parcel

首先我在沒做額外配置的情況下早抠,生成Lzo文件并讀取霎烙。我們在Hive中創(chuàng)建兩張表,test_table和test_table2,test_table是文本文件的表悬垃,test_table2是Lzo壓縮編碼的表游昼。如下:

create external table test_table
(
s1 string,
s2 string
)
row format delimited fields terminated by '#'
location '/lilei/test_table';

insert into test_table values('1','a'),('2','b');

create external table test_table2
(
s1 string,
s2 string
)
row format delimited fields terminated by '#'
location '/lilei/test_table2';

通過beeline訪問Hive并執(zhí)行上面命令:




查詢test_table中的數(shù)據(jù):


將test_table中的數(shù)據(jù)插入到test_table2,并設(shè)置輸出文件為lzo壓縮:

set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec;
set hive.exec.compress.output=true;
set mapreduce.output.fileoutputformat.compress=true;
set mapreduce.output.fileoutputformat.compress.type=BLOCK;

insert overwrite table test_table2 select * from test_table;

在Hive中執(zhí)行報錯如下:

Error:Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2) 

通過Yarn的8088可以發(fā)現(xiàn)是因為找不到Lzo壓縮編碼:

Compression codec com.hadoop.compression.lzo.LzoCodec was not found. 

2.解決辦法

通過Cloudera Manager的Parcel頁面配置Lzo的Parcel包地址:


注意:如果集群無法訪問公網(wǎng)尝蠕,需要提前下載好Parcel包并發(fā)布到httpd

下載->分配->激活







配置HDFS的壓縮編碼加入Lzo:

com.hadoop.compression.lzo.LzoCodec
com.hadoop.compression.lzo.LzopCodec 

保存更改烘豌,部署客戶端配置,重啟整個集群看彼。



等待重啟成功:



再次插入數(shù)據(jù)到test_table2廊佩,設(shè)置為Lzo編碼格式:

set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec;
set hive.exec.compress.output=true;
set mapreduce.output.fileoutputformat.compress=true;
set mapreduce.output.fileoutputformat.compress.type=BLOCK;

insert overwrite table test_table2 select * from test_table;

插入成功:


2.1.Hive驗證

首先確認test_table2中的文件為Lzo格式:



在Hive的beeline中進行測試:




Hive基于Lzo壓縮文件運行正常。

2.2.Spark SQL驗證

var textFile=sc.textFile("hdfs://ip-172-31-8-141:8020/lilei/test_table2/000000_0.lzo_deflate")

textFile.count()

sqlContext.sql("select * from test_table2")

SparkSQL基于Lzo壓縮文件運行正常靖榕。


為天地立心标锄,為生民立命,為往圣繼絕學(xué)茁计,為萬世開太平鸯绿。

推薦關(guān)注Hadoop實操,第一時間簸淀,分享更多Hadoop干貨瓶蝴,歡迎轉(zhuǎn)發(fā)和分享。


原創(chuàng)文章租幕,歡迎轉(zhuǎn)載舷手,轉(zhuǎn)載請注明:轉(zhuǎn)載自微信公眾號Hadoop實操

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市劲绪,隨后出現(xiàn)的幾起案子男窟,更是在濱河造成了極大的恐慌,老刑警劉巖贾富,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件歉眷,死亡現(xiàn)場離奇詭異,居然都是意外死亡颤枪,警方通過查閱死者的電腦和手機汗捡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來畏纲,“玉大人扇住,你說我怎么就攤上這事〉琳停” “怎么了艘蹋?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長票灰。 經(jīng)常有香客問我女阀,道長宅荤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任浸策,我火速辦了婚禮冯键,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘的榛。我一直安慰自己琼了,他們只是感情好逻锐,可當(dāng)我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布夫晌。 她就那樣靜靜地躺著,像睡著了一般昧诱。 火紅的嫁衣襯著肌膚如雪晓淀。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天盏档,我揣著相機與錄音凶掰,去河邊找鬼。 笑死蜈亩,一個胖子當(dāng)著我的面吹牛懦窘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播稚配,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼畅涂,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了道川?” 一聲冷哼從身側(cè)響起午衰,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎冒萄,沒想到半個月后臊岸,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡尊流,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年帅戒,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片崖技。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡蜘澜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出响疚,到底是詐尸還是另有隱情鄙信,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布忿晕,位于F島的核電站装诡,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鸦采,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一宾巍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧渔伯,春花似錦顶霞、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至玄叠,卻和暖如春古徒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背读恃。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工隧膘, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人寺惫。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓疹吃,卻偏偏與公主長得像,于是被迫代替她去往敵國和親西雀。 傳聞我的和親對象是個殘疾皇子萨驶,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,779評論 2 354