Hadoop Streaming框架之文件分發(fā)、數(shù)據(jù)分割颂砸、二次排序

1 使用cacheFile分發(fā)文件

如果文件（如字典文件）存放在HDFS中洲守，希望計算時在每個計算節(jié)點上將文件當作本地文件處理，沾凄，可以使用-cacheFile hdfs://host:port/path/to/file#linkname選項在計算節(jié)點緩存文件梗醇，Streaming程序通過./linkname訪問文件。

　　例如：

　　 hadoop = `which hadoop`

　　 $hadoop streaming \

　　 -input /user/test/input -output /user/test/output \

-mapper mymapper.sh -reducer myreducer.sh \

　　 -file /home/work/mymapper.sh \

-file /home/work/myreducer.sh \

-cacheFile hdfs://namenode:port/user/test/dict.data#dictlink \

-jobconf mapred.job.name=”cache-file-demo”

　　mymapper.sh和myreducer.sh可以通過./dictlink直接訪問字典文件hdfs://user/test/dict.data撒蟀，而且是從本地讀取文件叙谨。

　　2?用cacheArchive分發(fā)壓縮包

　　有時要分發(fā)的文件有一定的目錄結(jié)構(gòu)，可以先將整個目錄打包保屯，然后整體進行上傳手负。使用-cacheArchive hdfs://host:port/path/to/archivefile#linkname分發(fā)壓縮包。

例如在本地有一個目錄為app姑尺，里面有mapper.pl, reducer.pl, dict/dict.txt這些子目錄和文件竟终，mapper.pl和reducer.pl要讀取./dict/dict.txt文件，希望在任務(wù)執(zhí)行時不需要修改程序和目錄結(jié)構(gòu)切蟋，?可以按照下面的方式分發(fā)app目錄：

　　 $ tar app.tar.gz –C app .? #本地打包

　　 $ $HADOOP_HOME/bin/hadoop fs –put app.tar.gz /user/test/app.tar.gz?? #包上傳到HDFS

$ $HADOOP_HOME/bin/hadoop streaming \

-input /user/test/input -output /user/test/output \

-mapper “perl app/mapper.pl” -reducer “perl app/reducer.pl” \

-cacheArchive hdfs://namenode:port/user/test/ app.tar.gz #app \

-jobconf mapred.job.name=”cache-archive-demo”

首先將本地app目錄中的所有文件和目錄打包壓縮统捶，然后上傳到HDFS的/user/test/app.tar.gz，啟動streaming任務(wù)時使用-cacheArchive選項將app.tar.gz分發(fā)到計算節(jié)點并解壓到app目錄柄粹，然后在當前工作目錄創(chuàng)建到app目錄的鏈接喘鸟，-mapper選項指定app/mapper.pl為mapper程序，-reducer選項指定app/reducer.pl為reducer程序驻右，它們都可以讀取./dict/dict.txt文件什黑。本地打包時要進入目錄app而不是在app的上層目錄打包，否則要通過app/app/mapper.pl才能訪問到mapper.pl文件堪夭。

hadoop支持zip, jar, tar.gz格式的壓縮包愕把，由于Java解壓zip壓縮包時會丟失文件權(quán)限信息而且遇到中文文件名會出錯拣凹，所見建議采用tar.gz壓縮包。

三種文件分發(fā)方式的區(qū)別：-file將客戶端本地文件打成jar包上傳到HDFS然后分發(fā)到計算節(jié)點恨豁，-cacheFile將HDFS文件分發(fā)到計算節(jié)點嚣镜，-cacheArchive將HDFS壓縮文件分發(fā)到計算節(jié)點并解壓。

3輸出數(shù)據(jù)分割

默認情況下Streaming框架將map輸出的每一行第一個”\t”之前的部分作為key圣絮，之后的部分作為value祈惶，key\tvalue又作為reduce的輸入雕旨“缃常可以用-D stream.map.output.field.separator改變map輸出中key和value的分隔符，用-D stream.num.map.output.key.fields設(shè)置分隔符的位置凡涩，該位置之前的部分作為key棒搜，之后的部分作為value。如下所示活箕，其中-D stream.map. output.field.separator=:指定使用冒號”:”將map輸出的一行分隔為key/value力麸，-D stream.num.map.output.key.fields=2指定在第二個冒號處進行分隔，也就是第二個冒號之前的作為key育韩，之后的作為value克蚂。如果沒有冒號或冒號少于兩個，則key為整行筋讨，value為空埃叭。

　　 $HADOOP_HOME/bin/hadoop streaming \

???? ? -D stream.map.output.field.separator=: \

?????? -D stream.num.map.output.key.fields=2 \

-input /user/test/input -output /user/test/output \

-mapper mymapper.sh -reducer myreducer.sh \

-file /home/work/mymapper.sh \

-file /home/work/myreducer.sh?\

-jobconf mapred.job.name=”output-sep-demo”

與map類似，對于reduce的輸出悉罕，同樣也可以用-D stream.reduce.output.field.separator和-D stream.num.reduce.output.key.fields定制key/value分隔方式赤屋。

4?二次排序

　　KeyFieldBasedPartitioner是Hadoop庫中的一個實用Partitioner，配置相應(yīng)的參數(shù)就可以使用壁袄，通過KeyFieldBasedPartitioner可以方便地實現(xiàn)二次排序类早。

　　 $HADOOP_HOME/bin/hadoop streaming \

-D stream.map.output.field.separator=.?\

?????? -D stream.num.map.output.key.fields=4 \

?????? -D map.output.key.field.separator=. \

?????? -D num.key.fields.for.partition=2 \

　　 -input /user/test/input -output /user/test/output \

　　 -mapper “mymapper.sh” -reducer “ myreducer.sh” \

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner?\

-file /home/work/mymapper.sh \

-file /home/work/myreducer.sh?\

-jobconf mapred.job.name=”key-partition-demo”

　　其中-Dstream.map.output.field.separator=.和-D stream.num.map.output.key.fields=4與上面的定制輸出數(shù)據(jù)分隔方式意義相同，指定map的輸出行第4個英文句號”.”之前為key嗜逻，后面為value涩僻。-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner指定使用KeyFieldBasedPartitioner，-D map.output.key.field.separator=.指定key的內(nèi)部用英文句號”.”分隔栈顷，-D num.key.fields.for.partition=2指定將key分隔出來的前兩個部分而不是整個key用于Partitioner做partition令哟。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市妨蛹，隨后出現(xiàn)的幾起案子屏富，更是在濱河造成了極大的恐慌，老刑警劉巖蛙卤，帶你破解...
沈念sama閱讀 219,490評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件狠半，死亡現(xiàn)場離奇詭異噩死，居然都是意外死亡，警方通過查閱死者的電腦和手機神年，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,581評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門已维，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人已日，你說我怎么就攤上這事垛耳。” “怎么了飘千？”我有些...
開封第一講書人閱讀 165,830評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵堂鲜，是天一觀的道長。經(jīng)常有香客問我护奈，道長缔莲，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,957評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任霉旗，我火速辦了婚禮痴奏，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘厌秒。我一直安慰自己读拆，他們只是感情好，可當我...
茶點故事閱讀 67,974評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布鸵闪。她就那樣靜靜地躺著檐晕，像睡著了一般。火紅的嫁衣襯著肌膚如雪岛马。梳的紋絲不亂的頭發(fā)上棉姐，一...
開封第一講書人閱讀 51,754評論 1贊 307
城市分裂傳說
那天，我揣著相機與錄音啦逆，去河邊找鬼伞矩。笑死，一個胖子當著我的面吹牛夏志，可吹牛的內(nèi)容都是我干的乃坤。我是一名探鬼主播，決...
沈念sama閱讀 40,464評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼沟蔑，長吁一口氣：“原來是場噩夢啊……” “哼湿诊！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起瘦材，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤厅须，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后食棕，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體朗和，經(jīng)...
沈念sama閱讀 45,847評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡错沽，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,995評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了眶拉。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片千埃。...
茶點故事閱讀 40,137評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖忆植，靈堂內(nèi)的尸體忽然破棺而出放可，到底是詐尸還是另有隱情，我是刑警寧澤朝刊，帶...
沈念sama閱讀 35,819評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布耀里，位于F島的核電站，受9級特大地震影響坞古，放射性物質(zhì)發(fā)生泄漏备韧。R本人自食惡果不足惜劫樟，卻給世界環(huán)境...
茶點故事閱讀 41,482評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一痪枫、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧叠艳，春花似錦奶陈、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,023評論 0贊 22
一樁弒父案吃粒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至拒课，卻和暖如春徐勃，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背早像。一陣腳步聲響...
開封第一講書人閱讀 33,149評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工僻肖，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人卢鹦。一個月前我還...
沈念sama閱讀 48,409評論 3贊 373
代替公主和親
正文我出身青樓臀脏，卻偏偏與公主長得像，于是被迫代替她去往敵國和親冀自。傳聞我的和親對象是個殘疾皇子揉稚，可洞房花燭夜當晚...
茶點故事閱讀 45,086評論 2贊 355

Hadoop Streaming框架之文件分發(fā)梢夯、數(shù)據(jù)分割言疗、二次排序

Hadoop Streaming框架之文件分發(fā)、數(shù)據(jù)分割颂砸、二次排序

推薦閱讀更多精彩內(nèi)容