使用 hadoop streaming 編程的幾點經(jīng)驗和教訓

hadoop streaming 是 hadoop 的一個多語言編程框架灭衷。關(guān)于 streaming 的使用方法可以參見 streaming 的官方文檔橡疼。一些比較高級的用法男翰,例如加載詞典闷袒,使用計數(shù)器等致盟,也可以在網(wǎng)上找到答案腥泥。下面是在使用 streaming 的時候踩到的一些坑匾南,記錄一下。

1蛔外,生成本地的 tmp file

hadoop streaming 工作的時候會將要上傳的文件打包并上傳蛆楞。在客戶端機器上,hadoop client 會將 -file 選項指定的文件拷貝到某個臨時目錄下夹厌,并且進行打包程序豹爹。所以,要求當前用戶需要對這個臨時目錄具有寫權(quán)限矛纹。常常遇到的錯誤是臂聋,當前用戶對這個目錄沒有寫權(quán)限,在提交任務(wù)的時候會報告如下的錯誤:

Exception in thread "main" java.io.IOException: permission denied
at java.io.UnixFileSystem.createFileExclusively(Native Method)
at java.io.File.createTempFile(File.java:1879)
at org.apache.hadoop.util.RunJar.main(RunJar.java:115)

這個臨時目錄一般在hadoop 配置文件中的 core-site.xml 和 mapred-site.xml 中指定或南。一般來說孩等,保證hadoop.tmp.dirmapred.temp.dir所指向的目錄具有寫權(quán)限就足夠了。如果不想修改 core-site.xml 和 mapred-site.xml采够,可以在提交 streaming job 的時候通過-D選項來指定:

hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.2.0-w1.2.0.jar \
    -Dhadoop.tmp.dir=~/tmp/ \
    -Dmapred.temp.dir=~/tmp/ \
    -mapper "cat"
    -reducer "wc"
    ....

2肄方,多路輸出并不是在每個版本都可用。

hadoop streaming 中 reducer 的輸出文件類似:${outputDir}/part-******蹬癌,其中 ***** 是 reducer 任務(wù)的任務(wù)號权她。但有的時候我們希望 reducer 能夠輸出到多路文件,例如逝薪,對于文件符合某個條件的隅要,輸出到 part-*****-A,其余的輸出到 part-*****-B董济。

hadoop-v2-u7 的版本為 streaming 引入了兩個多路輸出的插件:SuffixMultipleTextOutputFormatSuffixMultipleSequenceFileOutputFormat步清。如果要直接使用這兩個插件,需要保證客戶端和服務(wù)器上的 hadoop 版本均為 hadoop-v2-u7 或者更高感局。使用這兩個插件的教程可以參見hadoop streaming實戰(zhàn):多路輸出尼啡。
需要特別注意的一點是:很多 hadoop 發(fā)行版暂衡,即使是最近的發(fā)行版询微,也未必有這兩個插件(比如 cloudera 的發(fā)行版——當然也許是我的版本還不夠高)崖瞭。確定有沒有這兩個插件的一種方法是看一下這個發(fā)行版的 API 文檔有沒有 org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat 這個類即可(或者直接查看 HADOOP_CLASSPATH)。
如果沒有這個類撑毛,需要自己定制一個 MultipleTextOutputFormat(用java)书聚。定制的方法可以參考hadoop多路輸出

3藻雌,/etc/fstab 為 noexec 掛載導致 permission denied

如果 streaming 的 mapper和 reducer 使用的是二進制文件雌续,那么在 mapper 和 reducer 中常常需要這樣調(diào)用:

hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.2.0-w1.2.0.jar \
    -Dhadoop.tmp.dir=~/tmp/ \
    -Dmapred.temp.dir=~/tmp/ \
    -mapper "./mymapper" \
    -reducer "./myreducer" \
    -file "./mymapper" \
    -file "./myreducer" \
    ....

不幸的是,很多時候這樣調(diào)用的時候往往會出現(xiàn)如下的錯誤:

Caused by: java.io.IOException: java.io.IOException: error=13, Permission denied
at java.lang.UNIXProcess.<init>(UNIXProcess.java:148)
at java.lang.ProcessImpl.start(ProcessImpl.java:65)
at java.lang.ProcessBuilder.start(ProcessBuilder.java:453)
... 24 more

這個往往是因為胯杭,streaming 需要把二進制文件分發(fā)到每臺節(jié)點機器上驯杜,創(chuàng)建一個臨時目錄,把二進制文件放到這個臨時目錄里然后開始運行做个。這個臨時目錄一般在 hadoop 的數(shù)據(jù)磁盤上鸽心,通過 /etc/fstab 掛在到計算借點的機器,而很多時候為了安全起見居暖,這個掛載常常指定了 noexec 的屬性:

/home/disk4 ext4 noexec,nosuid,noatime 1 2 UUID="0cbe17e7-4c00-4409-824c-d84e6a80fb5d" /home/disk5 ext4

解決這個問題的方法有:

  • 刪除 noexec 屬性顽频;
  • 使用一個 shell 腳本包裝一個 shell 腳本先將二進制文件拷貝到 /tmp 等目錄,然后再執(zhí)行:
#!/bin/sh
cp ./mymapper /tmp/
/tmp/mymapper

然后指定--mapper "sh mapper.sh"來提交任務(wù)太闺。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末糯景,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子省骂,更是在濱河造成了極大的恐慌蟀淮,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钞澳,死亡現(xiàn)場離奇詭異灭贷,居然都是意外死亡,警方通過查閱死者的電腦和手機略贮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門甚疟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人逃延,你說我怎么就攤上這事览妖。” “怎么了揽祥?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵讽膏,是天一觀的道長。 經(jīng)常有香客問我拄丰,道長府树,這世上最難降的妖魔是什么俐末? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮奄侠,結(jié)果婚禮上卓箫,老公的妹妹穿的比我還像新娘。我一直安慰自己垄潮,他們只是感情好烹卒,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著弯洗,像睡著了一般旅急。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上牡整,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天藐吮,我揣著相機與錄音,去河邊找鬼逃贝。 笑死谣辞,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的秋泳。 我是一名探鬼主播潦闲,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼迫皱!你這毒婦竟也來了卓起?” 一聲冷哼從身側(cè)響起戏阅,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎芭逝,沒想到半個月后旬盯,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體胖翰,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡懊缺,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年靶壮,在試婚紗的時候發(fā)現(xiàn)自己被綠了腾降。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片螃壤。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡日麸,死狀恐怖代箭,靈堂內(nèi)的尸體忽然破棺而出嗡综,到底是詐尸還是另有隱情察净,我是刑警寧澤氢卡,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站棋返,受9級特大地震影響睛竣,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜验夯,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一共屈、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧矾削,春花似錦垦细、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽做瞪。三九已至对粪,卻和暖如春右冻,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背著拭。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工纱扭, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人儡遮。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓乳蛾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親鄙币。 傳聞我的和親對象是個殘疾皇子肃叶,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容