Hadoop Streaming自帶參數(shù)解析

排序信峻、hash分組漫萄、壓縮格式应结、內(nèi)存設(shè)定
-Option:

  1. -input:輸入文件路徑
  2. -output:輸出文件路徑
  3. -mapper:用戶自己寫的mapper程序,可以是可執(zhí)行文件或者腳本
  4. -reducer:用戶自己寫的reducer程序专缠,可以是可執(zhí)行文件或者腳本
  5. -file:打包文件到提交的作業(yè)中,可以是mapper或者reducer要用的輸入文件淑仆,如配置文件涝婉,字典等,將客戶端本地文件打成jar包上傳到HDFS然后分發(fā)到計算節(jié)點蔗怠。
  6. -cacheFile hdfs://host:port/path/to/file#linkname 分發(fā)HDFS文件到本地墩弯。在計算節(jié)點緩存文件,Streaming程序通過./linkname在本地訪問文件
  7. -cacheArchive <file> Optional 指定一個上傳到HDFS的jar文件寞射,這個jar文件會被自動解壓縮到當(dāng)前工作目錄下
  8. -partitioner:用戶自定義的partitioner程序
  9. -combiner:用戶自定義的combiner程序(必須用java實現(xiàn))
  10. -cluster name:在本地Hadoop集群與一個或多個遠程集群間切換
  11. -additionalconfspec specfile :用一個類似于hadoop-site.xml的XML文件保存所有配置渔工,從而不需要用多個"-D name=value"類型的選項單獨為每個配置變量賦值
  12. -numReduceTasks <num> Optional reduce任務(wù)個數(shù)
  13. -combiner Combiner聚合類,對map的輸出進行本地聚合桥温,對map端的輸出 先做一次合并 引矩,以 減少在map和reduce節(jié)點之間的數(shù)據(jù)傳輸量 ,以 提高網(wǎng)絡(luò)IO性能 侵浸,是MapReduce的一種 優(yōu)化手段之一
  14. -cmdenv <n>=<v> 傳給mapper和reducer的環(huán)境變量
  15. -mapdebug mapper 失敗時運行的debug程序
  16. -reducedebug reducer失敗時運行的debug程序
  17. -verbose Optional 詳細輸出模式
  18. -D作業(yè)配置
    mapred.job.name作業(yè)名
    mapred.job.priority 作業(yè)優(yōu)先級
    mapred.job.map.capacity 最多同時運行map任務(wù)數(shù)
    mapred.job.reduce.capacity 最多同時運行reduce任務(wù)數(shù)
    hadoop.job.ugi 作業(yè)執(zhí)行權(quán)限
    mapred.map.tasks map任務(wù)個數(shù)
    mapred.reduce.tasks reduce任務(wù)個數(shù)
    mapred.job.groups 作業(yè)可運行的計算節(jié)點分組
    mapred.task.timeout 任務(wù)沒有響應(yīng)(輸入輸出)的最大時間
    stream.non.zero.exit.is.failure=true #任務(wù)失敗重啟
    mapred.compress.map.output map的輸出是否壓縮
    mapred.map.output.compression.codec map的輸出壓縮方式
    stream.map.output.field.separator 指定map輸出時的分割符
    stream.num.map.output.key.fields=4 指定map輸出按照分隔符切割后旺韭,key所占有的列數(shù)
    mapred.output.compress reduce的輸出是否壓縮
    mapred.output.compression.type:壓縮類型,有NONE, RECORD和BLOCK通惫,默認(rèn)值RECORD茂翔。
    mapred.output.compression.codec reduce的輸出壓縮方式, 默認(rèn)值org.apache.hadoop.io.compress.DefaultCodec
    stream.reduce.output.field.separator 指定reduce輸出時的分割符
    stream.num.reduce.output.key.fields 指定輸出按照分隔符切割后,key所占有的列數(shù)
    map.output.key.field.separator=. #分桶分隔符:指定map輸出<key,value>對之后履腋,其中key內(nèi)部的分割符
    num.key.fields.for.partition=2 #指定分桶時珊燎,按照分隔符切割后,用于分桶key所占的列數(shù)
    mapred.job.reduce.memory.mb #每個map Task需要的內(nèi)存量
    mapred.job.reduce.memory.mb #每個reduce Task需要的內(nèi)存量
    mapreduce.job.reduce.slowstart.completedmaps 當(dāng)Map Task完成的比例達到該值后才會為Reduce Task申請資源遵湖,默認(rèn)是0.05
    常見的例子:
 按照前四位進行排序悔政,前兩列進行分組
 -D stream.map.output.field.separator=. \
 -D stream.num.map.output.key.fields=4 \
 -D map.output.key.field.separator=. \
 -D mapreduce.partition.keypartitioner.options=-k1,2 \

merge合并輸出的小文件們

set hive.merge.mapfiles = true #在Map-only的任務(wù)結(jié)束時合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任務(wù)結(jié)束時合并小文件
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #當(dāng)輸出文件的平均大小小于該值時,啟動一個獨立的map-reduce任務(wù)進行文件merge
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末延旧,一起剝皮案震驚了整個濱河市谋国,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌迁沫,老刑警劉巖芦瘾,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異集畅,居然都是意外死亡近弟,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門挺智,熙熙樓的掌柜王于貴愁眉苦臉地迎上來祷愉,“玉大人,你說我怎么就攤上這事《” “怎么了赴涵?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長订讼。 經(jīng)常有香客問我髓窜,道長,這世上最難降的妖魔是什么躯嫉? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任纱烘,我火速辦了婚禮杨拐,結(jié)果婚禮上祈餐,老公的妹妹穿的比我還像新娘。我一直安慰自己哄陶,他們只是感情好帆阳,可當(dāng)我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著屋吨,像睡著了一般蜒谤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上至扰,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天鳍徽,我揣著相機與錄音,去河邊找鬼敢课。 笑死阶祭,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的直秆。 我是一名探鬼主播濒募,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼圾结!你這毒婦竟也來了瑰剃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤筝野,失蹤者是張志新(化名)和其女友劉穎晌姚,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體歇竟,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡挥唠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了途蒋。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片猛遍。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出懊烤,到底是詐尸還是另有隱情梯醒,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布腌紧,位于F島的核電站茸习,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏壁肋。R本人自食惡果不足惜号胚,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望浸遗。 院中可真熱鬧猫胁,春花似錦、人聲如沸跛锌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽髓帽。三九已至菠赚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間郑藏,已是汗流浹背衡查。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留必盖,地道東北人拌牲。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像筑悴,于是被迫代替她去往敵國和親们拙。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容