hadoop 對于現(xiàn)在的大數(shù)據(jù)來說 心褐,大家 更多是使用它的 hdfs 冗疮,真到 計算 棺滞,還是 對已經對原始日志清洗后的更好的結構化數(shù)據(jù) 使用hive impala kudu kylin Druid spark 蝌戒,結構化 數(shù)據(jù) 可以媲美 關系型數(shù)據(jù)庫 中的數(shù)據(jù)了设凹。
hadoop Streaming 是一個非常優(yōu)秀的小工具,短小精悍 非常鋒利庵寞,
hadoop Streaming 需要借助 我們 hadoop 根目錄下 ./share子目錄下的 hadoop-streaming -**.jar包 才能執(zhí)行狸相,這個是 其路徑 hadoop/share/hadoop/tools/lib/hadoop-streaming-2.8.1.jar
一般我建議把 這個jar 包放到 PATH可以引導的地方
所以 cd /usr/local/hadoop/share/hadoop/tools/lib
cp hadoop-streaming-2.8.1.jar ../../../../../bin/
這樣在hadoop 的bin 目錄就有了這個jar 包,方便引用
另外就是 hadoop 1.X 的hadoop streaming 的運行配置參數(shù)和 2.X 還是有區(qū)別的捐川,需要 糾正脓鹃,我們老大在百度 ,百度 的hadoop 大部分是 1.x ,配置參數(shù)使用 -jobconf
但是在 2.x 大部分使用 -D
參考這份官方
http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html
古沥。
切記 瘸右,-D 必須放在其他 非D 配置參數(shù) 最前面,不然 -D 會報無法識別