2_大數(shù)據(jù)之Hadoop入門

一 大數(shù)據(jù)概論

1??概念
??大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)的軟件工具進(jìn)行捕捉,管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力,洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量,高增長(zhǎng)率和多樣化的信息資產(chǎn).
2??解決的問題
??海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問題.
3??存儲(chǔ)單位(按照從小到大的順序排列)
??單位 : bit<Byte<K<MB<GB<TB<PB<EB<ZB<YB<BB<NB<DB
4??進(jìn)制換算
??1bit * 8 = 1Byte * 1024 = 1K * 1024 = 1MB * 1024 = 1GB ......
5??大數(shù)據(jù)特點(diǎn)
?1.大量 : 截止目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量大約200PB,而歷史上全人類總共說過的話的數(shù)據(jù)量大約是5EB.當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí);
?2. 高速 : 這是大數(shù)據(jù)區(qū)分于傳統(tǒng)挖掘的最顯著特征.根據(jù)IDC的"數(shù)字宇宙"的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB.在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命.
?3. 多樣 : 這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù).相對(duì)于以往便于存儲(chǔ)的以數(shù)據(jù)庫(kù),文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志,音頻,視頻,圖片,地理位置信息等這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求.
?4. 低價(jià)值密度 : 價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比.比如在一天的監(jiān)控視頻中我們只關(guān)心其中某一個(gè)時(shí)間段所發(fā)生的事情,如何快速對(duì)有價(jià)值的數(shù)據(jù)"提純"稱為目前大數(shù)據(jù)背景下待解決的難題.
6??大數(shù)據(jù)應(yīng)用場(chǎng)景
?1. 物流倉(cāng)儲(chǔ) :大數(shù)據(jù)分析系統(tǒng)助力商家精細(xì)化運(yùn)營(yíng),提升銷量,節(jié)約成本.
?2. 零售 : 分析用戶消費(fèi)習(xí)慣,為用戶購(gòu)買商品提供方便,從而提升商品銷量.
?3. 旅游 : 深度結(jié)合大數(shù)據(jù)能力與旅游行業(yè)需求,共建旅游產(chǎn)業(yè)智慧管理,智慧服務(wù)和智慧營(yíng)銷的未來.
?4. 商品廣告推薦 : 給用戶推薦可能喜歡的商品.
?5. 保險(xiǎn) : 海量數(shù)據(jù)挖掘及風(fēng)險(xiǎn)預(yù)測(cè),助力保險(xiǎn)行業(yè)精準(zhǔn)營(yíng)銷,提升精細(xì)化定價(jià)能力.
?6. 金融 : 多維度體現(xiàn)用戶特征,幫助金融機(jī)構(gòu)推薦優(yōu)質(zhì)客戶,防范欺詐風(fēng)險(xiǎn).
?7. 人工智能 : 無人駕駛,BI等.
?8. 其他行業(yè) : 比如房產(chǎn)等.
7??大數(shù)據(jù)部門常見組織結(jié)構(gòu)(適用于部分企業(yè))


二 Hadoop簡(jiǎn)介

1??Hadoop是什么?


2??Hadoop發(fā)展歷史
??Hadoop百度百科
3??Hadoop三大發(fā)行版本介紹
?1. Hadoop三大發(fā)行版本:ApacheClouderaHortonworks栋荸。
??Apache版本最原始(最基礎(chǔ))的版本,對(duì)于入門學(xué)習(xí)最好铜靶。
??Cloudera在大型互聯(lián)網(wǎng)企業(yè)中用的較多。
??Hortonworks文檔較好。
?2. Apache Hadoop
??官網(wǎng)地址:http://hadoop.apache.org/releases.html
??下載地址:https://archive.apache.org/dist/hadoop/common/
?3. Cloudera Hadoop
??官網(wǎng)地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
??下載地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
?4. Hortonworks Hadoop
??官網(wǎng)地址:https://hortonworks.com/products/data-center/hdp/
??下載地址:https://hortonworks.com/downloads/#data-platform
4??Hadoop的優(yōu)勢(shì)
5??Hadoop的組成
?1. HDFS架構(gòu)概述
?2. YARN架構(gòu)概述
?3. MapReduce架構(gòu)概述
??MapReduce將計(jì)算過程分為兩個(gè)階段:MapReduce.
??1)Map階段并行處理輸入數(shù)據(jù)
??2)Reduce階段對(duì)Map結(jié)果進(jìn)行匯總
6??大數(shù)據(jù)技術(shù)生態(tài)體系
?圖中涉及的技術(shù)名詞解釋如下:
?1)SqoopSqoop是一款開源的工具,主要用于在Hadoop睛廊、Hive與傳統(tǒng)的數(shù)據(jù)庫(kù)(MySql)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 :MySQL贩挣,Oracle 等)中的數(shù)據(jù)導(dǎo)進(jìn)到HadoopHDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中没酣。
?2)FlumeFlumeCloudera提供的一個(gè)高可用的王财,高可靠的,分布式的海量日志采集裕便、聚合和傳輸?shù)南到y(tǒng)绒净,Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)偿衰;同時(shí)挂疆,Flume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力下翎。
?3)KafkaKafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)缤言,有如下特性:
??(1)通過O(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化,這種結(jié)構(gòu)對(duì)于即使數(shù)以TB的消息存儲(chǔ)也能夠保持長(zhǎng)時(shí)間的穩(wěn)定性能视事。
??(2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒數(shù)百萬的消息胆萧。
??(3)支持通過Kafka服務(wù)器和消費(fèi)機(jī)集群來分區(qū)消息。
??(4)支持Hadoop并行數(shù)據(jù)加載俐东。
?4)StormStorm用于“連續(xù)計(jì)算”跌穗,對(duì)數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)就將結(jié)果以流的形式輸出給用戶虏辫。
?5)SparkSpark是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框架蚌吸。可以基于Hadoop上存儲(chǔ)的大數(shù)據(jù)進(jìn)行計(jì)算砌庄。
?6)OozieOozie是一個(gè)管理Hdoop作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)羹唠。
?7)HbaseHBase是一個(gè)分布式的奕枢、面向列的開源數(shù)據(jù)庫(kù)。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù)肉迫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)验辞。
?8)HiveHive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表喊衫,并提供簡(jiǎn)單的SQL查詢功能跌造,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低族购,可以通過類SQL語句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì)壳贪,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析寝杖。
?9)R語言:R是用于統(tǒng)計(jì)分析违施、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個(gè)自由瑟幕、免費(fèi)磕蒲、源代碼開放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具只盹。
?10)MahoutApache Mahout是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù)辣往。
?11)ZooKeeperZookeeperGoogleChubby一個(gè)開源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)殖卑,提供的功能包括:配置維護(hù)站削、名字服務(wù)、 分布式同步孵稽、組服務(wù)等许起。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效菩鲜、功能穩(wěn)定的系統(tǒng)提供給用戶园细。
7??推薦系統(tǒng)框架圖


三 Hadoop運(yùn)行環(huán)境搭建

1??虛擬機(jī)環(huán)境初始化

  1. 克隆虛擬機(jī)
  2. 修改克隆虛擬機(jī)的靜態(tài)IP
  3. 修改主機(jī)名
  4. 關(guān)閉防火墻
  5. 創(chuàng)建一般用戶
  6. 配置一般用戶具有root權(quán)限
  7. 在/opt目錄下創(chuàng)建文件夾
    ?① 在/opt目錄下創(chuàng)建module、software文件夾
    ?② 修改module接校、software文件夾的所有者及組
#!/bin/bash

#環(huán)境初始化腳本
#讀取用戶輸入
read -t 10 -p "Enter your user name in 10 seconds " username
read -t 10 -p "Enter your folder name in 10 seconds " foldernameone
read -t 10 -p "Enter your folder name in 10 seconds " foldernametwo
read -t 10 -p "Enter your starting value in 10 seconds " minvalue
read -t 10 -p "Enter your end value in 10 seconds " maxvalue
read -t 10 -p "Enter your ip number in 10 seconds " ip


#關(guān)閉防火墻
echo "關(guān)閉防火墻"
service iptables stop
chkconfig iptables off

#創(chuàng)建一個(gè)一般用戶
echo "創(chuàng)建一般用戶"
useradd $username
echo "123456" | passwd $username --stdin

#創(chuàng)建目錄
echo "創(chuàng)建目錄"
mkdir /opt/$foldernameone /opt/$foldernametwo
chown $username:$username /opt/$foldernameone /opt/$foldernametwo

#加入Sudoers
echo "加入Sudoers"
sed -i "/^root/a $username ALL=(ALL)       NOPASSWD: ALL" /etc/sudoers


lan=`ifconfig | grep Bcast | cut -d . -f 3`
#改Host
echo "修改hosts"
for ((i=$minvalue;i<$maxvalue;i++))
do
    echo "192.168.$lan.$i hadoop$i" >> /etc/hosts
done

#改網(wǎng)卡
echo "修改網(wǎng)卡"
cat <<EOF >/etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.$lan.$ip
PREFIX=24
GATEWAY=192.168.$lan.2
DNS1=192.168.$lan.2
NAME=eth0
EOF

#改主機(jī)名
echo "修改主機(jī)"
sed -i "s/HOSTNAME=.*/HOSTNAME=hadoop$ip/g" /etc/sysconfig/network

#改網(wǎng)卡腳本
echo "修改網(wǎng)卡"
sed -i '/eth0/d' /etc/udev/rules.d/70-persistent-net.rules 
sed -i 's/eth1/eth0/g' /etc/udev/rules.d/70-persistent-net.rules

#重啟使配置生效
reboot

2??安裝JDK

  1. 查詢是否安裝JDKrpm -qa | grep java
  2. 卸載系統(tǒng)自帶JDKrpm -e software_name
  3. 下載JDK到指定目錄/opt/sofrware
  4. 解壓JDK到指定目錄/opt/module目錄下tar -zxvf software_name -C /opt/module
  5. 配置JDK環(huán)境變量
    ?5.1 獲取JDK路徑pwd
    ?5.2 打開/etc/profile文件
    ?5.3 在profile文件末尾添加JDK路徑
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
  1. 保存退出:wq
  2. 重新加載配置文件使修改生效source /etc/profile
  3. 測(cè)試JDK是否安裝成功java -version
  4. 如果以上步驟沒有問題第8步不能正常使用則重啟嘗試

3??安裝Hadoop

  1. 下載Hadoop到/opt/software目錄此處版本為2.7.2
  2. 進(jìn)入到Hadoop安裝包路徑下cd /opt/software/
  3. 解壓安裝文件到/opt/module下tar -zxvf software_name -C /opt/module
  4. 配置Hadoop環(huán)境變量
    ?4.1 獲取Hadoop安裝路徑 pwd
    ?4.2 打開/etc/profile文件 vim /etc/profile
    ?4.3 在profile文件末尾添加環(huán)境變量
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
  1. 保存后退出 :wq
  2. 重新加載配置文件使修改生效source /etc/profile
  3. 測(cè)試是否安裝成功hadoop version
  4. 如果以上步驟沒有問題第7步不能正常使用則重啟嘗試

4??Hadoop目錄結(jié)構(gòu)

  1. 查看Hadoop目錄結(jié)構(gòu)
ll /opt/module/hadoop-2.7.2
總用量 52
drwxr-xr-x. 2 xxx xxx  4096 5月  22 2017 bin
drwxr-xr-x. 3 xxx xxx  4096 5月  22 2017 etc
drwxr-xr-x. 2 xxx xxx  4096 5月  22 2017 include
drwxr-xr-x. 3 xxx xxx  4096 5月  22 2017 lib
drwxr-xr-x. 2 xxx xxx  4096 5月  22 2017 libexec
-rw-r--r--. 1 xxx xxx 15429 5月  22 2017 LICENSE.txt
-rw-r--r--. 1 xxx xxx   101 5月  22 2017 NOTICE.txt
-rw-r--r--. 1 xxx xxx  1366 5月  22 2017 README.txt
drwxr-xr-x. 2 xxx xxx  4096 5月  22 2017 sbin
drwxr-xr-x. 4 xxx xxx  4096 5月  22 2017 share
  1. 重要目錄簡(jiǎn)介
    (1)bin目錄:存放對(duì)Hadoop相關(guān)服務(wù)(HDFS,YARN)進(jìn)行操作的腳本;
    (2)etc目錄:Hadoop的配置文件目錄,存放Hadoop的配置文件;
    (3)lib目錄:存放Hadoop的本地庫(kù)(對(duì)數(shù)據(jù)進(jìn)行壓縮解壓縮功能);
    (4)sbin目錄:存放啟動(dòng)或停止Hadoop相關(guān)服務(wù)的腳本;
    (5)share目錄:存放Hadoop的依賴jar包珊肃、文檔、和官方案例;

四 Hadoop運(yùn)行模式

Hadoop運(yùn)行模式包括 : 本地模式 偽分布式模式以及完全分布式模式.
Hadoop官方網(wǎng)站 : http://hadoop.apache.org

1??本地運(yùn)行模式

  1. 官方Grep案例
    ① 在hadoop-2.7.2文件下面創(chuàng)建一個(gè)input文件夾
mkdir input

?② 將hadoopxml配置文件復(fù)制到input

cp etc/hadoop/*.xml input

?③ 執(zhí)行share目錄下的MapReduce程序

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

?④ 查看輸出結(jié)果

cat output/*
  1. 官方WordCount案例
    ① 在hadoop-2.7.2文件下面創(chuàng)建一個(gè)wcinput文件夾
mkdir wcinput

?② 在wcinput文件下創(chuàng)建一個(gè)wc.input文件

touch wc.input

?③ 編輯wc.input文件

vim wc.input
# 在文件中輸入如下內(nèi)容
hadoop yarn
hadoop mapreduce
test
test
# : wq 保存退出

?④ 回到Hadoop目錄/opt/module/hadoop-2.7.2
?⑤ 執(zhí)行程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

?⑥ 查看結(jié)果

cat wcoutput/part-r-00000
# 以下為輸出內(nèi)容
test 2
hadoop  2
mapreduce       1
yarn    1

2??偽分布式運(yùn)行模式

  1. 啟動(dòng)HDFS并運(yùn)行MapReduce程序
  1. 分析
    (1)配置集群
    (2)啟動(dòng)馅笙、測(cè)試集群增伦乔、刪、查
    (3)執(zhí)行WordCount案例
  2. 執(zhí)行步驟
    (1)配置集群
    ?(a)配置:hadoop-env.sh
    ??Linux系統(tǒng)中獲取JDK的安裝路徑:echo $JAVA_HOME
    ??修改路徑:export JAVA_HOME=/opt/module/jdk1.8.0_144
    ?(b)配置:core-site.xml
    ?(c)配置:hdfs-site.xml

    (2)啟動(dòng)集群
    ?(a)格式化NameNode(第一次啟動(dòng)時(shí)格式化董习,以后就不要總格式化): bin/hdfs namenode -format
    ?(b)啟動(dòng)NameNode : sbin/hadoop-daemon.sh start namenode
    ?(c)啟動(dòng)DataNode : sbin/hadoop-daemon.sh start datanode
    (3)查看集群
    ?(a)查看是否啟動(dòng)成功 : jps(注意:jpsJDK中的命令烈和,不是Linux命令。不安裝JDK不能使用jps)
    ?(b)web端查看HDFS文件系統(tǒng) : http://hadoop101:50070/dfshealth.html%23tab-overview注意:如果不能查看皿淋,看如下帖子處理http://www.cnblogs.com/zlslch/p/6604189.html
    ?(c)查看產(chǎn)生的Log日志
    ??當(dāng)前目錄:/opt/module/hadoop-2.7.2/logs
    ?(d)思考:為什么不能一直格式化NameNode招刹,格式化NameNode恬试,要注意什么?
    ??注意:格式化NameNode疯暑,會(huì)產(chǎn)生新的集群id,導(dǎo)致NameNode和DataNode的集群id不一致训柴,集群找不到已往數(shù)據(jù)。所以妇拯,格式NameNode時(shí)幻馁,一定要先刪除data數(shù)據(jù)和log日志,然后再格式化NameNode越锈。
    (4)操作集群
    ?(a)在HDFS文件系統(tǒng)上創(chuàng)建一個(gè)input文件夾 : bin/hdfs dfs -mkdir -p /user/xxx/input
    ?(b)將測(cè)試文件內(nèi)容上傳到文件系統(tǒng)上 : bin/hdfs dfs -put wcinput/wc.input
    ?(c)查看上傳的文件是否正確 : bin/hdfs dfs -ls /user/xxx/input/ bin/hdfs dfs -cat /user/xxx/ input/wc.input
    ?(d)運(yùn)行MapReduce程序 : bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input/ /user/xxx/output
    ?(e)查看輸出結(jié)果 : bin/hdfs dfs -cat /user/xxx/output/*
  1. 啟動(dòng)YARN并運(yùn)行MapReduce程序
  1. 分析
    (1)配置集群在YARN上運(yùn)行MR
    (2)啟動(dòng)仗嗦、測(cè)試集群增、刪甘凭、查
    (3)在YARN上執(zhí)行WordCount案例
  2. 執(zhí)行步驟
    (1)配置集群
    ?(a)配置yarn-env.sh配置一下JAVA_HOME : export JAVA_HOME=/opt/module/jdk1.8.0_144
    ?(b)配置yarn-site.xml
    ?(c)配置:mapred-env.sh配置一下JAVA_HOME : export JAVA_HOME=/opt/module/jdk1.8.0_144
    ?(d)配置: (對(duì)mapred-site.xml.template重新命名為) mapred-site.xml
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<!-- 指定MR運(yùn)行在YARN上 -->
<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>

(2)啟動(dòng)集群
?(a)啟動(dòng)前必須保證NameNodeDataNode已經(jīng)啟動(dòng)
?(b)啟動(dòng)ResourceManager : sbin/yarn-daemon.sh start resourcemanager
?(c)啟動(dòng)NodeManager : sbin/yarn-daemon.sh start nodemanager
(3)集群操作
?(a)YARN的瀏覽器頁(yè)面查看 : http://hadoop101:8088/cluster

?(b)刪除文件系統(tǒng)上的output文件 : bin/hdfs dfs -rm -R /user/xxx/output
?(c)執(zhí)行MapReduce程序 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input /user/xxx/output
?(d)查看運(yùn)行結(jié)果 : bin/hdfs dfs -cat /user/xxx/output/*

  1. 配置歷史服務(wù)器 : 為了查看程序的歷史運(yùn)行情況稀拐,需要配置一下歷史服務(wù)器。具體配置步驟如下
  1. 配置mapred-site.xml : vim mapred-site.xml
# 在該文件里面增加如下配置
<!-- 歷史服務(wù)器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop101:10020</value>
</property>
<!-- 歷史服務(wù)器web端地址 -->
<property>
   <name>mapreduce.jobhistory.webapp.address</name>
   <value>hadoop101:19888</value>
</property>
  1. 啟動(dòng)歷史服務(wù)器 : sbin/mr-jobhistory-daemon.sh start historyserver
  2. 查看歷史服務(wù)器是否啟動(dòng) : jps
  3. 查看JobHistory : http://hadoop101:19888/jobhistory
  1. 配置日志的聚集
    日志聚集概念:應(yīng)用運(yùn)行完成以后丹弱,將程序運(yùn)行日志信息上傳到HDFS系統(tǒng)上德撬。
    日志聚集功能好處:可以方便的查看到程序運(yùn)行詳情,方便開發(fā)調(diào)試躲胳。
    注意:開啟日志聚集功能蜓洪,需要重新啟動(dòng)NodeManager 、ResourceManager和HistoryManager泛鸟。
    開啟日志聚集功能具體步驟如下:
  1. 配置yarn-site.xml : vim yarn-site.xml
# 在該文件里面增加如下配置蝠咆。
<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

<!-- 日志保留時(shí)間設(shè)置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
  1. 關(guān)閉NodeManager踊东、ResourceManagerHistoryServer
sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver
  1. 啟動(dòng)NodeManager 北滥、ResourceManagerHistoryServer
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver
  1. 刪除HDFS上已經(jīng)存在的輸出文件 : bin/hdfs dfs -rm -R /user/xxx/output
  2. 執(zhí)行WordCount程序 : hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input /user/xxx/output
  3. 查看日志 : http://hadoop101:19888/jobhistory
  1. 配置文件說明
    Hadoop配置文件分兩類:默認(rèn)配置文件和自定義配置文件,只有用戶想修改某一默認(rèn)配置值時(shí)闸翅,才需要修改自定義配置文件再芋,更改相應(yīng)屬性值。

(1)默認(rèn)配置文件:

(2)自定義配置文件:
??core-site.xml坚冀、hdfs-site.xml济赎、yarn-site.xmlmapred-site.xml四個(gè)配置文件存放在$HADOOP_HOME/etc/hadoop這個(gè)路徑上记某,用戶可以根據(jù)項(xiàng)目需求重新進(jìn)行修改配置司训。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市液南,隨后出現(xiàn)的幾起案子壳猜,更是在濱河造成了極大的恐慌,老刑警劉巖滑凉,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件统扳,死亡現(xiàn)場(chǎng)離奇詭異喘帚,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)咒钟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門吹由,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人朱嘴,你說我怎么就攤上這事倾鲫。” “怎么了腕够?”我有些...
    開封第一講書人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵级乍,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我帚湘,道長(zhǎng)玫荣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任大诸,我火速辦了婚禮捅厂,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘资柔。我一直安慰自己焙贷,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開白布贿堰。 她就那樣靜靜地躺著辙芍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪羹与。 梳的紋絲不亂的頭發(fā)上故硅,一...
    開封第一講書人閱讀 51,727評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音纵搁,去河邊找鬼吃衅。 笑死,一個(gè)胖子當(dāng)著我的面吹牛腾誉,可吹牛的內(nèi)容都是我干的徘层。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼利职,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼趣效!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起猪贪,我...
    開封第一講書人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤跷敬,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后哮伟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體干花,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡妄帘,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了池凄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片抡驼。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖肿仑,靈堂內(nèi)的尸體忽然破棺而出致盟,到底是詐尸還是另有隱情,我是刑警寧澤尤慰,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布馏锡,位于F島的核電站,受9級(jí)特大地震影響伟端,放射性物質(zhì)發(fā)生泄漏杯道。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一责蝠、第九天 我趴在偏房一處隱蔽的房頂上張望党巾。 院中可真熱鬧,春花似錦霜医、人聲如沸齿拂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽署海。三九已至,卻和暖如春医男,著一層夾襖步出監(jiān)牢的瞬間砸狞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工昨登, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留睬罗,地道東北人讶坯。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像翼闽,于是被迫代替她去往敵國(guó)和親禽捆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子笙什,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 當(dāng)前,整個(gè)互聯(lián)網(wǎng)正在從IT時(shí)代向DT時(shí)代演進(jìn)胚想,大數(shù)據(jù)技術(shù)也正在助力企業(yè)和公眾敲開DT世界大門琐凭。當(dāng)今“大數(shù)據(jù)”一詞的...
    吳瑞文閱讀 1,465評(píng)論 1 11
  • IBM、Oracle浊服、SAP统屈、甚至Microsoft等幾乎所有的大型軟件提供商都采用了Hadoop胚吁。然而,當(dāng)你已經(jīng)...
    丨程序之道丨閱讀 724評(píng)論 0 1
  • 數(shù)據(jù)管理比以往更加復(fù)雜愁憔,到處都是大數(shù)據(jù)腕扶,包括每個(gè)人的想法以及不同的形式:廣告 , 社交圖譜,信息流 ,推薦 ,市場(chǎng)...
    abel_cao閱讀 865評(píng)論 0 7
  • 生活中我們總會(huì)經(jīng)歷這樣或那樣的不開心的事。特別是當(dāng)我們長(zhǎng)大成人后吨掌,煩躁的事情越來越多半抱,感覺每天都有做不完的...
    榮我靜靜閱讀 283評(píng)論 0 4
  • 在今天我終于讀完了這本書,好久沒有一本書能讓我靜下心來把它讀完了膜宋。讀到這本書的結(jié)尾窿侈,我真的很感動(dòng),眼眶都濕潤(rùn)了秋茫,我...
    MU心閱讀 1,789評(píng)論 1 1