一 大數(shù)據(jù)概論
1??概念
??大數(shù)據(jù)是指無法在一定時(shí)間范圍
內(nèi)用常規(guī)的軟件工具進(jìn)行捕捉,管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力,洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量,高增長(zhǎng)率和多樣化的信息資產(chǎn)
.
2??解決的問題
??海量數(shù)據(jù)的存儲(chǔ)
和海量數(shù)據(jù)的分析計(jì)算
問題.
3??存儲(chǔ)單位(按照從小到大的順序排列)
??單位 : bit<Byte<K<MB<GB<TB
<PB
<EB
<ZB<YB<BB<NB<DB
4??進(jìn)制換算
??1bit * 8 = 1Byte * 1024 = 1K * 1024 = 1MB * 1024 = 1GB ......
5??大數(shù)據(jù)特點(diǎn)
?1.大量 : 截止目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量大約200PB
,而歷史上全人類總共說過的話的數(shù)據(jù)量大約是5EB
.當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB
量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB
量級(jí);
?2. 高速 : 這是大數(shù)據(jù)區(qū)分于傳統(tǒng)挖掘的最顯著特征.根據(jù)IDC的"數(shù)字宇宙"的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB
.在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命.
?3. 多樣 : 這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù).相對(duì)于以往便于存儲(chǔ)的以數(shù)據(jù)庫(kù),文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多
,包括網(wǎng)絡(luò)日志,音頻,視頻,圖片,地理位置信息等
這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求.
?4. 低價(jià)值密度 : 價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比.比如在一天的監(jiān)控視頻中我們只關(guān)心其中某一個(gè)時(shí)間段所發(fā)生的事情,如何快速對(duì)有價(jià)值的數(shù)據(jù)"提純"稱為目前大數(shù)據(jù)背景下待解決的難題
.
6??大數(shù)據(jù)應(yīng)用場(chǎng)景
?1. 物流倉(cāng)儲(chǔ) :大數(shù)據(jù)分析系統(tǒng)助力商家精細(xì)化運(yùn)營(yíng),提升銷量,節(jié)約成本.
?2. 零售 : 分析用戶消費(fèi)習(xí)慣,為用戶購(gòu)買商品提供方便,從而提升商品銷量.
?3. 旅游 : 深度結(jié)合大數(shù)據(jù)能力與旅游行業(yè)需求,共建旅游產(chǎn)業(yè)智慧管理,智慧服務(wù)和智慧營(yíng)銷的未來.
?4. 商品廣告推薦 : 給用戶推薦可能喜歡的商品.
?5. 保險(xiǎn) : 海量數(shù)據(jù)挖掘及風(fēng)險(xiǎn)預(yù)測(cè),助力保險(xiǎn)行業(yè)精準(zhǔn)營(yíng)銷,提升精細(xì)化定價(jià)能力.
?6. 金融 : 多維度體現(xiàn)用戶特征,幫助金融機(jī)構(gòu)推薦優(yōu)質(zhì)客戶,防范欺詐風(fēng)險(xiǎn).
?7. 人工智能 : 無人駕駛,BI等.
?8. 其他行業(yè) : 比如房產(chǎn)等.
7??大數(shù)據(jù)部門常見組織結(jié)構(gòu)(適用于部分企業(yè))
二 Hadoop簡(jiǎn)介
1??Hadoop是什么?
2??Hadoop發(fā)展歷史
??Hadoop百度百科
3??Hadoop三大發(fā)行版本介紹
?1. Hadoop三大發(fā)行版本:Apache
、Cloudera
、Hortonworks
栋荸。
??Apache
版本最原始(最基礎(chǔ))的版本,對(duì)于入門學(xué)習(xí)最好铜靶。
??Cloudera
在大型互聯(lián)網(wǎng)企業(yè)中用的較多。
??Hortonworks
文檔較好。
?2.Apache Hadoop
??官網(wǎng)地址:http://hadoop.apache.org/releases.html
??下載地址:https://archive.apache.org/dist/hadoop/common/
?3.Cloudera Hadoop
??官網(wǎng)地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
??下載地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
?4.Hortonworks Hadoop
??官網(wǎng)地址:https://hortonworks.com/products/data-center/hdp/
??下載地址:https://hortonworks.com/downloads/#data-platform
4??Hadoop的優(yōu)勢(shì)5??Hadoop的組成?1.HDFS架構(gòu)概述
?2.YARN架構(gòu)概述
?3.MapReduce架構(gòu)概述
??MapReduce
將計(jì)算過程分為兩個(gè)階段:Map
和Reduce
.
??1)Map
階段并行處理輸入數(shù)據(jù)
??2)Reduce
階段對(duì)Map
結(jié)果進(jìn)行匯總6??大數(shù)據(jù)技術(shù)生態(tài)體系?圖中涉及的技術(shù)名詞解釋如下:
?1)Sqoop
:Sqoop
是一款開源的工具,主要用于在Hadoop
睛廊、Hive
與傳統(tǒng)的數(shù)據(jù)庫(kù)(MySql
)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 :MySQL
贩挣,Oracle
等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop
的HDFS
中,也可以將HDFS
的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中没酣。
?2)Flume
:Flume
是Cloudera
提供的一個(gè)高可用的王财,高可靠的,分布式的海量日志采集裕便、聚合和傳輸?shù)南到y(tǒng)绒净,Flume
支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)偿衰;同時(shí)挂疆,Flume
提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力下翎。
?3)Kafka
:Kafka
是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)缤言,有如下特性:
??(1)通過O(1)
的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化,這種結(jié)構(gòu)對(duì)于即使數(shù)以TB的消息存儲(chǔ)也能夠保持長(zhǎng)時(shí)間的穩(wěn)定性能视事。
??(2)高吞吐量:即使是非常普通的硬件Kafka
也可以支持每秒數(shù)百萬的消息胆萧。
??(3)支持通過Kafka
服務(wù)器和消費(fèi)機(jī)集群來分區(qū)消息。
??(4)支持Hadoop
并行數(shù)據(jù)加載俐东。
?4)Storm
:Storm
用于“連續(xù)計(jì)算”跌穗,對(duì)數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)就將結(jié)果以流的形式輸出給用戶虏辫。
?5)Spark
:Spark
是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框架蚌吸。可以基于Hadoop
上存儲(chǔ)的大數(shù)據(jù)進(jìn)行計(jì)算砌庄。
?6)Oozie
:Oozie
是一個(gè)管理Hdoop
作業(yè)(job
)的工作流程調(diào)度管理系統(tǒng)羹唠。
?7)Hbase
:HBase
是一個(gè)分布式的奕枢、面向列的開源數(shù)據(jù)庫(kù)。HBase
不同于一般的關(guān)系數(shù)據(jù)庫(kù)肉迫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)验辞。
?8)Hive
:Hive
是基于Hadoop
的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表喊衫,并提供簡(jiǎn)單的SQL
查詢功能跌造,可以將SQL
語句轉(zhuǎn)換為MapReduce
任務(wù)進(jìn)行運(yùn)行。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低族购,可以通過類SQL
語句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce
統(tǒng)計(jì)壳贪,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析寝杖。
?9)R
語言:R
是用于統(tǒng)計(jì)分析违施、繪圖的語言和操作環(huán)境。R
是屬于GNU
系統(tǒng)的一個(gè)自由瑟幕、免費(fèi)磕蒲、源代碼開放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具只盹。
?10)Mahout
:Apache Mahout
是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù)辣往。
?11)ZooKeeper
:Zookeeper
是Chubby
一個(gè)開源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)殖卑,提供的功能包括:配置維護(hù)站削、名字服務(wù)、 分布式同步孵稽、組服務(wù)等许起。ZooKeeper
的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效菩鲜、功能穩(wěn)定的系統(tǒng)提供給用戶园细。
7??推薦系統(tǒng)框架圖
三 Hadoop運(yùn)行環(huán)境搭建
1??虛擬機(jī)環(huán)境初始化
- 克隆虛擬機(jī)
- 修改克隆虛擬機(jī)的靜態(tài)IP
- 修改主機(jī)名
- 關(guān)閉防火墻
- 創(chuàng)建一般用戶
- 配置一般用戶具有root權(quán)限
- 在/opt目錄下創(chuàng)建文件夾
?① 在/opt目錄下創(chuàng)建module、software文件夾
?② 修改module接校、software文件夾的所有者及組
#!/bin/bash
#環(huán)境初始化腳本
#讀取用戶輸入
read -t 10 -p "Enter your user name in 10 seconds " username
read -t 10 -p "Enter your folder name in 10 seconds " foldernameone
read -t 10 -p "Enter your folder name in 10 seconds " foldernametwo
read -t 10 -p "Enter your starting value in 10 seconds " minvalue
read -t 10 -p "Enter your end value in 10 seconds " maxvalue
read -t 10 -p "Enter your ip number in 10 seconds " ip
#關(guān)閉防火墻
echo "關(guān)閉防火墻"
service iptables stop
chkconfig iptables off
#創(chuàng)建一個(gè)一般用戶
echo "創(chuàng)建一般用戶"
useradd $username
echo "123456" | passwd $username --stdin
#創(chuàng)建目錄
echo "創(chuàng)建目錄"
mkdir /opt/$foldernameone /opt/$foldernametwo
chown $username:$username /opt/$foldernameone /opt/$foldernametwo
#加入Sudoers
echo "加入Sudoers"
sed -i "/^root/a $username ALL=(ALL) NOPASSWD: ALL" /etc/sudoers
lan=`ifconfig | grep Bcast | cut -d . -f 3`
#改Host
echo "修改hosts"
for ((i=$minvalue;i<$maxvalue;i++))
do
echo "192.168.$lan.$i hadoop$i" >> /etc/hosts
done
#改網(wǎng)卡
echo "修改網(wǎng)卡"
cat <<EOF >/etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.$lan.$ip
PREFIX=24
GATEWAY=192.168.$lan.2
DNS1=192.168.$lan.2
NAME=eth0
EOF
#改主機(jī)名
echo "修改主機(jī)"
sed -i "s/HOSTNAME=.*/HOSTNAME=hadoop$ip/g" /etc/sysconfig/network
#改網(wǎng)卡腳本
echo "修改網(wǎng)卡"
sed -i '/eth0/d' /etc/udev/rules.d/70-persistent-net.rules
sed -i 's/eth1/eth0/g' /etc/udev/rules.d/70-persistent-net.rules
#重啟使配置生效
reboot
2??安裝JDK
- 查詢是否安裝JDK
rpm -qa | grep java
- 卸載系統(tǒng)自帶JDK
rpm -e software_name
- 下載JDK到指定目錄
/opt/sofrware
- 解壓JDK到指定目錄
/opt/module
目錄下tar -zxvf software_name -C /opt/module
- 配置JDK環(huán)境變量
?5.1 獲取JDK路徑pwd
?5.2 打開/etc/profile
文件
?5.3 在profile文件末尾添加JDK路徑#JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_144 export PATH=$PATH:$JAVA_HOME/bin
- 保存退出
:wq
- 重新加載配置文件使修改生效
source /etc/profile
- 測(cè)試JDK是否安裝成功
java -version
- 如果以上步驟沒有問題第8步不能正常使用則重啟嘗試
3??安裝Hadoop
- 下載Hadoop到/opt/software目錄此處版本為2.7.2
- 進(jìn)入到Hadoop安裝包路徑下
cd /opt/software/
- 解壓安裝文件到/opt/module下
tar -zxvf software_name -C /opt/module
- 配置Hadoop環(huán)境變量
?4.1 獲取Hadoop安裝路徑pwd
?4.2 打開/etc/profile文件vim /etc/profile
?4.3 在profile文件末尾添加環(huán)境變量#HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-2.7.2 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin
- 保存后退出
:wq
- 重新加載配置文件使修改生效
source /etc/profile
- 測(cè)試是否安裝成功
hadoop version
- 如果以上步驟沒有問題第7步不能正常使用則重啟嘗試
4??Hadoop目錄結(jié)構(gòu)
- 查看Hadoop目錄結(jié)構(gòu)
ll /opt/module/hadoop-2.7.2 總用量 52 drwxr-xr-x. 2 xxx xxx 4096 5月 22 2017 bin drwxr-xr-x. 3 xxx xxx 4096 5月 22 2017 etc drwxr-xr-x. 2 xxx xxx 4096 5月 22 2017 include drwxr-xr-x. 3 xxx xxx 4096 5月 22 2017 lib drwxr-xr-x. 2 xxx xxx 4096 5月 22 2017 libexec -rw-r--r--. 1 xxx xxx 15429 5月 22 2017 LICENSE.txt -rw-r--r--. 1 xxx xxx 101 5月 22 2017 NOTICE.txt -rw-r--r--. 1 xxx xxx 1366 5月 22 2017 README.txt drwxr-xr-x. 2 xxx xxx 4096 5月 22 2017 sbin drwxr-xr-x. 4 xxx xxx 4096 5月 22 2017 share
- 重要目錄簡(jiǎn)介
(1)bin
目錄:存放對(duì)Hadoop
相關(guān)服務(wù)(HDFS
,YARN
)進(jìn)行操作的腳本;
(2)etc
目錄:Hadoop
的配置文件目錄,存放Hadoop
的配置文件;
(3)lib
目錄:存放Hadoop
的本地庫(kù)(對(duì)數(shù)據(jù)進(jìn)行壓縮解壓縮功能);
(4)sbin
目錄:存放啟動(dòng)或停止Hadoop
相關(guān)服務(wù)的腳本;
(5)share
目錄:存放Hadoop
的依賴jar包珊肃、文檔、和官方案例;
四 Hadoop運(yùn)行模式
Hadoop
運(yùn)行模式包括 : 本地模式 偽分布式模式以及完全分布式模式.
Hadoop
官方網(wǎng)站 :http://hadoop.apache.org
1??本地運(yùn)行模式
- 官方
Grep
案例
① 在hadoop-2.7.2
文件下面創(chuàng)建一個(gè)input
文件夾mkdir input
?② 將
hadoop
的xml
配置文件復(fù)制到input
cp etc/hadoop/*.xml input
?③ 執(zhí)行
share
目錄下的MapReduce
程序bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
?④ 查看輸出結(jié)果
cat output/*
- 官方
WordCount
案例
① 在hadoop-2.7.2
文件下面創(chuàng)建一個(gè)wcinput
文件夾mkdir wcinput
?② 在
wcinput
文件下創(chuàng)建一個(gè)wc.input
文件touch wc.input
?③ 編輯
wc.input
文件vim wc.input # 在文件中輸入如下內(nèi)容 hadoop yarn hadoop mapreduce test test # : wq 保存退出
?④ 回到
Hadoop
目錄/opt/module/hadoop-2.7.2
?⑤ 執(zhí)行程序hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
?⑥ 查看結(jié)果
cat wcoutput/part-r-00000 # 以下為輸出內(nèi)容 test 2 hadoop 2 mapreduce 1 yarn 1
2??偽分布式運(yùn)行模式
- 啟動(dòng)
HDFS
并運(yùn)行MapReduce
程序
- 分析
(1)配置集群
(2)啟動(dòng)馅笙、測(cè)試集群增伦乔、刪、查
(3)執(zhí)行WordCount
案例- 執(zhí)行步驟
(1)配置集群
?(a)配置:hadoop-env.sh
??Linux
系統(tǒng)中獲取JDK的安裝路徑:echo $JAVA_HOME
??修改路徑:export JAVA_HOME=/opt/module/jdk1.8.0_144
?(b)配置:core-site.xml
?(c)配置:hdfs-site.xml
(2)啟動(dòng)集群
?(a)格式化NameNode
(第一次啟動(dòng)時(shí)格式化董习,以后就不要總格式化):bin/hdfs namenode -format
?(b)啟動(dòng)NameNode
:sbin/hadoop-daemon.sh start namenode
?(c)啟動(dòng)DataNode
:sbin/hadoop-daemon.sh start datanode
(3)查看集群
?(a)查看是否啟動(dòng)成功 :jps
(注意:jps
是JDK
中的命令烈和,不是Linux
命令。不安裝JDK
不能使用jps
)
?(b)web
端查看HDFS
文件系統(tǒng) :http://hadoop101:50070/dfshealth.html%23tab-overview
注意:如果不能查看皿淋,看如下帖子處理http://www.cnblogs.com/zlslch/p/6604189.html
?(c)查看產(chǎn)生的Log
日志
??當(dāng)前目錄:/opt/module/hadoop-2.7.2/logs
?(d)思考:為什么不能一直格式化NameNode招刹,格式化NameNode恬试,要注意什么?
??注意:格式化NameNode疯暑,會(huì)產(chǎn)生新的集群id,導(dǎo)致NameNode和DataNode的集群id不一致训柴,集群找不到已往數(shù)據(jù)。所以妇拯,格式NameNode時(shí)幻馁,一定要先刪除data數(shù)據(jù)和log日志,然后再格式化NameNode越锈。
(4)操作集群
?(a)在HDFS
文件系統(tǒng)上創(chuàng)建一個(gè)input
文件夾 :bin/hdfs dfs -mkdir -p /user/xxx/input
?(b)將測(cè)試文件內(nèi)容上傳到文件系統(tǒng)上 :bin/hdfs dfs -put wcinput/wc.input
?(c)查看上傳的文件是否正確 :bin/hdfs dfs -ls /user/xxx/input/
bin/hdfs dfs -cat /user/xxx/ input/wc.input
?(d)運(yùn)行MapReduce程序 :bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input/ /user/xxx/output
?(e)查看輸出結(jié)果 :bin/hdfs dfs -cat /user/xxx/output/*
- 啟動(dòng)
YARN
并運(yùn)行MapReduce
程序
- 分析
(1)配置集群在YARN
上運(yùn)行MR
(2)啟動(dòng)仗嗦、測(cè)試集群增、刪甘凭、查
(3)在YARN
上執(zhí)行WordCount
案例- 執(zhí)行步驟
(1)配置集群
?(a)配置yarn-env.sh
配置一下JAVA_HOME
:export JAVA_HOME=/opt/module/jdk1.8.0_144
?(b)配置yarn-site.xml
?(c)配置:mapred-env.sh
配置一下JAVA_HOME
:export JAVA_HOME=/opt/module/jdk1.8.0_144
?(d)配置: (對(duì)mapred-site.xml.template
重新命名為)mapred-site.xml
mv mapred-site.xml.template mapred-site.xml vim mapred-site.xml <!-- 指定MR運(yùn)行在YARN上 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
(2)啟動(dòng)集群
?(a)啟動(dòng)前必須保證NameNode
和DataNode
已經(jīng)啟動(dòng)
?(b)啟動(dòng)ResourceManager
:sbin/yarn-daemon.sh start resourcemanager
?(c)啟動(dòng)NodeManager
:sbin/yarn-daemon.sh start nodemanager
(3)集群操作
?(a)YARN
的瀏覽器頁(yè)面查看 :http://hadoop101:8088/cluster
?(b)刪除文件系統(tǒng)上的output
文件 :bin/hdfs dfs -rm -R /user/xxx/output
?(c)執(zhí)行MapReduce
程序bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input /user/xxx/output
?(d)查看運(yùn)行結(jié)果 :bin/hdfs dfs -cat /user/xxx/output/*
- 配置歷史服務(wù)器 : 為了查看程序的歷史運(yùn)行情況稀拐,需要配置一下歷史服務(wù)器。具體配置步驟如下
- 配置
mapred-site.xml
:vim mapred-site.xml
# 在該文件里面增加如下配置 <!-- 歷史服務(wù)器端地址 --> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop101:10020</value> </property> <!-- 歷史服務(wù)器web端地址 --> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop101:19888</value> </property>
- 啟動(dòng)歷史服務(wù)器 :
sbin/mr-jobhistory-daemon.sh start historyserver
- 查看歷史服務(wù)器是否啟動(dòng) :
jps
- 查看
JobHistory
:http://hadoop101:19888/jobhistory
- 配置日志的聚集
日志聚集概念:應(yīng)用運(yùn)行完成以后丹弱,將程序運(yùn)行日志信息上傳到HDFS系統(tǒng)上德撬。
日志聚集功能好處:可以方便的查看到程序運(yùn)行詳情,方便開發(fā)調(diào)試躲胳。
注意:開啟日志聚集功能蜓洪,需要重新啟動(dòng)NodeManager 、ResourceManager和HistoryManager泛鸟。
開啟日志聚集功能具體步驟如下:
- 配置
yarn-site.xml
:vim yarn-site.xml
# 在該文件里面增加如下配置蝠咆。 <!-- 日志聚集功能使能 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 日志保留時(shí)間設(shè)置7天 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>
- 關(guān)閉
NodeManager
踊东、ResourceManager
和HistoryServer
sbin/yarn-daemon.sh stop resourcemanager sbin/yarn-daemon.sh stop nodemanager sbin/mr-jobhistory-daemon.sh stop historyserver
- 啟動(dòng)
NodeManager
北滥、ResourceManager
和HistoryServer
sbin/yarn-daemon.sh start resourcemanager sbin/yarn-daemon.sh start nodemanager sbin/mr-jobhistory-daemon.sh start historyserver
- 刪除
HDFS
上已經(jīng)存在的輸出文件 :bin/hdfs dfs -rm -R /user/xxx/output
- 執(zhí)行
WordCount
程序 :hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input /user/xxx/output
- 查看日志 :
http://hadoop101:19888/jobhistory
- 配置文件說明
Hadoop
配置文件分兩類:默認(rèn)配置文件和自定義配置文件,只有用戶想修改某一默認(rèn)配置值時(shí)闸翅,才需要修改自定義配置文件再芋,更改相應(yīng)屬性值。(1)默認(rèn)配置文件:
(2)自定義配置文件:
??core-site.xml
坚冀、hdfs-site.xml
济赎、yarn-site.xml
、mapred-site.xml
四個(gè)配置文件存放在$HADOOP_HOME/etc/hadoop
這個(gè)路徑上记某,用戶可以根據(jù)項(xiàng)目需求重新進(jìn)行修改配置司训。