2_大數(shù)據(jù)之Hadoop入門

一大數(shù)據(jù)概論

1??概念
??大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)的軟件工具進(jìn)行捕捉,管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力,洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量,高增長(zhǎng)率和多樣化的信息資產(chǎn).
2??解決的問題
??海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問題.
3??存儲(chǔ)單位(按照從小到大的順序排列)
??單位 : bit<Byte<K<MB<GB<TB<PB<EB<ZB<YB<BB<NB<DB
4??進(jìn)制換算
??1bit * 8 = 1Byte * 1024 = 1K * 1024 = 1MB * 1024 = 1GB ......
5??大數(shù)據(jù)特點(diǎn)
?1.大量 : 截止目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量大約200PB,而歷史上全人類總共說過的話的數(shù)據(jù)量大約是5EB.當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí);
?2. 高速 : 這是大數(shù)據(jù)區(qū)分于傳統(tǒng)挖掘的最顯著特征.根據(jù)IDC的"數(shù)字宇宙"的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB.在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命.
?3. 多樣 : 這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù).相對(duì)于以往便于存儲(chǔ)的以數(shù)據(jù)庫(kù),文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志,音頻,視頻,圖片,地理位置信息等這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求.
?4. 低價(jià)值密度 : 價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比.比如在一天的監(jiān)控視頻中我們只關(guān)心其中某一個(gè)時(shí)間段所發(fā)生的事情,如何快速對(duì)有價(jià)值的數(shù)據(jù)"提純"稱為目前大數(shù)據(jù)背景下待解決的難題.
6??大數(shù)據(jù)應(yīng)用場(chǎng)景
?1. 物流倉(cāng)儲(chǔ) :大數(shù)據(jù)分析系統(tǒng)助力商家精細(xì)化運(yùn)營(yíng),提升銷量,節(jié)約成本.
?2. 零售 : 分析用戶消費(fèi)習(xí)慣,為用戶購(gòu)買商品提供方便,從而提升商品銷量.
?3. 旅游 : 深度結(jié)合大數(shù)據(jù)能力與旅游行業(yè)需求,共建旅游產(chǎn)業(yè)智慧管理,智慧服務(wù)和智慧營(yíng)銷的未來.
?4. 商品廣告推薦 : 給用戶推薦可能喜歡的商品.
?5. 保險(xiǎn) : 海量數(shù)據(jù)挖掘及風(fēng)險(xiǎn)預(yù)測(cè),助力保險(xiǎn)行業(yè)精準(zhǔn)營(yíng)銷,提升精細(xì)化定價(jià)能力.
?6. 金融 : 多維度體現(xiàn)用戶特征,幫助金融機(jī)構(gòu)推薦優(yōu)質(zhì)客戶,防范欺詐風(fēng)險(xiǎn).
?7. 人工智能 : 無人駕駛,BI等.
?8. 其他行業(yè) : 比如房產(chǎn)等.
7??大數(shù)據(jù)部門常見組織結(jié)構(gòu)(適用于部分企業(yè))

二 Hadoop簡(jiǎn)介

1??Hadoop是什么?

2??Hadoop發(fā)展歷史
??Hadoop百度百科
3??Hadoop三大發(fā)行版本介紹
?1. Hadoop三大發(fā)行版本：Apache、Cloudera、Hortonworks栋荸。
??Apache版本最原始（最基礎(chǔ)）的版本，對(duì)于入門學(xué)習(xí)最好铜靶。
??Cloudera在大型互聯(lián)網(wǎng)企業(yè)中用的較多。
??Hortonworks文檔較好。
?2. Apache Hadoop
??官網(wǎng)地址：http://hadoop.apache.org/releases.html
??下載地址：https://archive.apache.org/dist/hadoop/common/
?3. Cloudera Hadoop
??官網(wǎng)地址：https://www.cloudera.com/downloads/cdh/5-10-0.html
??下載地址：http://archive-primary.cloudera.com/cdh5/cdh/5/
?4. Hortonworks Hadoop
??官網(wǎng)地址：https://hortonworks.com/products/data-center/hdp/
??下載地址：https://hortonworks.com/downloads/#data-platform
4??Hadoop的優(yōu)勢(shì)

5??Hadoop的組成

?1. HDFS架構(gòu)概述

?2. YARN架構(gòu)概述

?3. MapReduce架構(gòu)概述
??MapReduce將計(jì)算過程分為兩個(gè)階段：Map和Reduce.
??1）Map階段并行處理輸入數(shù)據(jù)
??2）Reduce階段對(duì)Map結(jié)果進(jìn)行匯總

6??大數(shù)據(jù)技術(shù)生態(tài)體系

?圖中涉及的技術(shù)名詞解釋如下：
?1）Sqoop：Sqoop是一款開源的工具，主要用于在Hadoop睛廊、Hive與傳統(tǒng)的數(shù)據(jù)庫(kù)(MySql)間進(jìn)行數(shù)據(jù)的傳遞，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)（例如：MySQL贩挣，Oracle 等）中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中没酣。
?2）Flume：Flume是Cloudera提供的一個(gè)高可用的王财，高可靠的，分布式的海量日志采集裕便、聚合和傳輸?shù)南到y(tǒng)绒净，Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)偿衰；同時(shí)挂疆，Flume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理，并寫到各種數(shù)據(jù)接受方（可定制）的能力下翎。
?3）Kafka：Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)缤言，有如下特性：
??（1）通過O(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化，這種結(jié)構(gòu)對(duì)于即使數(shù)以TB的消息存儲(chǔ)也能夠保持長(zhǎng)時(shí)間的穩(wěn)定性能视事。
??（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒數(shù)百萬的消息胆萧。
??（3）支持通過Kafka服務(wù)器和消費(fèi)機(jī)集群來分區(qū)消息。
??（4）支持Hadoop并行數(shù)據(jù)加載俐东。
?4）Storm：Storm用于“連續(xù)計(jì)算”跌穗，對(duì)數(shù)據(jù)流做連續(xù)查詢，在計(jì)算時(shí)就將結(jié)果以流的形式輸出給用戶虏辫。
?5）Spark：Spark是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框架蚌吸。可以基于Hadoop上存儲(chǔ)的大數(shù)據(jù)進(jìn)行計(jì)算砌庄。
?6）Oozie：Oozie是一個(gè)管理Hdoop作業(yè)（job）的工作流程調(diào)度管理系統(tǒng)羹唠。
?7）Hbase：HBase是一個(gè)分布式的奕枢、面向列的開源數(shù)據(jù)庫(kù)。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù)肉迫，它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)验辞。
?8）Hive：Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表喊衫，并提供簡(jiǎn)單的SQL查詢功能跌造，可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低族购，可以通過類SQL語句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì)壳贪，不必開發(fā)專門的MapReduce應(yīng)用，十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析寝杖。
?9）R語言：R是用于統(tǒng)計(jì)分析违施、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個(gè)自由瑟幕、免費(fèi)磕蒲、源代碼開放的軟件，它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具只盹。
?10）Mahout：Apache Mahout是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù)辣往。
?11）ZooKeeper：Zookeeper是Google的Chubby一個(gè)開源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)殖卑，提供的功能包括：配置維護(hù)站削、名字服務(wù)、分布式同步孵稽、組服務(wù)等许起。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù)，將簡(jiǎn)單易用的接口和性能高效菩鲜、功能穩(wěn)定的系統(tǒng)提供給用戶园细。
7??推薦系統(tǒng)框架圖

三 Hadoop運(yùn)行環(huán)境搭建

1??虛擬機(jī)環(huán)境初始化

克隆虛擬機(jī)

修改克隆虛擬機(jī)的靜態(tài)IP

修改主機(jī)名

關(guān)閉防火墻

創(chuàng)建一般用戶

配置一般用戶具有root權(quán)限

在/opt目錄下創(chuàng)建文件夾
?① 在/opt目錄下創(chuàng)建module、software文件夾
?② 修改module接校、software文件夾的所有者及組

#!/bin/bash

#環(huán)境初始化腳本
#讀取用戶輸入
read -t 10 -p "Enter your user name in 10 seconds " username
read -t 10 -p "Enter your folder name in 10 seconds " foldernameone
read -t 10 -p "Enter your folder name in 10 seconds " foldernametwo
read -t 10 -p "Enter your starting value in 10 seconds " minvalue
read -t 10 -p "Enter your end value in 10 seconds " maxvalue
read -t 10 -p "Enter your ip number in 10 seconds " ip


#關(guān)閉防火墻
echo "關(guān)閉防火墻"
service iptables stop
chkconfig iptables off

#創(chuàng)建一個(gè)一般用戶
echo "創(chuàng)建一般用戶"
useradd $username
echo "123456" | passwd $username --stdin

#創(chuàng)建目錄
echo "創(chuàng)建目錄"
mkdir /opt/$foldernameone /opt/$foldernametwo
chown $username:$username /opt/$foldernameone /opt/$foldernametwo

#加入Sudoers
echo "加入Sudoers"
sed -i "/^root/a $username ALL=(ALL)       NOPASSWD: ALL" /etc/sudoers


lan=`ifconfig | grep Bcast | cut -d . -f 3`
#改Host
echo "修改hosts"
for ((i=$minvalue;i<$maxvalue;i++))
do
    echo "192.168.$lan.$i hadoop$i" >> /etc/hosts
done

#改網(wǎng)卡
echo "修改網(wǎng)卡"
cat <<EOF >/etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.$lan.$ip
PREFIX=24
GATEWAY=192.168.$lan.2
DNS1=192.168.$lan.2
NAME=eth0
EOF

#改主機(jī)名
echo "修改主機(jī)"
sed -i "s/HOSTNAME=.*/HOSTNAME=hadoop$ip/g" /etc/sysconfig/network

#改網(wǎng)卡腳本
echo "修改網(wǎng)卡"
sed -i '/eth0/d' /etc/udev/rules.d/70-persistent-net.rules 
sed -i 's/eth1/eth0/g' /etc/udev/rules.d/70-persistent-net.rules

#重啟使配置生效
reboot

2??安裝JDK

查詢是否安裝JDKrpm -qa | grep java

卸載系統(tǒng)自帶JDKrpm -e software_name

下載JDK到指定目錄/opt/sofrware

解壓JDK到指定目錄/opt/module目錄下tar -zxvf software_name -C /opt/module

配置JDK環(huán)境變量
?5.1 獲取JDK路徑pwd
?5.2 打開/etc/profile文件
?5.3 在profile文件末尾添加JDK路徑
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
保存退出:wq

重新加載配置文件使修改生效source /etc/profile

測(cè)試JDK是否安裝成功java -version

如果以上步驟沒有問題第8步不能正常使用則重啟嘗試

3??安裝Hadoop

下載Hadoop到/opt/software目錄此處版本為2.7.2

進(jìn)入到Hadoop安裝包路徑下cd /opt/software/

解壓安裝文件到/opt/module下tar -zxvf software_name -C /opt/module

配置Hadoop環(huán)境變量
?4.1 獲取Hadoop安裝路徑 pwd
?4.2 打開/etc/profile文件 vim /etc/profile
?4.3 在profile文件末尾添加環(huán)境變量
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
保存后退出 :wq

重新加載配置文件使修改生效source /etc/profile

測(cè)試是否安裝成功hadoop version

如果以上步驟沒有問題第7步不能正常使用則重啟嘗試

4??Hadoop目錄結(jié)構(gòu)

查看Hadoop目錄結(jié)構(gòu)
ll /opt/module/hadoop-2.7.2
總用量 52
drwxr-xr-x. 2 xxx xxx  4096 5月  22 2017 bin
drwxr-xr-x. 3 xxx xxx  4096 5月  22 2017 etc
drwxr-xr-x. 2 xxx xxx  4096 5月  22 2017 include
drwxr-xr-x. 3 xxx xxx  4096 5月  22 2017 lib
drwxr-xr-x. 2 xxx xxx  4096 5月  22 2017 libexec
-rw-r--r--. 1 xxx xxx 15429 5月  22 2017 LICENSE.txt
-rw-r--r--. 1 xxx xxx   101 5月  22 2017 NOTICE.txt
-rw-r--r--. 1 xxx xxx  1366 5月  22 2017 README.txt
drwxr-xr-x. 2 xxx xxx  4096 5月  22 2017 sbin
drwxr-xr-x. 4 xxx xxx  4096 5月  22 2017 share
重要目錄簡(jiǎn)介
(1)bin目錄:存放對(duì)Hadoop相關(guān)服務(wù)(HDFS,YARN)進(jìn)行操作的腳本;
(2)etc目錄:Hadoop的配置文件目錄,存放Hadoop的配置文件;
(3)lib目錄:存放Hadoop的本地庫(kù)(對(duì)數(shù)據(jù)進(jìn)行壓縮解壓縮功能);
(4)sbin目錄:存放啟動(dòng)或停止Hadoop相關(guān)服務(wù)的腳本;
(5)share目錄:存放Hadoop的依賴jar包珊肃、文檔、和官方案例;

四 Hadoop運(yùn)行模式

Hadoop運(yùn)行模式包括 : 本地模式偽分布式模式以及完全分布式模式.
Hadoop官方網(wǎng)站 : http://hadoop.apache.org

1??本地運(yùn)行模式

官方Grep案例
① 在hadoop-2.7.2文件下面創(chuàng)建一個(gè)input文件夾
mkdir input
?② 將hadoop的xml配置文件復(fù)制到input
cp etc/hadoop/*.xml input
?③ 執(zhí)行share目錄下的MapReduce程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
?④ 查看輸出結(jié)果
cat output/*
官方WordCount案例
① 在hadoop-2.7.2文件下面創(chuàng)建一個(gè)wcinput文件夾
mkdir wcinput
?② 在wcinput文件下創(chuàng)建一個(gè)wc.input文件
touch wc.input
?③ 編輯wc.input文件
vim wc.input
# 在文件中輸入如下內(nèi)容
hadoop yarn
hadoop mapreduce
test
test
# : wq 保存退出
?④ 回到Hadoop目錄/opt/module/hadoop-2.7.2
?⑤ 執(zhí)行程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
?⑥ 查看結(jié)果
cat wcoutput/part-r-00000
# 以下為輸出內(nèi)容
test 2
hadoop  2
mapreduce       1
yarn    1

2??偽分布式運(yùn)行模式

啟動(dòng)HDFS并運(yùn)行MapReduce程序

分析
（1）配置集群
（2）啟動(dòng)馅笙、測(cè)試集群增伦乔、刪、查
（3）執(zhí)行WordCount案例

執(zhí)行步驟
（1）配置集群
?（a）配置：hadoop-env.sh
??Linux系統(tǒng)中獲取JDK的安裝路徑：echo $JAVA_HOME
??修改路徑:export JAVA_HOME=/opt/module/jdk1.8.0_144
?（b）配置：core-site.xml

?（c）配置：hdfs-site.xml

（2）啟動(dòng)集群
?（a）格式化NameNode（第一次啟動(dòng)時(shí)格式化董习，以后就不要總格式化）: bin/hdfs namenode -format
?（b）啟動(dòng)NameNode : sbin/hadoop-daemon.sh start namenode
?（c）啟動(dòng)DataNode : sbin/hadoop-daemon.sh start datanode
（3）查看集群
?（a）查看是否啟動(dòng)成功 : jps(注意：jps是JDK中的命令烈和，不是Linux命令。不安裝JDK不能使用jps)
?（b）web端查看HDFS文件系統(tǒng) : http://hadoop101:50070/dfshealth.html%23tab-overview注意：如果不能查看皿淋，看如下帖子處理http://www.cnblogs.com/zlslch/p/6604189.html
?（c）查看產(chǎn)生的Log日志
??當(dāng)前目錄：/opt/module/hadoop-2.7.2/logs
?（d）思考：為什么不能一直格式化NameNode招刹，格式化NameNode恬试，要注意什么？
??注意：格式化NameNode疯暑，會(huì)產(chǎn)生新的集群id,導(dǎo)致NameNode和DataNode的集群id不一致训柴，集群找不到已往數(shù)據(jù)。所以妇拯，格式NameNode時(shí)幻馁，一定要先刪除data數(shù)據(jù)和log日志，然后再格式化NameNode越锈。
（4）操作集群
?（a）在HDFS文件系統(tǒng)上創(chuàng)建一個(gè)input文件夾 : bin/hdfs dfs -mkdir -p /user/xxx/input
?（b）將測(cè)試文件內(nèi)容上傳到文件系統(tǒng)上 : bin/hdfs dfs -put wcinput/wc.input
?（c）查看上傳的文件是否正確 : bin/hdfs dfs -ls /user/xxx/input/ bin/hdfs dfs -cat /user/xxx/ input/wc.input
?（d）運(yùn)行MapReduce程序 : bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input/ /user/xxx/output
?（e）查看輸出結(jié)果 : bin/hdfs dfs -cat /user/xxx/output/*

啟動(dòng)YARN并運(yùn)行MapReduce程序
分析
（1）配置集群在YARN上運(yùn)行MR
（2）啟動(dòng)仗嗦、測(cè)試集群增、刪甘凭、查
（3）在YARN上執(zhí)行WordCount案例

執(zhí)行步驟
（1）配置集群
?（a）配置yarn-env.sh配置一下JAVA_HOME : export JAVA_HOME=/opt/module/jdk1.8.0_144
?（b）配置yarn-site.xml

?（c）配置：mapred-env.sh配置一下JAVA_HOME : export JAVA_HOME=/opt/module/jdk1.8.0_144
?（d）配置： (對(duì)mapred-site.xml.template重新命名為) mapred-site.xml
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>
（2）啟動(dòng)集群
?（a）啟動(dòng)前必須保證NameNode和DataNode已經(jīng)啟動(dòng)
?（b）啟動(dòng)ResourceManager : sbin/yarn-daemon.sh start resourcemanager
?（c）啟動(dòng)NodeManager : sbin/yarn-daemon.sh start nodemanager
（3）集群操作
?（a）YARN的瀏覽器頁(yè)面查看 : http://hadoop101:8088/cluster

?（b）刪除文件系統(tǒng)上的output文件 : bin/hdfs dfs -rm -R /user/xxx/output
?（c）執(zhí)行MapReduce程序 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input /user/xxx/output
?（d）查看運(yùn)行結(jié)果 : bin/hdfs dfs -cat /user/xxx/output/*
配置歷史服務(wù)器 : 為了查看程序的歷史運(yùn)行情況稀拐，需要配置一下歷史服務(wù)器。具體配置步驟如下
配置mapred-site.xml : vim mapred-site.xml
# 在該文件里面增加如下配置

<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop101:10020</value>
</property>

<property>
   <name>mapreduce.jobhistory.webapp.address</name>
   <value>hadoop101:19888</value>
</property>
啟動(dòng)歷史服務(wù)器 : sbin/mr-jobhistory-daemon.sh start historyserver

查看歷史服務(wù)器是否啟動(dòng) : jps

查看JobHistory : http://hadoop101:19888/jobhistory
配置日志的聚集
日志聚集概念：應(yīng)用運(yùn)行完成以后丹弱，將程序運(yùn)行日志信息上傳到HDFS系統(tǒng)上德撬。
日志聚集功能好處：可以方便的查看到程序運(yùn)行詳情，方便開發(fā)調(diào)試躲胳。
注意：開啟日志聚集功能蜓洪，需要重新啟動(dòng)NodeManager 、ResourceManager和HistoryManager泛鸟。
開啟日志聚集功能具體步驟如下：
配置yarn-site.xml : vim yarn-site.xml
# 在該文件里面增加如下配置蝠咆。

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>


<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
關(guān)閉NodeManager踊东、ResourceManager和HistoryServer
sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver
啟動(dòng)NodeManager 北滥、ResourceManager和HistoryServer
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver
刪除HDFS上已經(jīng)存在的輸出文件 : bin/hdfs dfs -rm -R /user/xxx/output

執(zhí)行WordCount程序 : hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/xxx/input /user/xxx/output

查看日志 : http://hadoop101:19888/jobhistory
配置文件說明
Hadoop配置文件分兩類：默認(rèn)配置文件和自定義配置文件，只有用戶想修改某一默認(rèn)配置值時(shí)闸翅，才需要修改自定義配置文件再芋，更改相應(yīng)屬性值。

（1）默認(rèn)配置文件：

（2）自定義配置文件：
??core-site.xml坚冀、hdfs-site.xml济赎、yarn-site.xml、mapred-site.xml四個(gè)配置文件存放在$HADOOP_HOME/etc/hadoop這個(gè)路徑上记某，用戶可以根據(jù)項(xiàng)目需求重新進(jìn)行修改配置司训。

最后編輯于：2019.05.24 20:18:00

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市液南，隨后出現(xiàn)的幾起案子壳猜，更是在濱河造成了極大的恐慌，老刑警劉巖滑凉，帶你破解...
沈念sama閱讀 219,366評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件统扳，死亡現(xiàn)場(chǎng)離奇詭異喘帚，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)咒钟，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,521評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門吹由，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人朱嘴，你說我怎么就攤上這事倾鲫。” “怎么了腕够？”我有些...
開封第一講書人閱讀 165,689評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵级乍，是天一觀的道長(zhǎng)。經(jīng)常有香客問我帚湘，道長(zhǎng)玫荣，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,925評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任大诸，我火速辦了婚禮捅厂，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘资柔。我一直安慰自己焙贷，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,942評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布贿堰。她就那樣靜靜地躺著辙芍，像睡著了一般。火紅的嫁衣襯著肌膚如雪羹与。梳的紋絲不亂的頭發(fā)上故硅，一...
開封第一講書人閱讀 51,727評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音纵搁，去河邊找鬼吃衅。笑死，一個(gè)胖子當(dāng)著我的面吹牛腾誉，可吹牛的內(nèi)容都是我干的徘层。我是一名探鬼主播，決...
沈念sama閱讀 40,447評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼利职，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼趣效！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起猪贪，我...
開封第一講書人閱讀 39,349評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤跷敬，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后哮伟，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體干花，經(jīng)...
沈念sama閱讀 45,820評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡妄帘，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,990評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了池凄。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片抡驼。...
茶點(diǎn)故事閱讀 40,127評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖肿仑，靈堂內(nèi)的尸體忽然破棺而出致盟，到底是詐尸還是另有隱情，我是刑警寧澤尤慰，帶...
沈念sama閱讀 35,812評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布馏锡，位于F島的核電站，受9級(jí)特大地震影響伟端，放射性物質(zhì)發(fā)生泄漏杯道。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,471評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一责蝠、第九天我趴在偏房一處隱蔽的房頂上張望党巾。院中可真熱鬧，春花似錦霜医、人聲如沸齿拂。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,017評(píng)論 0贊 22
一樁弒父案肴敛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽署海。三九已至，卻和暖如春医男，著一層夾襖步出監(jiān)牢的瞬間砸狞，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,142評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工昨登，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留睬罗，地道東北人讶坯。一個(gè)月前我還...
沈念sama閱讀 48,388評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像翼闽，于是被迫代替她去往敵國(guó)和親禽捆。傳聞我的和親對(duì)象是個(gè)殘疾皇子笙什，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,066評(píng)論 2贊 355

2_大數(shù)據(jù)之Hadoop入門

一 大數(shù)據(jù)概論

二 Hadoop簡(jiǎn)介

三 Hadoop運(yùn)行環(huán)境搭建

四 Hadoop運(yùn)行模式

推薦閱讀更多精彩內(nèi)容

一大數(shù)據(jù)概論