0基礎搭建Hadoop大數據處理-集群安裝

經過一系列的前期環(huán)境準備僵朗,現在可以開始Hadoop的安裝了壤蚜,在這里去apache官網下載2.7.3的版本http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

不需要下載最新的3.0版本转绷, 與后續(xù)Hive最新版本有沖突悼瓮,不知道是不是自己的打開方式不對戈毒。

hadoop有三種運行方式:單機、偽分布式横堡、完全分布式埋市,本文介紹完全分布式。

安裝Hadoop

現在有三個機器命贴,一個Master H32道宅,兩個Slaver H33、H34胸蛛。

將下載的壓縮包上傳到解壓并移動至Master機器的相應目錄污茵。

將軟件放置/usr/local目錄下:

tar -zxvf hadoop-2.7.3.tar.gz

mv hadoop-2.7.3 hadoop273

創(chuàng)建hadoop用戶組和用戶

[root@H32 local]#groupadd hadoop #添加hadoop組[root@H32 local]#useradd -g hadoop hadoop -s /bin/false

將該hadoop文件夾的屬主用戶設為hadoop

sudo chown -R hadoop:hadoop /usr/local/hadoop273

配置文件之前先大體介紹一下hadoop2目錄中的各個文件夾,注意區(qū)分與Hadoop1中的改變葬项。

外層的啟動腳本在sbin目錄

內層的被調用腳本在bin目錄

Native的so文件都在lib/native目錄

配置程序文件都放置在libexec

配置文件都在etc目錄泞当,對應以前版本的conf目錄

所有的jar包都在share/hadoop目錄下面

創(chuàng)建Hadoop數據目錄:

mkdir -p /usr/local/hadoop273/hdfs/name

mkdir-p /usr/local/hadoop273/hdfs/data

若不配置,Hadoop默認將數據存儲在tmp文件夾中民珍,重啟會清空tmp數據襟士,因此單獨配置其數據存儲文件夾,具體使用配置在下面XML中嚷量。

配置環(huán)境變量

/etc/profile?增加如下內容:

export HADOOP_HOME=/usr/local/hadoop273

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export HADOOP_MAPARED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export HADOOP_YARN_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export LD_LIBRARY_PATH=${HADOOP_HOME}/lib/native/:$LD_LIBRARY_PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

執(zhí)行執(zhí)行source /etc/profile陋桂,使之生效

修改slaves文件,添加子節(jié)點服務名或IP

$HADOOP_HOME/etc/hadoop/slaves?(Master主機特有蝶溶,子節(jié)點可以不加)

H33

H34

或寫對應的IP

192.168.80.33

192.168.80.34

hadoop-env.sh中配置java_home

export JAVA_HOME=/usr/local/java/jdk1.8.0_101

讓環(huán)境變量配置生效source

source /usr/local/hadoop3/etc/hadoop/hadoop-env.sh

Hadoop配置文件在conf目錄下嗜历,之前的版本的配置文件主要是Hadoop-default.xml和Hadoop-site.xml。

由于Hadoop發(fā)展迅速,代碼量急劇增加秸脱,代碼開發(fā)分為了core落包,hdfs和map/reduce三部分部蛇,配置文件也被分成了三個core-site.xml摊唇、hdfs-site.xml、mapred-site.xml涯鲁。

core-site.xml和hdfs-site.xml是站在HDFS角度上配置文件巷查;core-site.xml和mapred-site.xml是站在MapReduce角度上配置文件。

core-site.xml配置如下(經過多次坑最后能穩(wěn)定跑的配置抹腿,說多了都是淚)


單獨創(chuàng)建tmp文件夾hadoop_tmp 給 hadoop.tmp.dir 用于跟普通數據隔離岛请。

hdfs-site.xml


mapred-site.xml


yarn-site.xml


注意黃色標志,要classpath一定是絕對路徑警绩,不要用$HADOOP_HOME崇败,運行會一直提示找不到相關類錯誤,至此master節(jié)點的hadoop搭建完畢肩祥。

搭建剩余節(jié)點

現在在Master機器上的Hadoop配置就結束了后室,剩下的就是配置Slave機器上的Hadoop。

將 Master上配置好的hadoop所在文件夾"/usr/local/hadoop273"復制到所有的Slave的"/usr/local"目錄下(實際上Slave機器上的slavers文件是不必要的混狠, 復制了也沒問題)岸霹。用下面命令格式進行。(備注:此時用戶可以為hadoop也可以為root)

把H32的hadoop目錄下的logs和tmp刪除将饺,再把H32中的jdk贡避、hadoop文件夾復制到H33和H34節(jié)點

scp -r /usr/local/hadoop273 root@H33:/usr/local

例如:從"Master.Hadoop"到"Slave1.Hadoop"復制配置Hadoop的文件。

上圖中以root用戶進行復制予弧,當然不管是用戶root還是hadoop刮吧,雖然Master機器上的"/usr/local/hadoop273"文件夾用戶hadoop有權限,但是Slave1上的hadoop用戶卻沒有"/usr/local"權限掖蛤,所以沒有創(chuàng)建文件夾的權限皇筛。所以無論是哪個用戶進行拷貝,右面都是"root@機器IP"格式坠七。因為我們只是建立起了hadoop用戶的SSH無密碼連接水醋,所以用root進行"scp"時,扔提示讓你輸入"Slave1.Hadoop"服務器用戶root的密碼彪置。

查看"Slave1.Hadoop"服務器的"/usr/local"目錄下是否已經存在"hadoop"文件夾拄踪,確認已經復制成功。

hadoop文件夾確實已經復制了拳魁,但是我們發(fā)現hadoop權限是root惶桐,所以我們現在要給"Slave1.Hadoop"服務器上的用戶hadoop添加對"/usr/local/hadoop"讀權限。

以上配置完成后,將hadoop整個文件夾復制到其他機器姚糊。

啟動hadoop

1.格式化namenode

hdfs namenode -format 只需一次贿衍,下次啟動不再需要格式化,只需 start-all.sh

若沒有設置路徑$HADOOP_HOME/bin為環(huán)境變量救恨,則需在$HADOOP_HOME路徑下執(zhí)行

bin/hdfs namenode -format

2.啟動dfs及yarn

start-dfs.sh 在啟動前關閉集群中所有機器的防火墻贸辈,不然會出現datanode開后又自動關閉(暫未發(fā)現) service iptables stop

start-yarn.sh

若沒有設置路徑$HADOOP_HOME/sbin為環(huán)境變量,則需在$HADOOP_HOME路徑下執(zhí)行

sbin/start-dfs.sh

sbin/start-yarn.sh

或 直接start-all.sh都啟動

另外還要啟動history服務肠槽,不然在面板中不能打開history鏈接擎淤。

sbin/mr-jobhistory-daemon.sh start historyserver

停止集群

sbin/stop-dfs.sh

sbin/stop-yarn.sh

或 直接stop-all.sh

下面使用jps命令查看啟動進程:

4504 ResourceManager

4066 DataNode

4761 NodeManager

5068 JobHistoryServer

4357 SecondaryNameNode

3833 NameNode

5127 Jps

打開監(jiān)控頁面

現在便可以打開頁面http://192.168.80.32:8088及http://192.168.80.32:50070;看到下面兩個頁面時說明安裝成功秸仙。

測試

hdfs測試:

在root中創(chuàng)建文件:

~/hadoop-test-data.txt

向hdfs中上傳文件:

bin/hadoop fs -put ~/hadoop-test-data.txt /tmp/input

查看hdfs文件目錄:

hdfs dfs –ls /

移除文件命令:

hadoop fs -rm -r /tmp/input

Yarn測試:

運行WordCount測試程序嘴拢,output為輸出文件。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /tmp/input output

運行過程出現下面內容寂纪,沒有錯誤提示說明正常:

具體查看結果:

查看生成列表席吴,會有兩個文件,主要查看part-r-00000

hadoop fs -ls output/

hadoop fs -cat output/part-r-00000

結果顯示:

hadoop 1

hello 2

java 4

jsp 1

到這里捞蛋,hadoop-2環(huán)境搭建結束孝冒,配置文件根據具體需求,具體配置襟交。

查看集群狀態(tài):

[root@H32 hadoop273]$ ./bin/hdfs dfsadmin -report

MapReduce Application Master界面:

Map Task運行狀況:

某個Node上各個Container狀態(tài):

擴展

以下列布署過程中遇到的幾個常見問題迈倍,加了網上一些網友的內容。

解決"no datanode to stop"問題

當停止Hadoop時發(fā)現如下信息:

原因:每次namenode format會重新創(chuàng)建一個namenodeId捣域,而tmp/dfs/data下包含了上次format下的id啼染,namenode format清空了namenode下的數據,但是沒有清空datanode下的數據焕梅,導致啟動時失敗迹鹅,所要做的就是每次fotmat前,清空tmp一下的所有目錄贞言。

第一種解決方案如下:

1)先刪除"/usr/hadoop/tmp"

rm -rf /usr/hadoop/tmp

2)創(chuàng)建"/usr/hadoop/tmp"文件夾

mkdir /usr/hadoop/tmp

3)刪除"/tmp"下以"hadoop"開頭文件

rm -rf /tmp/hadoop*

4)重新格式化hadoop

hadoop namenode -format

5)啟動hadoop

start-all.sh

使用第一種方案斜棚,有種不好處就是原來集群上的重要數據全沒有了。假如說Hadoop集群已經運行了一段時間该窗。建議采用第二種弟蚀。

第二種方案如下:

1)修改每個Slave的namespaceID使其與Master的namespaceID一致。

或者

2)修改Master的namespaceID使其與Slave的namespaceID一致酗失。

該"namespaceID"位于"/usr/hadoop/tmp/dfs/data/current/VERSION"文件中义钉,前面藍色的可能根據實際情況變化,但后面紅色是不變的规肴。

例如:查看"Master"下的"VERSION"文件

本人建議采用第二種捶闸,這樣方便快捷夜畴,而且還能防止誤刪。

Slave服務器中datanode啟動后又自動關閉

查看日志發(fā)下如下錯誤删壮。

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to ... failed on local exception: java.net.NoRouteToHostException: No route to host

解決方案是:關閉防火墻

service iptables stop

從本地往hdfs文件系統(tǒng)上傳文件

出現如下錯誤:

INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink

INFO hdfs.DFSClient: Abandoning block blk_-1300529705803292651_37023

WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Unable to create new block.

解決方案是:

1)關閉防火墻

service iptables stop

2)禁用selinux

編輯 "/etc/selinux/config"文件贪绘,設置"SELINUX=disabled"

處理速度特別的慢

出現map很快,但是reduce很慢央碟,而且反復出現"reduce=0%"税灌。

解決方案如下:

結合解決方案5.7,然后修改"conf/hadoop-env.sh"中的"export HADOOP_HEAPSIZE=4000"

解決hadoop OutOfMemoryError問題

出現這種異常硬耍,明顯是jvm內存不夠得原因垄琐。

解決方案如下:要修改所有的datanode的jvm內存大小边酒。

Java –Xms 1024m -Xmx 4096m

一般jvm的最大內存使用應該為總內存大小的一半经柴,我們使用的8G內存,所以設置為4096m墩朦,這一值可能依舊不是最優(yōu)的值坯认。

Namenode in safe mode

解決方案如下:

bin/hadoop dfsadmin -safemode leave

IO寫操作出現問題

0-1246359584298, infoPort=50075, ipcPort=50020):Got exception while serving blk_-5911099437886836280_1292 to /172.16.100.165:

java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write. ch : java.nio.channels.SocketChannel[connected local=/

172.16.100.165:50010 remote=/172.16.100.165:50930]

at org.apache.hadoop.net.SocketIOWithTimeout.waitForIO(SocketIOWithTimeout.java:185)

at org.apache.hadoop.net.SocketOutputStream.waitForWritable(SocketOutputStream.java:159)

……

It seems there are many reasons that it can timeout, the example given in HADOOP-3831 is a slow reading client.

解決方案如下:

在hadoop-site.xml中設置dfs.datanode.socket.write.timeout=0

java.net.NoRouteToHostException: No Route to Host from H32/192.168.80.32 to H30:40080 failed on socket timeout exception: java.net.NoRouteToHostException: 沒有到主機的路由;

關閉to H30的防火墻,或不能訪問H30服務器氓涣,重啟H30

This token is expired. current time is 1489243761235 found 1489239661109

Note: System times on machines may be out of sync. Check system time and time zones.

兩個主機的時間不一致牛哺,重置兩個主機的時間,重置方法網上有很多劳吠。

啟動hadoop時沒有NameNode的可能原因:

(1) NameNode沒有格式化

(2) 環(huán)境變量配置錯誤

(3) Ip和hostname綁定失敗

(4)hostname含有特殊符號如何.(符號點)引润,會被誤解析

地址占用

報錯:org.apache.hadoop.hdfs.server.namenode.NameNode: Address already in use

解決方法:查找被占用的端口號對應的PID:netstat –tunl

Pkill -9 PID

實在不行就killall -9 java

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市痒玩,隨后出現的幾起案子淳附,更是在濱河造成了極大的恐慌,老刑警劉巖蠢古,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件奴曙,死亡現場離奇詭異,居然都是意外死亡草讶,警方通過查閱死者的電腦和手機洽糟,發(fā)現死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來堕战,“玉大人坤溃,你說我怎么就攤上這事≈龆” “怎么了薪介?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長屿讽。 經常有香客問我昭灵,道長吠裆,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任烂完,我火速辦了婚禮试疙,結果婚禮上,老公的妹妹穿的比我還像新娘抠蚣。我一直安慰自己祝旷,他們只是感情好,可當我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布嘶窄。 她就那樣靜靜地躺著怀跛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柄冲。 梳的紋絲不亂的頭發(fā)上吻谋,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天,我揣著相機與錄音现横,去河邊找鬼漓拾。 笑死,一個胖子當著我的面吹牛戒祠,可吹牛的內容都是我干的骇两。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼姜盈,長吁一口氣:“原來是場噩夢啊……” “哼低千!你這毒婦竟也來了?” 一聲冷哼從身側響起馏颂,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤示血,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后饱亮,有當地人在樹林里發(fā)現了一具尸體矾芙,經...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年近上,在試婚紗的時候發(fā)現自己被綠了剔宪。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡壹无,死狀恐怖葱绒,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情斗锭,我是刑警寧澤地淀,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站岖是,受9級特大地震影響帮毁,放射性物質發(fā)生泄漏实苞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一烈疚、第九天 我趴在偏房一處隱蔽的房頂上張望黔牵。 院中可真熱鬧,春花似錦爷肝、人聲如沸猾浦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽金赦。三九已至,卻和暖如春对嚼,著一層夾襖步出監(jiān)牢的瞬間夹抗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工猪半, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留兔朦,地道東北人偷线。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓磨确,卻偏偏與公主長得像,于是被迫代替她去往敵國和親声邦。 傳聞我的和親對象是個殘疾皇子乏奥,可洞房花燭夜當晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內容