Hadoop - 1介紹精拟、環(huán)境搭建及配置

big data介紹

bigdata:

0 分布式
由分布在不同主機(jī)上的進(jìn)程協(xié)同在一起叫编，才能構(gòu)成整個(gè)應(yīng)用世曾。
（同一臺(tái)主機(jī)上的不用進(jìn)程缨恒，他們之間的交互也屬于分布式）

1 海量數(shù)據(jù)

1 bit = 1 位
1 Byte = 8 bit
1 KB = 1024 B
1 M = 1024 K
1 G = 1024 M
1 T = 1024 G
1 P = 1024 T
1 E = 1024 P
1 Z = 1024 E
1 Y = 1024 Z

2 存儲(chǔ)（大數(shù)據(jù)需要解決的問(wèn)題1）

分布式存儲(chǔ)（分割開(kāi)來(lái)存儲(chǔ)）
dfs (distributed file system 分布式文件系統(tǒng)）

3 計(jì)算（大數(shù)據(jù)需要解決的問(wèn)題2）

分布式計(jì)算
mapreduce : map（映射） + reduce（化簡(jiǎn)）

4 hadoop （大象）

創(chuàng)始人Doug Cutting
Apache 下開(kāi)源軟件
是一個(gè)計(jì)算框架特點(diǎn)：
- 分布式（將眾多計(jì)算機(jī)節(jié)點(diǎn)資源協(xié)同起來(lái) 來(lái)完成計(jì)算工作）
- 可靠性（單個(gè)節(jié)點(diǎn)的故障不會(huì)影響整個(gè)系統(tǒng)的運(yùn)行）
- 可伸縮（任何節(jié)點(diǎn)的增加和刪除都不會(huì)影響整個(gè)系統(tǒng)的運(yùn)行即可隨時(shí)增加或減少節(jié)點(diǎn)）
hadoop擅長(zhǎng)領(lǐng)域：搜索引擎、海量數(shù)據(jù)存儲(chǔ)

Hadoop官網(wǎng)點(diǎn)我查看

Hadoop 里面的幾個(gè)點(diǎn)：

介紹
是分布式計(jì)算大規(guī)模數(shù)據(jù)集框架轮听，使用簡(jiǎn)單編程模型肿轨，可從單個(gè)服務(wù)器擴(kuò)展到幾千臺(tái)主機(jī)，每臺(tái)機(jī)器都提供了本地計(jì)算和存儲(chǔ)蕊程，不需要使用硬件來(lái)獲得高可用性椒袍，類(lèi)庫(kù)在應(yīng)用層處理檢測(cè)并處理故障，因此在集群之上獲得HA服務(wù)

HDFS
hadoop distributed file system （GFS）
hadoop 分布式文件系統(tǒng)
去IOE
（IBM + Oracle + EMC）
（用廉價(jià)設(shè)備）
MapReduce
MR
（映射和化簡(jiǎn)藻茂，編程模型）

大數(shù)據(jù)廣泛應(yīng)用：

推薦系統(tǒng)
（愛(ài)奇藝推薦京東推薦 --> 精準(zhǔn)營(yíng)銷(xiāo)）
大數(shù)據(jù)是為企業(yè)創(chuàng)造價(jià)值的驹暑，它不像其他的軟件，是企業(yè)的成本辨赐、負(fù)擔(dān)优俘。

大數(shù)據(jù) 4V（4個(gè)特征）：

Volumn 題量大
（上P級(jí)的數(shù)據(jù) 一般是日志數(shù)據(jù) ）
Variaty 樣式多
（結(jié)構(gòu)化數(shù)據(jù) ）
Velocity // 速度快
Valueless // 價(jià)值密度低

大數(shù)據(jù)面試考核考很多Java基礎(chǔ)！Ｏ菩颉帆焕！

推薦看的書(shū)籍：

目前重點(diǎn)需要看的書(shū)：

Hadoop權(quán)威指南(第3版) 修訂版(帶目錄書(shū)簽) 中文PDF高清晰.png

書(shū)1.png

書(shū)2.png

書(shū)3.png

比較前沿的東西就別指望有中文版翻譯過(guò)來(lái)之后可能就晚了而且翻譯的質(zhì)量有的很差！要去看英文原版
（要掌握計(jì)算機(jī)專(zhuān)業(yè)英語(yǔ)）

環(huán)境搭建

hadoop的安裝：

安裝jdk
- JAVA_HOME
- PATH
安裝hadoop
- tar hadoop.tar.gz
- 配置HADOOP_HOME
- PATH

hadoop 包含4個(gè)模塊：

Hadoop Common: The common utilities that support the other Hadoop modules.
（支持其他模塊的工具模塊為其他模塊提供功能）
Hadoop Distributed File System (HDFS?):
A distributed file system that provides high-throughput access to application data.
（一個(gè)對(duì)應(yīng)用層數(shù)據(jù)提供高吞吐量訪問(wèn)的分布式文件系統(tǒng)，解決存儲(chǔ)問(wèn)題）
Hadoop YARN:
（Yet Another Resource Negotiator叶雹，另一種資源協(xié)調(diào)者财饥，是資源調(diào)度框架）
A framework for job scheduling and cluster resource management.
（作業(yè)調(diào)度和集群資源管理的框架，解決分布式計(jì)算問(wèn)題）
Hadoop MapReduce:
A YARN-based system for parallel processing of large data sets.
（一個(gè)基于yarn系統(tǒng)的對(duì)大數(shù)據(jù)集進(jìn)行并行處理的編程模型技術(shù)）
（編程模型 map階段 + reduce階段）

hadoop至少有5個(gè)進(jìn)程：

HDFS對(duì)應(yīng)的進(jìn)程：

NameNode 名稱(chēng)結(jié)點(diǎn)（簡(jiǎn)稱(chēng)NN）
- 存放目錄
- 是核心結(jié)點(diǎn)折晦，最重要
- 要登錄到遠(yuǎn)程機(jī)器上钥星，把其進(jìn)程啟動(dòng)起來(lái)
DataNode 數(shù)據(jù)結(jié)點(diǎn) （簡(jiǎn)稱(chēng)DN）
- 存放數(shù)據(jù)
SecondaryNameNode 輔助名稱(chēng)結(jié)點(diǎn) （簡(jiǎn)稱(chēng)2NN）
- 存放備份目錄

NN-1

NN-2

NN-3

NN-4

YARN對(duì)應(yīng)的進(jìn)程：

ResourceManager 資源管理器（簡(jiǎn)稱(chēng)RM）
NodeManager 結(jié)點(diǎn)管理器（簡(jiǎn)稱(chēng)NM）

配置Hadoop：

Standalone (or local) mode 獨(dú)立（本地）模式
- 默認(rèn)就是本地模式（不用配置）
- 沒(méi)啟動(dòng)任何java進(jìn)程
- 所有的程序運(yùn)行在一個(gè)jvm中，不需要啟動(dòng)hadoop進(jìn)程满着，應(yīng)用的文件系統(tǒng)就是本地文件系統(tǒng) （查看文件系統(tǒng)命令：hadoop fs -ls）
- There are no daemons running and everything runs in a single JVM. Standalone mode is suitable for running MapReduce programs during development, since it is easy to test and debug them.（用于測(cè)試和開(kāi)發(fā)環(huán)境）
Pseudodistributed mode 偽分布式模式
完全類(lèi)似于完全分布式谦炒，但是只有一個(gè)結(jié)點(diǎn)
- 配置SSH（安全登錄）
  名稱(chēng)結(jié)點(diǎn)NN要登錄到遠(yuǎn)程機(jī)器上要啟動(dòng)其進(jìn)程無(wú)密登錄-->方便
  - 安裝ssh：sudo apt-get install ssh
  - 生成密鑰對(duì)：ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  - 查看生成的公私密鑰：cd ~/.ssh
  - 導(dǎo)入公鑰數(shù)據(jù)到授權(quán)庫(kù)中：
  - cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  - 登錄到localhost：ssh localhost
  - 想從A機(jī)想登錄到B機(jī)器上就要把A的公鑰傳給B：在B機(jī)上nc -l 8888 > id_rsa.pub.s100（其中s100是A機(jī)器的名字）在A機(jī)上：nc s101 8888 < id_rsa.pub（其中s101是B機(jī)器的名字）然后在B機(jī)器上查看id_rsa.pub.s100 已在B中在B中將id_rsa.pub.s100導(dǎo)入其授權(quán)庫(kù)中：cat id_rsa.pub.s100 >> authorized_keys 然后在A機(jī)器中 ssh s101 登錄成功！
  - 格式化hdfs文件系統(tǒng) （只格式化一次就好风喇，不需要每次都格式化）：hadoop namenode -format
  - 啟動(dòng)所有進(jìn)程：start-all.sh
  - 用jps命令查看下所有進(jìn)程（RM NM NN DN 2NN 如果進(jìn)程數(shù)不對(duì)宁改，殺死所有進(jìn)程：stop-all.sh )
  - 創(chuàng)建文件系統(tǒng) hadoop fs -mkdir -p /user/ubuntu/data（ubuntu是用戶名）然后查看文件夾：hadoop fs -ls -R（或 hadoop fs -ls）

偽分布式

安裝ssh注意：
1 禁用wifi
2 關(guān)閉防火墻 (windows 控制面板中找）
3 client 能夠訪問(wèn)外網(wǎng) (ping www.baidu.com)
4 修改ubuntu的軟件源 [/etc/apt/sources.list]
5 安裝ssh：sudo apt-get install ssh
7 查看進(jìn)程，是否啟動(dòng)了ssh服務(wù)：ps -Af | grep ssh
8 ...

其他注意：
在臨時(shí)目錄下別關(guān)機(jī) 別重啟重啟必須重新格式化

啟動(dòng)所有進(jìn)程：
start-all.sh 后用jps命令查看下所有進(jìn)程若么沒(méi)有5個(gè)進(jìn)程（RM NM NN DN 2NN）則說(shuō)明啟動(dòng)失敗失敗原因要去日志里面找 --> (路徑：/hadoop/logs)

Fully distributed mode 完全分布式模式
Hadoop doesn’t actually distinguish between pseudodistributed and fully distributed modes
- 準(zhǔn)備5臺(tái)客戶機(jī)
- 安裝jdk
- 配置java相關(guān)環(huán)境變量（java_home魂莫、path）
- 安裝hadoop
- 配置hadoop相關(guān)環(huán)境變量（hadoop_home还蹲、path）
- 安裝ssh
- 配置文件
- 在集群上分發(fā)以上3個(gè)文件

完全分布式

目標(biāo)：

集群目標(biāo)

scp :
基于ssh的安全的遠(yuǎn)程文件復(fù)制程序
命令：scp -r /soft/* ubuntu@s101:/soft （s101是目標(biāo)計(jì)算機(jī)名稱(chēng)）
缺點(diǎn)：使用scp 符號(hào)連接格式轉(zhuǎn)變成了文件格式
（要避開(kāi)此缺點(diǎn)的坑請(qǐng)看下面的 rsync 命令）

rsync :
命令 man rsync | more 查看 rsync 幫助說(shuō)明：

命令 man rsync | more 后效果

遠(yuǎn)程同步工具主要用于備份和鏡像
支持連接設(shè)備等
速度快避免復(fù)制相同內(nèi)容的文件數(shù)據(jù)

命令rsync /etc/environment root@s101:/etc 復(fù)制環(huán)境變量
命令rsync -rl /soft/* ubuntu@s101:/soft 執(zhí)行復(fù)制（其他參數(shù)請(qǐng)看幫助提示）

使用webui訪問(wèn)hadoop hdfs：
1 hdfs webui：http://localhost:50070/

webui

2 data node : http://localhost:50075

data node

3 2NN : http://localhost:50090

2017-08-03 09-16-42屏幕截圖.png

附圖：
啟動(dòng)所有進(jìn)程、查看所有進(jìn)程：

啟動(dòng)豁鲤、查看所有進(jìn)程

注意進(jìn)程關(guān)閉順序：

進(jìn)程關(guān)閉順序

最后編輯于：2017.12.09 02:57:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末秽誊，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子琳骡，更是在濱河造成了極大的恐慌锅论，老刑警劉巖，帶你破解...
沈念sama閱讀 216,496評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件楣号，死亡現(xiàn)場(chǎng)離奇詭異最易，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)炫狱，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,407評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)藻懒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人视译，你說(shuō)我怎么就攤上這事嬉荆。” “怎么了酷含？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,632評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵鄙早，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我椅亚，道長(zhǎng)限番，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,180評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任呀舔，我火速辦了婚禮弥虐，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己霜瘪，他們只是感情好珠插，可當(dāng)我...
茶點(diǎn)故事閱讀 67,198評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著粥庄，像睡著了一般丧失。火紅的嫁衣襯著肌膚如雪豺妓。梳的紋絲不亂的頭發(fā)上惜互，一...
開(kāi)封第一講書(shū)人閱讀 51,165評(píng)論 1贊 299
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音琳拭，去河邊找鬼训堆。笑死，一個(gè)胖子當(dāng)著我的面吹牛白嘁，可吹牛的內(nèi)容都是我干的坑鱼。我是一名探鬼主播，決...
沈念sama閱讀 40,052評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼絮缅，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼鲁沥！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起耕魄，我...
開(kāi)封第一講書(shū)人閱讀 38,910評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤画恰，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后吸奴，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體允扇，經(jīng)...
沈念sama閱讀 45,324評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,542評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年则奥，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了考润。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,711評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡读处，死狀恐怖糊治，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情罚舱，我是刑警寧澤井辜，帶...
沈念sama閱讀 35,424評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站馆匿，受9級(jí)特大地震影響抑胎，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜渐北，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,017評(píng)論 3贊 326
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一阿逃、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦恃锉、人聲如沸搀菩。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,668評(píng)論 0贊 22
一樁弒父案破托，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)肪跋。三九已至，卻和暖如春土砂，著一層夾襖步出監(jiān)牢的瞬間州既，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,823評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工萝映，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吴叶，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,722評(píng)論 2贊 368
代替公主和親
正文我出身青樓序臂，卻偏偏與公主長(zhǎng)得像蚌卤，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子奥秆，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,611評(píng)論 2贊 353

Hadoop - 1介紹胯究、環(huán)境搭建及配置

Hadoop - 1介紹精拟、環(huán)境搭建及配置

big data介紹

bigdata:

環(huán)境搭建

hadoop至少有5個(gè)進(jìn)程：

推薦閱讀更多精彩內(nèi)容