Hadoop - 1介紹精拟、環(huán)境搭建及配置

big data介紹

bigdata:

0 分布式
由分布在不同主機(jī)上的進(jìn)程協(xié)同在一起叫编,才能構(gòu)成整個(gè)應(yīng)用世曾。
(同一臺(tái)主機(jī)上的不用進(jìn)程缨恒,他們之間的交互也屬于分布式)

1 海量數(shù)據(jù)

  • 1 bit = 1 位
  • 1 Byte = 8 bit
  • 1 KB = 1024 B
  • 1 M = 1024 K
  • 1 G = 1024 M
  • 1 T = 1024 G
  • 1 P = 1024 T
  • 1 E = 1024 P
  • 1 Z = 1024 E
  • 1 Y = 1024 Z

2 存儲(chǔ)(大數(shù)據(jù)需要解決的問(wèn)題1)

  • 分布式存儲(chǔ)(分割開(kāi)來(lái)存儲(chǔ))
  • dfs (distributed file system 分布式文件系統(tǒng))

3 計(jì)算 (大數(shù)據(jù)需要解決的問(wèn)題2)

  • 分布式計(jì)算
  • mapreduce : map(映射) + reduce(化簡(jiǎn))

4 hadoop (大象)

  • 創(chuàng)始人Doug Cutting
  • Apache 下開(kāi)源軟件
  • 是一個(gè)計(jì)算框架 特點(diǎn):
    • 分布式(將眾多計(jì)算機(jī)節(jié)點(diǎn)資源協(xié)同起來(lái) 來(lái)完成計(jì)算工作)
    • 可靠性(單個(gè)節(jié)點(diǎn)的故障不會(huì)影響整個(gè)系統(tǒng)的運(yùn)行)
    • 可伸縮(任何節(jié)點(diǎn)的增加和刪除都不會(huì)影響整個(gè)系統(tǒng)的運(yùn)行 即可隨時(shí)增加或減少節(jié)點(diǎn))
  • hadoop擅長(zhǎng)領(lǐng)域:搜索引擎、海量數(shù)據(jù)存儲(chǔ)

Hadoop官網(wǎng)點(diǎn)我查看

Hadoop 里面的幾個(gè)點(diǎn):

  • 介紹
    是分布式計(jì)算大規(guī)模數(shù)據(jù)集框架轮听,使用簡(jiǎn)單編程模型肿轨,可從單個(gè)服務(wù)器擴(kuò)展到幾千臺(tái)主機(jī),每臺(tái)機(jī)器都提供了本地計(jì)算和存儲(chǔ)蕊程,不需要使用硬件來(lái)獲得高可用性椒袍,類(lèi)庫(kù)在應(yīng)用層處理檢測(cè)并處理故障,因此在集群之上獲得HA服務(wù)
  • HDFS
    hadoop distributed file system (GFS)
    hadoop 分布式文件系統(tǒng)

  • 去IOE
    (IBM + Oracle + EMC)
    (用廉價(jià)設(shè)備)

  • MapReduce
    MR
    (映射和化簡(jiǎn)藻茂,編程模型)

大數(shù)據(jù)廣泛應(yīng)用:

  • 推薦系統(tǒng)
    (愛(ài)奇藝推薦 京東推薦 --> 精準(zhǔn)營(yíng)銷(xiāo))
  • 大數(shù)據(jù)是為企業(yè)創(chuàng)造價(jià)值的驹暑,它不像其他的軟件,是企業(yè)的成本辨赐、負(fù)擔(dān)优俘。

大數(shù)據(jù) 4V(4個(gè)特征):

  • Volumn 題量大
    (上P級(jí)的數(shù)據(jù) 一般是日志數(shù)據(jù) )
  • Variaty 樣式多
    (結(jié)構(gòu)化數(shù)據(jù) )
  • Velocity // 速度快
  • Valueless // 價(jià)值密度低

大數(shù)據(jù)面試考核考很多Java基礎(chǔ)!O菩颉帆焕!

推薦看的書(shū)籍:

目前重點(diǎn)需要看的書(shū):


Hadoop權(quán)威指南(第3版) 修訂版(帶目錄書(shū)簽) 中文PDF高清晰.png
書(shū)1.png
書(shū)2.png
書(shū)3.png

比較前沿的東西 就別指望有中文版 翻譯過(guò)來(lái)之后可能就晚了 而且翻譯的質(zhì)量有的很差! 要去看英文原版
(要掌握計(jì)算機(jī)專(zhuān)業(yè)英語(yǔ))


環(huán)境搭建

hadoop的安裝:

  • 安裝jdk
    • JAVA_HOME
    • PATH
  • 安裝hadoop
    • tar hadoop.tar.gz
    • 配置HADOOP_HOME
    • PATH

hadoop 包含4個(gè)模塊:

  • Hadoop Common: The common utilities that support the other Hadoop modules.
    (支持其他模塊的工具模塊 為其他模塊提供功能)
  • Hadoop Distributed File System (HDFS?):
    A distributed file system that provides high-throughput access to application data.
    (一個(gè)對(duì)應(yīng)用層數(shù)據(jù)提供高吞吐量訪問(wèn)的分布式文件系統(tǒng),解決存儲(chǔ)問(wèn)題)
  • Hadoop YARN:
    (Yet Another Resource Negotiator叶雹,另一種資源協(xié)調(diào)者财饥,是資源調(diào)度框架)
    A framework for job scheduling and cluster resource management.
    (作業(yè)調(diào)度和集群資源管理的框架,解決分布式計(jì)算問(wèn)題)
  • Hadoop MapReduce:
    A YARN-based system for parallel processing of large data sets.
    (一個(gè)基于yarn系統(tǒng)的對(duì)大數(shù)據(jù)集進(jìn)行并行處理的編程模型技術(shù))
    (編程模型 map階段 + reduce階段)
hadoop至少有5個(gè)進(jìn)程:

HDFS對(duì)應(yīng)的進(jìn)程:

  • NameNode 名稱(chēng)結(jié)點(diǎn)(簡(jiǎn)稱(chēng)NN)
    • 存放目錄
    • 是核心結(jié)點(diǎn)折晦,最重要
    • 要登錄到遠(yuǎn)程機(jī)器上钥星,把其進(jìn)程啟動(dòng)起來(lái)
  • DataNode 數(shù)據(jù)結(jié)點(diǎn) (簡(jiǎn)稱(chēng)DN)
    • 存放數(shù)據(jù)
  • SecondaryNameNode 輔助名稱(chēng)結(jié)點(diǎn) (簡(jiǎn)稱(chēng)2NN)
    • 存放備份目錄
NN-1
NN-2
NN-3
NN-4

YARN對(duì)應(yīng)的進(jìn)程:

  • ResourceManager 資源管理器(簡(jiǎn)稱(chēng)RM)
  • NodeManager 結(jié)點(diǎn)管理器 (簡(jiǎn)稱(chēng)NM)

配置Hadoop:

  • Standalone (or local) mode 獨(dú)立(本地)模式

    • 默認(rèn)就是本地模式(不用配置)
    • 沒(méi)啟動(dòng)任何java進(jìn)程
    • 所有的程序運(yùn)行在一個(gè)jvm中,不需要啟動(dòng)hadoop進(jìn)程满着,應(yīng)用的文件系統(tǒng)就是本地文件系統(tǒng) (查看文件系統(tǒng)命令:hadoop fs -ls)
    • There are no daemons running and everything runs in a single JVM. Standalone mode is suitable for running MapReduce programs during development, since it is easy to test and debug them.(用于測(cè)試和開(kāi)發(fā)環(huán)境)
  • Pseudodistributed mode 偽分布式模式
    完全類(lèi)似于完全分布式谦炒,但是只有一個(gè)結(jié)點(diǎn)

    • 配置SSH(安全登錄)
      名稱(chēng)結(jié)點(diǎn)NN要登錄到遠(yuǎn)程機(jī)器上 要啟動(dòng)其進(jìn)程 無(wú)密登錄-->方便
      • 安裝ssh:sudo apt-get install ssh
      • 生成密鑰對(duì):ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
      • 查看生成的公私密鑰:cd ~/.ssh
      • 導(dǎo)入公鑰數(shù)據(jù)到授權(quán)庫(kù)中:
      • cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
      • 登錄到localhost:ssh localhost
      • 想從A機(jī)想登錄到B機(jī)器上 就要把A的公鑰傳給B:在B機(jī)上nc -l 8888 > id_rsa.pub.s100(其中s100是A機(jī)器的名字) 在A機(jī)上:nc s101 8888 < id_rsa.pub(其中s101是B機(jī)器的名字) 然后在B機(jī)器上查看id_rsa.pub.s100 已在B中 在B中將id_rsa.pub.s100導(dǎo)入其授權(quán)庫(kù)中:cat id_rsa.pub.s100 >> authorized_keys 然后在A機(jī)器中 ssh s101 登錄成功!
      • 格式化hdfs文件系統(tǒng) (只格式化一次就好风喇,不需要每次都格式化):hadoop namenode -format
      • 啟動(dòng)所有進(jìn)程:start-all.sh
      • 用jps命令查看下所有進(jìn)程(RM NM NN DN 2NN 如果進(jìn)程數(shù)不對(duì)宁改,殺死所有進(jìn)程:stop-all.sh )
      • 創(chuàng)建文件系統(tǒng) hadoop fs -mkdir -p /user/ubuntu/data(ubuntu是用戶名) 然后查看文件夾:hadoop fs -ls -R(或 hadoop fs -ls)
偽分布式

安裝ssh注意:
1 禁用wifi
2 關(guān)閉防火墻 (windows 控制面板中找)
3 client 能夠訪問(wèn)外網(wǎng) (ping www.baidu.com)
4 修改ubuntu的軟件源 [/etc/apt/sources.list]
5 安裝ssh:sudo apt-get install ssh
7 查看進(jìn)程,是否啟動(dòng)了ssh服務(wù):ps -Af | grep ssh
8 ...

其他注意:
在臨時(shí)目錄下 別關(guān)機(jī) 別重啟 重啟必須重新格式化

啟動(dòng)所有進(jìn)程:
start-all.sh 后 用jps命令查看下所有進(jìn)程 若么沒(méi)有5個(gè)進(jìn)程(RM NM NN DN 2NN) 則說(shuō)明啟動(dòng)失敗 失敗原因要去日志里面找 --> (路徑:/hadoop/logs)

  • Fully distributed mode 完全分布式模式
    Hadoop doesn’t actually distinguish between pseudodistributed and fully distributed modes
    • 準(zhǔn)備5臺(tái)客戶機(jī)
    • 安裝jdk
    • 配置java相關(guān)環(huán)境變量(java_home魂莫、path)
    • 安裝hadoop
    • 配置hadoop相關(guān)環(huán)境變量(hadoop_home还蹲、path)
    • 安裝ssh
    • 配置文件
    • 在集群上分發(fā)以上3個(gè)文件
完全分布式

目標(biāo):


集群目標(biāo)

scp :
基于ssh的 安全的 遠(yuǎn)程文件復(fù)制程序
命令:scp -r /soft/* ubuntu@s101:/soft (s101是目標(biāo)計(jì)算機(jī)名稱(chēng))
缺點(diǎn):使用scp 符號(hào)連接格式 轉(zhuǎn)變成了 文件格式
(要避開(kāi)此缺點(diǎn)的坑 請(qǐng)看下面的 rsync 命令)

rsync :
命令 man rsync | more 查看 rsync 幫助說(shuō)明:

命令 man rsync | more 后效果

  • 遠(yuǎn)程同步工具 主要用于備份和鏡像
  • 支持連接 設(shè)備等
  • 速度快 避免復(fù)制相同內(nèi)容的文件數(shù)據(jù)

命令rsync /etc/environment root@s101:/etc 復(fù)制環(huán)境變量
命令rsync -rl /soft/* ubuntu@s101:/soft 執(zhí)行復(fù)制(其他參數(shù)請(qǐng)看幫助提示)

使用webui訪問(wèn)hadoop hdfs:
1 hdfs webui:http://localhost:50070/

webui

2 data node : http://localhost:50075

data node

3 2NN : http://localhost:50090

2017-08-03 09-16-42屏幕截圖.png

附圖:
啟動(dòng)所有進(jìn)程、查看所有進(jìn)程:


啟動(dòng)豁鲤、查看所有進(jìn)程

注意進(jìn)程關(guān)閉順序:


進(jìn)程關(guān)閉順序
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末秽誊,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子琳骡,更是在濱河造成了極大的恐慌锅论,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件楣号,死亡現(xiàn)場(chǎng)離奇詭異最易,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)炫狱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)藻懒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人视译,你說(shuō)我怎么就攤上這事嬉荆。” “怎么了酷含?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵鄙早,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我椅亚,道長(zhǎng)限番,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任呀舔,我火速辦了婚禮弥虐,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己霜瘪,他們只是感情好珠插,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著粥庄,像睡著了一般丧失。 火紅的嫁衣襯著肌膚如雪豺妓。 梳的紋絲不亂的頭發(fā)上惜互,一...
    開(kāi)封第一講書(shū)人閱讀 51,165評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音琳拭,去河邊找鬼训堆。 笑死,一個(gè)胖子當(dāng)著我的面吹牛白嘁,可吹牛的內(nèi)容都是我干的坑鱼。 我是一名探鬼主播,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼絮缅,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼鲁沥!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起耕魄,我...
    開(kāi)封第一講書(shū)人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤画恰,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后吸奴,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體允扇,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年则奥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了考润。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡读处,死狀恐怖糊治,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情罚舱,我是刑警寧澤井辜,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站馆匿,受9級(jí)特大地震影響抑胎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜渐北,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一阿逃、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦恃锉、人聲如沸搀菩。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)肪跋。三九已至,卻和暖如春土砂,著一層夾襖步出監(jiān)牢的瞬間州既,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工萝映, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吴叶,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓序臂,卻偏偏與公主長(zhǎng)得像蚌卤,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奥秆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容