Hadoop 環(huán)境安裝

Hadoop 簡介

Hadoop是開源的分布式的并行計算平臺挣饥,以MapReduce除师、HDFS為核心的計算框架,HDFS為海量的數(shù)據(jù)提供了存儲扔枫,則MapReduce為海量的數(shù)據(jù)提供了計算汛聚。

Hadoop 架構

20140222160856375.png

(1)Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復雜的海量數(shù)據(jù)并行計算提供了一個簡單的操作和編程接口短荐;
(2)Hive是基于Hadoop的一個工具倚舀,提供完整的SQL查詢叹哭,可以將sql語句轉換為MapReduce任務進行運行;
(3)ZooKeeper:高效的痕貌,可拓展的協(xié)調(diào)系統(tǒng)话速,存儲和協(xié)調(diào)關鍵共享狀態(tài);
(4)HBase是一個開源的芯侥,基于列存儲模型的分布式數(shù)據(jù)庫泊交;
(5)HDFS是一個分布式文件系統(tǒng),有著高容錯性的特點柱查,適合那些超大數(shù)據(jù)集的應用程序廓俭;
(6)MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算唉工。

Hadoop特點

  • 高可靠性研乒。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
  • 高擴展性淋硝。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的雹熬,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
  • 高效性谣膳。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù)竿报,并保證各個節(jié)點的動態(tài)平衡,因此處理速度非臣萄瑁快烈菌。
  • 高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本花履,并且能夠自動將失敗的任務重新分配芽世。
  • 低成本。與一體機诡壁、商用數(shù)據(jù)倉庫以及QlikView济瓢、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的妹卿,項目的軟件成本因此會大大降低旺矾。

Hadoop集群有三種啟動模式:

  • 單機模式:默認情況下運行為一個單獨機器上的獨立Java進程,主要用于調(diào)試環(huán)境
  • 偽分布模式:在單個機器上模擬成分布式多節(jié)點環(huán)境纽帖,每一個Hadoop守護進程都作為一個獨立的Java進程運行
  • 完全分布式模式:真實的生產(chǎn)環(huán)境宠漩,搭建在完全分布式的集群環(huán)境

環(huán)境安裝

(1)創(chuàng)建Hadoop用戶举反、用戶組

$ sudo adduser hadoop
$ sudo usermod -G sudo hadoop

(2) 安裝以及配置以來的軟件

  • JDK 安裝
  • SSH免密碼登錄
$ ssh-keygen -t rsa   #一路回車
$ cat .ssh/id_rsa.pub >> .ssh/authorized_keys
$ chmod 600 .ssh/authorized_keys
  • 下載安裝Hadoop
$ vim /home/hadoop/.bashrc

#添加如下內(nèi)容
#HADOOP START
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP END

$ source ~/.bashrc
  • 偽分布式環(huán)境安裝
    (1)修改core-site.xml
<configuration>
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://localhost:9000</value>
   </property>
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/home/hadoop/tmp</value>
  </property>
</configuration>
  • fs.default.name這是一個描述集群中NameNode結點的URI(包括協(xié)議懊直、主機名稱、端口號)火鼻,集群里面的每一臺機器都需要知道NameNode的地址室囊。DataNode結點會先在NameNode上注冊雕崩,這樣它們的數(shù)據(jù)才可以被使用。獨立的客戶端程序通過這個URI跟DataNode交互融撞,以取得文件的塊列表盼铁。
  • hadoop.tmp.dir 是hadoop文件系統(tǒng)依賴的基礎配置,很多路徑都依賴它尝偎。如果hdfs-site.xml中不配置namenode和datanode的存放位置饶火,默認就放在/tmp/hadoop-${user.name}這個路徑中
    (2)hfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
  • dfs.replication它決定著系統(tǒng)里面的文件塊的數(shù)據(jù)備份個數(shù)。對于一個實際的應用致扯,它應該被設為3(這個數(shù)字并沒有上限肤寝,但更多的備份可能并沒有作用,而且會占用更多的空間)抖僵。少于三個的備份鲤看,可能會影響到數(shù)據(jù)的可靠性(系統(tǒng)故障時,也許會造成數(shù)據(jù)丟失)
  • dfs.data.dir這是DataNode結點被指定要存儲數(shù)據(jù)的本地文件系統(tǒng)路徑耍群。DataNode結點上的這個路徑?jīng)]有必要完全相同义桂,因為每臺機器的環(huán)境很可能是不一樣的。但如果每臺機器上的這個路徑都是統(tǒng)一配置的話蹈垢,會使工作變得簡單一些慷吊。默認的情況下,它的值為file://${hadoop.tmp.dir}/dfs/data這個路徑只能用于測試的目的曹抬,因為它很可能會丟失掉一些數(shù)據(jù)罢浇。所以這個值最好還是被覆蓋。
  • dfs.name.dir這是NameNode結點存儲hadoop文件系統(tǒng)信息的本地系統(tǒng)路徑沐祷。這個值只對NameNode有效嚷闭,DataNode并不需要使用到它。上面對于/temp類型的警告赖临,同樣也適用于這里胞锰。在實際應用中,它最好被覆蓋掉兢榨。
    (3)mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
  • mapred.job.trackerJobTracker的主機(或者IP)和端口嗅榕。
    (4)yarn-site.xml
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
  • yarn.nodemanager.aux-services通過該配置,用戶可以自定義一些服務

(5)hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-oracle

Hadoop基本操作

# 格式化Hadoop文件系統(tǒng)
hadoop namenode -format
# 啟動hdfs守護進程(NN吵聪、DN)
start-dfs.sh
# 啟動YARN(NodeManager凌那、ResourceManager)
start-yarn.sh
#瀏覽器進入:http://localhost:8088進入ResourceManager管理頁面
#瀏覽器進入:http://localhost:50070進入HDFS頁面

Hadoop測試用例

# 在hdfs上創(chuàng)建文件夾
hdfs dfs -mkdir -p /user/hadoop/input
# 上傳本地文件到hdfs
hdfs dfs -put xxx.json /user/hadoop/input
# 詞頻統(tǒng)計
hadoop jar hadoop-mapreduce-examples-2.6.0-sources.jar wordcount /user/hadoop/input output
# 查看結果
hdfs dfs -cat /user/hadoop/output/*

參考文獻

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市吟逝,隨后出現(xiàn)的幾起案子帽蝶,更是在濱河造成了極大的恐慌,老刑警劉巖块攒,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件励稳,死亡現(xiàn)場離奇詭異佃乘,居然都是意外死亡,警方通過查閱死者的電腦和手機驹尼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門趣避,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人新翎,你說我怎么就攤上這事程帕。” “怎么了地啰?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵骆捧,是天一觀的道長。 經(jīng)常有香客問我髓绽,道長敛苇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任顺呕,我火速辦了婚禮枫攀,結果婚禮上,老公的妹妹穿的比我還像新娘株茶。我一直安慰自己来涨,他們只是感情好,可當我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布启盛。 她就那樣靜靜地躺著蹦掐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪僵闯。 梳的紋絲不亂的頭發(fā)上卧抗,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天,我揣著相機與錄音鳖粟,去河邊找鬼社裆。 笑死,一個胖子當著我的面吹牛向图,可吹牛的內(nèi)容都是我干的泳秀。 我是一名探鬼主播,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼榄攀,長吁一口氣:“原來是場噩夢啊……” “哼嗜傅!你這毒婦竟也來了?” 一聲冷哼從身側響起檩赢,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤吕嘀,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體币他,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年憔狞,在試婚紗的時候發(fā)現(xiàn)自己被綠了蝴悉。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡瘾敢,死狀恐怖拍冠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情簇抵,我是刑警寧澤庆杜,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站碟摆,受9級特大地震影響晃财,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜典蜕,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一断盛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧愉舔,春花似錦钢猛、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至火的,卻和暖如春壶愤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背馏鹤。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工公你, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人假瞬。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓陕靠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親脱茉。 傳聞我的和親對象是個殘疾皇子剪芥,可洞房花燭夜當晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容

  • Hadoop部署方式 本地模式 偽分布模式(在一臺機器中模擬,讓所有進程在一臺機器上運行) 集群模式 服務器只是一...
    陳半仙兒閱讀 1,616評論 0 9
  • 17歲之前益兄,我們一起聊歷史锻梳,談地理,議政治净捅,話軍事疑枯,一起看報紙,看球賽蛔六。小時候你總是夸我聰明荆永,我讀幼兒園時就能幫小...
    古籍八字案例分析閱讀 691評論 1 3
  • 這本書是日本的石井貴士的“一分鐘”系列書中的一本。屬于輕量級的書国章,排版非常簡潔具钥,看起來輕松愉快。昨天我在圖書館無...
    彩虹思維閱讀 7,247評論 0 3
  • 應用發(fā)布上線后液兽,難免會有bug導致應用奔潰異常退出骂删,F(xiàn)C等現(xiàn)象,及時獲取錯誤信息四啰,定位bug位置桃漾,成了首要問題。
    JerryloveEmily閱讀 276評論 1 0
  • 【想象】: 妲己:李白哥哥我喜歡你! 李白:給你一個懷上小狐仙的機會 【現(xiàn)實】: 妲己:李白哥哥我喜歡你敦迄! …… ...
    喬白閱讀 345評論 0 0