Hadoop生態(tài)系統(tǒng)潭流、Hadoop虛擬機環(huán)境蜡饵、Hadoop環(huán)境搭建及安裝（含安裝包與視頻教程）

hadoop安裝視頻講解:https://www.cniao5.com/course/10244

1.1Hadoop簡介

1.1.1Hadoop的誕生

Hadoop是由Apache Lucene創(chuàng)始人Doug Cutting創(chuàng)建的。它起源于開源搜索引擎Apache Nutch春畔。Nutch項目開始于2002年脱货，是一個可以運行的網(wǎng)頁爬取工具和搜索引擎系統(tǒng)，但是這個系統(tǒng)無法解決數(shù)十億的搜索問題律姨。

三篇劃時代論文的誕生對Hadoop的誕生起到了決定性作用振峻。

第一篇論文：GFS

2003年谷歌發(fā)表了 “The Google File System（谷歌文件系統(tǒng)，簡稱GFS）”的論文择份，GFS的架構(gòu)能夠滿足在網(wǎng)頁爬取和索引過程中產(chǎn)生的超大文件的存儲需求扣孟。于是，在2004年Nutch團隊開始做GFS的開源版本實現(xiàn)缓淹，也就是Nutch分布式文件系統(tǒng)（NDFS）哈打。

第二篇論文：MapReduce

2004年谷歌發(fā)表了“MapReduce：Simplified Data Processing on Large Cluster（大型集群的數(shù)據(jù)簡化處理）”的論文。2005年讯壶，Nutch團隊在Nutch上實現(xiàn)了MapReduce料仗。

2006年2月，Nutch開發(fā)人員將NDFS和MapReduce移除Nutch形成一個獨立的項目伏蚊，命名為Hadoop立轧。這個名字不是縮寫，是生造出來的躏吊。

第三篇：BigTable

2006年谷歌發(fā)表了“BigTable：A Distributed Storage System for Structured Data（一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)）”的論文氛改。Powerset公司根據(jù)BigTable的思想，發(fā)起了HBase比伏，即Hadoop Database胜卤。

1.1.2Hadoop重要里程碑

2008年1月，Hadoop成為Apache的頂級項目赁项。背后主要的公司為雅虎葛躏，主要用Hadoop來支撐雅虎的搜索引擎系統(tǒng)。

2013年 Hadoop 2.0發(fā)布
2017年 Hadoop 3.0 發(fā)布

1.1.3Hadoop主要發(fā)行版本

?Apache Hadoop原始版本
?Cloudera版本（Cloudera’s Distribution Including Apache Hadoop悠菜，簡稱“CDH”）
?Hortonworks版本（Hortonworks Data Platform舰攒，簡稱“HDP”）
?MapR
此外，還有一些其他的發(fā)行版悔醋，如華為摩窃、Intel等。

1.2Hadoop生態(tài)系統(tǒng)

?Hadoop從最開始的HDFS和MapReduce發(fā)展至今芬骄，已經(jīng)形成一個龐大的生態(tài)系統(tǒng)猾愿。主要包括：
?HDFS：分布式文件系統(tǒng)
?YARN：資源管理與調(diào)度系統(tǒng)
?MapReduce：分布式處理框架
?Pig鹦聪、Hive：類SQL的數(shù)據(jù)查詢
?Mahout、Spark MLib：機器學習庫
?HBase：分布式列數(shù)據(jù)庫
?Zookeeper：集群管理
?Oozie：任務(wù)調(diào)度
?Flume蒂秘、Sqoop：數(shù)據(jù)導入導出
?Solr&Lucene：搜索與索引
?Ambari：集群監(jiān)控與維護