筆記內(nèi)容概括
- Hadoop概述
1.1 Hadoop名字的由來
1.2 Hadoop介紹
1.3 Hadoop能做什么
- Hadoop概述
- Hadoop核心組件
2.1 HDFS(分布式文件系統(tǒng))
2.2 YARN(資源調(diào)度系統(tǒng))
2.3 MapReduce(分布式計(jì)算框架)
- Hadoop核心組件
- Hadoop優(yōu)勢(shì)
- Hadoop發(fā)展史
- Hadoop 生態(tài)系統(tǒng)
5.1 狹義Hadoop VS 廣義Hadoop
5.2 Hadoop生態(tài)系統(tǒng)的特點(diǎn)
- Hadoop 生態(tài)系統(tǒng)
- Hadoop發(fā)行版本的選擇
1击孩、Hadoop概述
1.1 Hadoop名字的由來
- Hadoop項(xiàng)目作者的孩子給一個(gè)棕黃色的大象樣子的填充玩具的命名圖片.png
1.2 Hadoop介紹
Hadoop是Apache的一個(gè)頂級(jí)項(xiàng)目、是開源的、分布式存儲(chǔ)+分布式計(jì)算平臺(tái);它由以下幾個(gè)模塊構(gòu)成:
Hadoop Common: 這是支持hadoop其他模塊的通用工具模塊
Hadoop Distributed File System(HDFS):分布式文件系統(tǒng)
Hadoop YARN: 統(tǒng)一資源管理和任務(wù)調(diào)度
Hadoop MapReduce:基于yarn系統(tǒng)的分布式計(jì)算框架
下圖是官網(wǎng)的描述:
圖片.png
1.3 Hadoop能做什么
搭建大型數(shù)據(jù)倉(cāng)庫露筒,PB級(jí)數(shù)據(jù)的存儲(chǔ)、處理敌卓、分析慎式、統(tǒng)計(jì)等業(yè)務(wù),如:智能商業(yè)、日志分析瘪吏、搜索引擎癣防、數(shù)據(jù)挖掘等場(chǎng)景。
2肪虎、Hadoop核心組件
/2.1 HDFS(分布式文件系統(tǒng))
- 源自于Google的GFS論文劣砍,論文發(fā)表于2003年10月
- HDFS是GFS的克隆版
- HDFS特點(diǎn):擴(kuò)展性&容錯(cuò)性&海量數(shù)據(jù)存儲(chǔ)
- 將文件切分成指定大小的數(shù)據(jù)塊并以多副本的存儲(chǔ)在多個(gè)機(jī)器上
-
數(shù)據(jù)切分、多副本扇救、容錯(cuò)等操作對(duì)用戶是透明的圖片.png
2.2 YARN(資源調(diào)度系統(tǒng))
- YARN: Yet Another Resource Negotiator
- 負(fù)責(zé)整個(gè)集群資源的管理和調(diào)度
-
YARN特點(diǎn):擴(kuò)展性&容錯(cuò)性&多框架資源統(tǒng)一調(diào)度 圖片.png
2.3 MapReduce(分布式計(jì)算框架)
- 源自于Google的MapReduce論文刑枝。論文發(fā)表于2004年12月
- MapReduce是Google MapReduce的克隆版
-
MapReduce特點(diǎn): 擴(kuò)展性&容錯(cuò)性&海量數(shù)據(jù)離線處理圖片.png
3、Hadoop優(yōu)勢(shì)
(1)迅腔、高可靠性
- 數(shù)據(jù)存儲(chǔ):數(shù)據(jù)塊多副本
- 數(shù)據(jù)計(jì)算: 重新調(diào)度作業(yè)計(jì)算
(2)装畅、高擴(kuò)展性 - 存儲(chǔ)/計(jì)算資源不夠時(shí),可以橫向的線性擴(kuò)展機(jī)器
- 一個(gè)集群中可以包含數(shù)以千計(jì)的節(jié)點(diǎn)
(3)沧烈、其他 - 存儲(chǔ)在廉價(jià)機(jī)器上掠兄,降低成本
- 成熟的生態(tài)圈
4、Hadoop的發(fā)展史
這篇博文有很詳細(xì)的介紹:十年了锌雀,Hadoop的前世今生博文鏈接
5蚂夕、Hadoop生態(tài)系統(tǒng)
5.1 狹義Hadoop VS 廣義Hadoop
- 狹義Hadoop:
指的是一個(gè)適合大數(shù)據(jù)分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)和資源調(diào)度(YARN)平臺(tái),即傳統(tǒng)意義上的Hadoop腋逆。 - 廣義Hadoop:指的是整個(gè)Hadoop生態(tài)系統(tǒng)婿牍,Hadoop生態(tài)系統(tǒng)是一個(gè)很龐大的概念,Hadoop是其中最重要最基礎(chǔ)的一部分惩歉;生態(tài)系統(tǒng)中的每一個(gè)子系統(tǒng)只能解決某一特定的問題域(甚至可能很窄)等脂,不搞統(tǒng)一型的一個(gè)全能系統(tǒng),而是小而精的多個(gè)小系統(tǒng)撑蚌。
圖片.png
5.2 Hadoop生態(tài)系統(tǒng)的特點(diǎn)
- 開源上遥、社區(qū)活躍
- 囊括了大數(shù)據(jù)處理的方方面面
- 成熟的生態(tài)圈
6、 Hadoop常用發(fā)行版本和和選型
- Apcahe Hadoop:存在jar包沖突的問題争涌,一般只用于學(xué)習(xí)粉楚;
- CDH(Cloudera Distributed Hadoop):商業(yè)版,不存在jar沖突問題亮垫,配置簡(jiǎn)單模软、文檔詳細(xì),具有容易升級(jí)的優(yōu)點(diǎn)包警,生產(chǎn)環(huán)境中大多選擇該版本撵摆,缺點(diǎn)是代碼不開源,下載地址害晦;
- HDP(Hortonworks Data Platform):存在安裝升級(jí)和刪除節(jié)點(diǎn)困難的問題特铝,一般也應(yīng)用于商業(yè)場(chǎng)景暑中。