一统锤、大數(shù)據(jù)技術圖譜
大數(shù)據(jù).jpg
Hadoop
Hadoop狹義指Apacha的一款軟件杰扫,廣義指的是Hadoop大數(shù)據(jù)生態(tài)圈队寇。Hadoop三大組件:HDFS、YARN章姓、MapReduce佳遣。
Hadoop是一個生態(tài)圈,類似于spring
hadoop ecosystem
1凡伊、Hadoop發(fā)行版本
- 開源社區(qū)版本
-
商業(yè)發(fā)行版本
2零渐、Hadoop架構變遷
Hadoop從1.0到2.0版本架構變化
Hadoop從2.0到3.0優(yōu)化的內容
HDFS
分布式文件存儲系統(tǒng),處在生態(tài)圈的底層與核心地位
YARN
分布式通用的集群資源管理系統(tǒng)和任務調度平臺系忙,支撐各種計算引擎運行诵盼,保證了Hadoop的地位。
MapReduce
分布式計算引擎银还;由于自身涉及到模型所產(chǎn)生的弊端风宁,導致企業(yè)一線幾乎不再直接使用MapReduce進行編程處理,但是很多軟件的底層依然在使用MapReduce引擎來處理數(shù)據(jù)蛹疯。
Hadoop的優(yōu)點
Hadoop優(yōu)點
大數(shù)據(jù)5V特征
大數(shù)據(jù)5V特征
Hadoop集群
- Hadoop集群包括兩個集群:HDFS集群戒财、YARN集群
- 兩個集群邏輯上分離、通常物理上在一起
- 兩個集群都是標準的主從架構集群
image.png
最簡單的一個Hadoop集群架構
image.png
MapReduce是一個計算框架捺弦、代碼層面的組件饮寞,沒有集群之說。
Hadoop環(huán)境搭建相關配置文件
image.png
NameNode format(格式化操作)
- 首次啟動HDFS時列吼,必須對其進行格式化操作
- format本質上是初始化工作幽崩,進行HDFS清理和準備工作,
- 命令: hdfs namenode -format
注意:只有首次啟動HDFS時寞钥,可對其進行格式化操作慌申,之后format回導致數(shù)據(jù)丟失,不允許這類操作
Spark計算引擎
Spark是一款比MapReduce更優(yōu)秀的計算引擎理郑,
主要功能特點:
Spark SQL:可以通過寫SQL的方式應用計算引擎
Spark Streaming:流式計算蹄溉,實時計算,要求低延遲的場景(監(jiān)控大屏香浩、信貸資質審核类缤,搜索推薦等)
MLlib(machine learning):機器學習
GraphX:圖處理