大數(shù)據(jù)Hadoop面試題（一）

1狐粱、集群的最主要瓶頸

磁盤IO

2灵汪、Hadoop運行模式

單機版败许、偽分布式模式垒酬、完全分布式模式

3砰嘁、Hadoop生態(tài)圈的組件并做簡要描述

1）Zookeeper：是一個開源的分布式應(yīng)用程序協(xié)調(diào)服務(wù),基于zookeeper可以實現(xiàn)同步服務(wù)，配置維護勘究，命名服務(wù)矮湘。

2）Flume：一個高可用的，高可靠的口糕，分布式的海量日志采集缅阳、聚合和傳輸?shù)南到y(tǒng)。

3）Hbase：是一個分布式的景描、面向列的開源數(shù)據(jù)庫, 利用Hadoop HDFS作為其存儲系統(tǒng)十办。

4）Hive：基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)檔映射為一張數(shù)據(jù)庫表超棺，并提供簡單的sql 查詢功能向族，可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。

5）Sqoop：將一個關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導進到Hadoop的 HDFS中棠绘，也可以將HDFS的數(shù)據(jù)導進到關(guān)系型數(shù)據(jù)庫中件相。

4、解釋“hadoop”和“hadoop 生態(tài)系統(tǒng)”兩個概念

Hadoop是指Hadoop框架本身氧苍；hadoop生態(tài)系統(tǒng)夜矗，不僅包含hadoop，還包括保證hadoop框架正常高效運行其他框架让虐，比如zookeeper侯养、Flume、Hbase澄干、Hive逛揩、Sqoop等輔助框架。

5麸俘、請列出正常工作的Hadoop集群中Hadoop都分別需要啟動哪些進程辩稽，它們的作用分別是什么?

1）NameNode：它是hadoop中的主服務(wù)器，管理文件系統(tǒng)名稱空間和對集群中存儲的文件的訪問从媚，保存有metadate逞泄。

2）SecondaryNameNode：它不是namenode的冗余守護進程，而是提供周期檢查點和清理任務(wù)。幫助NN合并editslog喷众，減少NN啟動時間各谚。

3）DataNode：它負責管理連接到節(jié)點的存儲（一個集群中可以有多個節(jié)點）。每個存儲數(shù)據(jù)的節(jié)點運行一個datanode守護進程到千。

4）ResourceManager（JobTracker）：JobTracker負責調(diào)度DataNode上的工作昌渤。每個DataNode有一個TaskTracker，它們執(zhí)行實際工作憔四。

5）NodeManager：（TaskTracker）執(zhí)行任務(wù)

6）DFSZKFailoverController：高可用時它負責監(jiān)控NN的狀態(tài)膀息，并及時的把狀態(tài)信息寫入ZK。它通過一個獨立線程周期性的調(diào)用NN上的一個特定接口來獲取NN的健康狀態(tài)了赵。FC也有選擇誰作為Active NN的權(quán)利潜支，因為最多只有兩個節(jié)點，目前選擇策略還比較簡單（先到先得柿汛，輪換）冗酿。

7）JournalNode：高可用情況下存放namenode的editlog文件.

最后編輯于：2020.09.08 12:33:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者