1狐粱、集群的最主要瓶頸
磁盤IO
2灵汪、Hadoop運行模式
單機版败许、偽分布式模式垒酬、完全分布式模式
3砰嘁、Hadoop生態(tài)圈的組件并做簡要描述
1)Zookeeper:是一個開源的分布式應(yīng)用程序協(xié)調(diào)服務(wù),基于zookeeper可以實現(xiàn)同步服務(wù),配置維護勘究,命名服務(wù)矮湘。
2)Flume:一個高可用的,高可靠的口糕,分布式的海量日志采集缅阳、聚合和傳輸?shù)南到y(tǒng)。
3)Hbase:是一個分布式的景描、面向列的開源數(shù)據(jù)庫, 利用Hadoop HDFS作為其存儲系統(tǒng)十办。
4)Hive:基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)檔映射為一張數(shù)據(jù)庫表超棺,并提供簡單的sql 查詢功能向族,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。
5)Sqoop:將一個關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導進到Hadoop的 HDFS中棠绘,也可以將HDFS的數(shù)據(jù)導進到關(guān)系型數(shù)據(jù)庫中件相。
4、解釋“hadoop”和“hadoop 生態(tài)系統(tǒng)”兩個概念
Hadoop是指Hadoop框架本身氧苍;hadoop生態(tài)系統(tǒng)夜矗,不僅包含hadoop,還包括保證hadoop框架正常高效運行其他框架让虐,比如zookeeper侯养、Flume、Hbase澄干、Hive逛揩、Sqoop等輔助框架。
5麸俘、請列出正常工作的Hadoop集群中Hadoop都分別需要啟動哪些進程辩稽,它們的作用分別是什么?
1)NameNode:它是hadoop中的主服務(wù)器,管理文件系統(tǒng)名稱空間和對集群中存儲的文件的訪問从媚,保存有metadate逞泄。
2)SecondaryNameNode:它不是namenode的冗余守護進程,而是提供周期檢查點和清理任務(wù)。幫助NN合并editslog喷众,減少NN啟動時間各谚。
3)DataNode:它負責管理連接到節(jié)點的存儲(一個集群中可以有多個節(jié)點)。每個存儲數(shù)據(jù)的節(jié)點運行一個datanode守護進程到千。
4)ResourceManager(JobTracker):JobTracker負責調(diào)度DataNode上的工作昌渤。每個DataNode有一個TaskTracker,它們執(zhí)行實際工作憔四。
5)NodeManager:(TaskTracker)執(zhí)行任務(wù)
6)DFSZKFailoverController:高可用時它負責監(jiān)控NN的狀態(tài)膀息,并及時的把狀態(tài)信息寫入ZK。它通過一個獨立線程周期性的調(diào)用NN上的一個特定接口來獲 取NN的健康狀態(tài)了赵。FC也有選擇誰作為Active NN的權(quán)利潜支,因為最多只有兩個節(jié)點,目前選擇策略還比較簡單(先到先得柿汛,輪換)冗酿。
7)JournalNode:高可用情況下存放namenode的editlog文件.