1.1. 下面哪個(gè)程序負(fù)責(zé) HDFS 數(shù)據(jù)存儲(chǔ)河狐。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
答案 C datanode
1.2. HDfS 中的 block 默認(rèn)保存幾份休玩?
a)3 份
b)2 份
c)1 份
d)不確定
答案 A 默認(rèn) 3 份
1.3. 下列哪個(gè)程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
答案 D
1.4. HDFS 默認(rèn) Block Size
a)32MB
b)64MB
c)128MB
答案:B
1.X的時(shí)候是64M 2.X的時(shí)候是128m
1.5. 下列哪項(xiàng)通常是集群的最主要瓶頸
a)CPU
b)網(wǎng)絡(luò)
c)磁盤(pán) IO
d)內(nèi)存
答案:C 磁盤(pán)
1.6. 關(guān)于 SecondaryNameNode 哪項(xiàng)是正確的?
a)它是 NameNode 的熱備
b)它對(duì)內(nèi)存沒(méi)有要求
c)它的目的是幫助 NameNode 合并編輯日志菇存,減少 NameNode 啟動(dòng)時(shí)間
d)SecondaryNameNode 應(yīng)與 NameNode 部署到一個(gè)節(jié)點(diǎn)
答案 C。
1.7. 下列哪項(xiàng)可以作為集群的管理邦蜜?
a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper
答案 ABD
具體可查看什么是 Zookeeper依鸥,Zookeeper 的作用是什么,在 Hadoop 及 hbase 中具體作用是什么悼沈。
1.8. Client 端上傳文件的時(shí)候下列哪項(xiàng)正確
a)數(shù)據(jù)經(jīng)過(guò) NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block贱迟,依次上傳
c)Client 只上傳數(shù)據(jù)到一臺(tái) DataNode,然后由 NameNode 負(fù)責(zé) Block 復(fù)制工作
答案 B
分析:Client 向 NameNode 發(fā)起文件寫(xiě)入的請(qǐng)求絮供。NameNode 根據(jù)文件大小和文件塊配置情況衣吠,返回給 Client 它所管理部分 DataNode 的信息。Client 將文件劃分為多個(gè) Block壤靶,根據(jù) DataNode 的地址信息缚俏,按順序?qū)懭氲矫恳粋€(gè)DataNode 塊中。具體查看HDFS 體系結(jié)構(gòu)簡(jiǎn)介及優(yōu)缺點(diǎn)贮乳。
1.9. 下列哪個(gè)是 Hadoop 運(yùn)行的模式
a)單機(jī)版
b)偽分布式
c)分布式
答案 ABC 單機(jī)版,偽分布式只是學(xué)習(xí)用的忧换。
首先集群的目的是為了節(jié)省成本,用廉價(jià)的 pc 機(jī)塘揣,取代小型機(jī)及大型機(jī)包雀。小型機(jī)和大型機(jī)有什么特點(diǎn)?
1.cpu 處理能力強(qiáng)
2.內(nèi)存夠大亲铡,所以集群的瓶頸不可能是 a 和 d
3.如果是互聯(lián)網(wǎng)有瓶頸才写,可以讓集群搭建內(nèi)網(wǎng)葡兑。每次寫(xiě)入數(shù)據(jù)都要通過(guò)網(wǎng)絡(luò)(集群是內(nèi)網(wǎng)),然后還要寫(xiě)入 3 份數(shù)據(jù)赞草,所以 IO 就會(huì)打折扣讹堤。