1.hdfs是屬于什么架構(gòu)
Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)谴轮。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的占婉。HDFS是一個高度容錯性的系統(tǒng)酒请,適合部署在廉價的機(jī)器上量愧。HDFS能提供高吞吐量的數(shù)據(jù)訪問淫半,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用溃槐。HDFS放寬了一部分POSIX約束,來實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的撮慨。HDFS在最開始是作為Apache Nutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)的竿痰。HDFS是Apache Hadoop Core項(xiàng)目的一部分脆粥。
2.hdfs部署后進(jìn)程哪些?按啟動順序說
NN DN? SNN
3.一個文件180M砌溺,請問實(shí)際存儲多少影涉,多少塊?多少map?task?(副本為3)
540M? 6塊? 6mp ?假如文件是壓縮的,那么正好壓縮不支持分割规伐,那么就一個map task
4.副本放置策略蟹倾,來說說看
HDFS默認(rèn)數(shù)據(jù)放置策略
系統(tǒng)默認(rèn)為每一個數(shù)據(jù)塊存放3個副本,按照布署在NameNode上的默認(rèn)機(jī)架感知策略存放數(shù)據(jù)塊副本猖闪。其中:
第一個block副本放在client結(jié)點(diǎn)所在機(jī)架的datanode里(如果client不在集群范圍內(nèi)鲜棠,則這第一個node是隨機(jī)選取的,當(dāng)然系統(tǒng)會嘗試不選擇哪些太滿或者太忙的node)培慌。?
第二個block副本放置在與第一個datanode節(jié)點(diǎn)相同的機(jī)架中的另一個datanode中(隨機(jī)選擇)豁陆。??
第三個block副本放置于另一個隨機(jī)遠(yuǎn)端機(jī)架的一個隨機(jī)datanode中。?
如果還有更多的副本就隨機(jī)放在集群的node里吵护。?
將第一盒音、二個block副本放置在同一個機(jī)架中,當(dāng)用戶發(fā)起數(shù)據(jù)讀取請求時可以較快地讀取馅而,從而保證數(shù)據(jù)具有較好的本地性祥诽。
第三個及更多的block副本放置于其他機(jī)架,當(dāng)整個本地結(jié)點(diǎn)都失效時瓮恭,HDFS將自動通過遠(yuǎn)端機(jī)架上的數(shù)據(jù)副本將數(shù)據(jù)副本的婁得恢復(fù)到標(biāo)準(zhǔn)數(shù)據(jù)雄坪。
Hadoop的副本放置策略在可靠性(block在不同的機(jī)架)和帶寬(一個管道只需要穿越一個網(wǎng)絡(luò)節(jié)點(diǎn))中做了一個很好的平衡。下圖是備份參數(shù)是3的情況下一個管道的三個datanode的分布情況屯蹦。
5.snn職責(zé)是什么
SecondaryNameNode: 當(dāng)HA時维哈,SNN不存在了
? ? ? ?? 存儲: 命令空間鏡像文件fsimage + 編輯日志editlog
作用: 定期合并 fsimage +editlog 為新的fsimage,推送給NN,稱為檢查點(diǎn) checkpoint
參數(shù): dfs.namenode.checkpoint.period 3600s
http://www.reibang.com/p/5d292a9a8c86
6.hadoop?fs命令和什么命令一樣
hdfs dfs?
7.shuffle登澜,說說你們的理解
在map和repuced中間 進(jìn)行重組 洗牌操作
8.yarn的進(jìn)程哪些?
NodeManager,ResourceManager
9.jps命令阔挠,談?wù)勀銈兊睦斫?/h4>查看java進(jìn)程及其對應(yīng)信息
10.hdfs?yarn界面的默認(rèn)端口分別多少?假如讓你們修改這個端口號,會不會?
hdfs 50070
yarn? 8088
11.查看進(jìn)程哪個占系統(tǒng)資源較多的命令是什么
top
12.查看系統(tǒng)負(fù)載帖渠,1分鐘?5分鐘??15分鐘?的命令是什么
top右上角 load average: 0.09, 0.05, 0.01
三個數(shù)分別代表不同時間段的系統(tǒng)平均負(fù)載(一分鐘谒亦、五 分鐘、以及十五分鐘)
13.說說你們對top空郊,還能夠看啥?
查看系統(tǒng)的CPU份招、內(nèi)存、運(yùn)行時間狞甚、交換分區(qū)锁摔、執(zhí)行的線程等信息
查看java進(jìn)程及其對應(yīng)信息
hdfs 50070
yarn? 8088
top
top右上角 load average: 0.09, 0.05, 0.01
三個數(shù)分別代表不同時間段的系統(tǒng)平均負(fù)載(一分鐘谒亦、五 分鐘、以及十五分鐘)
查看系統(tǒng)的CPU份招、內(nèi)存、運(yùn)行時間狞甚、交換分區(qū)锁摔、執(zhí)行的線程等信息