HDFS基礎(chǔ):
分布式文件系統(tǒng)徐钠,適合一次寫入戳粒,多次讀出的場景毙籽,適合用來做數(shù)據(jù)分析
HDFS的組成架構(gòu):
Namenode:是master洞斯,存儲元數(shù)據(jù)信息,配置副本策略坑赡,處理客戶端的請求烙如,
DataNode:是slave 存儲實際數(shù)據(jù),執(zhí)行數(shù)據(jù)的讀寫操作毅否,
Secondary namenode:輔助namenode亚铁,定期合并鏡像文件和日志文件,并推送給namenode;在緊急情況下螟加,可以用來恢復(fù)namenode
HDFS 文件塊大信且纭:(面試重點(diǎn))
Hadoop2默認(rèn)大小是128M,hadoop1默認(rèn)大小是64M捆探,
原因:尋址時間大約是10ms甸昏,尋址時間為傳輸時間的1%時認(rèn)為是最佳狀態(tài),所以傳輸時間10ms/0.01=1s,而且當(dāng)前磁盤的傳輸速率大約100M/s 徐许,所以塊大小就是128M
【參數(shù)優(yōu)先級】客戶端代碼中設(shè)置的值 > classPath下的用戶自定義配置文件 > 服務(wù)器默認(rèn)配置值
HDFS寫數(shù)據(jù)流程:(面試重點(diǎn))
HDSF讀數(shù)據(jù)流程:(面試重點(diǎn))
Namenode的工作機(jī)制:(面試重點(diǎn))
DataNode工作機(jī)制:(面試重點(diǎn))