一: HDFS是什么?
源自于Google的GFS論文
發(fā)布與2003年10月
HDFS是GFS克隆版
特點:
1: 易于擴展的分布式文件系統(tǒng)
2: 運行在大量普通廉價機器上,提供容錯機制
3: 為大量用戶提供性能不錯的文件存取服務
二: HDFS優(yōu)點
1.高容錯性
數(shù)據(jù)自動保存多個副本
副本丟后含鳞,自動恢復
2. 適合批處理
移動技術(shù)而非數(shù)據(jù)
數(shù)據(jù)位置暴露給計算框架
3. 適合大數(shù)據(jù)處理
GB,TB甚至PB級別數(shù)據(jù)
百萬規(guī)模以上的文件數(shù)量
10k+節(jié)點規(guī)模
4. 流式文件訪問
一次性寫入,多次讀取
保證數(shù)據(jù)一致性
5. 可構(gòu)建在廉價機器上
通過多副本提高可靠性
提高了容錯和恢復機制
三: HDFS缺點
1. 低延遲數(shù)據(jù)訪問
比如毫秒級別
低延遲與高吞吐率
2. 小文件存取
占用NameNode大量內(nèi)存
尋道時間超過讀取時間
3.并發(fā)寫入计福,文件隨機修改
一個文件只能有一個寫入
僅支持append