按需要定制MapReduc
map和reduce可以用自己編程
目標(biāo)在于多次的目標(biāo)流讀區(qū)教翩,而不是讀寫
hdfs存儲的是大量文本信息,適合做商業(yè)數(shù)據(jù)挖掘,既然是挖掘就在于要多次讀,而不是一次次讀寫。因?yàn)閷懭氤杀靖叩豢希總€文件要有三個副本
因此就導(dǎo)致了數(shù)據(jù)的高度容冗余
每個節(jié)點(diǎn)不需要raid 磁盤陣列
- radi -0
2塊硬盤的倍數(shù),因?yàn)樾枰蓪?br> 數(shù)據(jù)打散存儲疗隶,兩部分?jǐn)?shù)據(jù)分別存儲在2塊硬盤佑笋。串行存儲
raid -1
2塊硬盤的倍數(shù)raid -5
3塊硬盤raid-10(raid 1,0)
NameNode節(jié)點(diǎn)就一個斑鼻,raid
DataNode:不需要raid
數(shù)據(jù)塊
1版本是64M
2版本是128M蒋纬。默認(rèn)是存儲3個副本,因此存儲的總?cè)萘渴?3