hdfs的塊大小默認為129m
map操作的輸出寫入本地磁盤花枫,而不是hdfs文件骄噪,reduce的輸出是在hdfs文件
分布式文件系統(tǒng)
大數(shù)據(jù)甚于好算法
副本可以避免數(shù)據(jù)丟失
mapreduce是一個批處理系統(tǒng)尚困,而不適合于交互式系統(tǒng)
與hadoop協(xié)同工作的處理模式
交互式sql ---》hive
迭代式計算 ---> 機器學習
流處理 ----》 存儲地址
搜索 ---》
image.png
每個reduce操作都又一個輸出文件
hadoop對數(shù)據(jù)進行合理的切片,默認是128MB
map任務的輸出為本地磁盤链蕊,而不是hdfs
image.png