1? 大數(shù)據(jù)的特點:大量,低價值密度,高速退盯,多樣,
2? Hadoop是由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。
3? Hadoop的優(yōu)勢:a:高可靠性:多副本機制,有某個計算元素或存儲出現(xiàn)故障,數(shù)據(jù)也不會流失
b.高擴展性
c.高效性:基于MapReduce的思想機制,hadoop并發(fā)工作
d.高容錯性:能夠自動將失敗的任務重新分配
4.hadoop組成
1.hadoop1.x和hadoop2.x的區(qū)別
? 1.x: MapReduce(計算+資源調(diào)度)++HDFS(數(shù)據(jù)存儲)++Common(輔助工具)
? 2.x: MapReduce(計算)++yarn(資源調(diào)度)++HDFS(數(shù)據(jù)存儲)++Common(輔助工具)
總結:在hadoop1.x時代,hadoop中的MapReduce同時處理業(yè)務邏輯運算和資源調(diào)度,耦合性較大,在hadoop2.x,增加了Yarn.Yarn只負責資源調(diào)度,MapReduce只負責計算
5.hadoop存儲文件塊分塊原理
? 分塊存儲:HDFS中的文件在物理上市分塊存儲(Block),塊的大小可以通過參數(shù)配置(dfs.blocksize)來規(guī)定,默認大小在2x版本中是128M,在老版本中是64M.
? 128M的原因分析:假設尋址時間為10ms,據(jù)參閱資料顯示,尋址時間為傳輸時間的1%市,為最佳工作狀態(tài),因此
? 傳輸時間=10ms/1%=1000ms=1s
? 目前磁盤的傳輸速度普遍為100MB/S,所以:
? 塊大小=1s*100M/s=100M
? 又因計算機底層是二進制,128是離100M最近的參數(shù)大小,所以默認為128M
總結:塊的大小本質上取決于磁盤的傳輸速度
思考:為什么塊的大小不能太大也不能太小?
? 太小:會增加尋址時間,程序一直在尋找塊的開始位置
? 太大:從磁盤傳輸數(shù)據(jù)的時間會明顯大于定位這個塊開始位置所需的時間,導致程序在處理這塊數(shù)據(jù)時會非常慢.