hadoop是什么
- hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)框架
- hadoop實現(xiàn)了一個分布式文件系統(tǒng)勋乾,hdfs
- hadoop實現(xiàn)了一個分布式計算系統(tǒng),mapreduce
- hadoop實現(xiàn)了一個資源管理系統(tǒng)枕磁,yarn
hadoop的特點
- 高可靠性渡蜻。hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
- 高擴展性计济。hadoop是在可用的計算機集群間分配數(shù)據(jù)并完成計算任務(wù)的茸苇,這些集群可以方便的擴展到數(shù)以千計的節(jié)點中
- 高效性。hadoop能夠在節(jié)點之間動態(tài)的移動數(shù)據(jù)沦寂,并保證各個節(jié)點的動態(tài)平衡学密,因此處理速度非常快传藏。
- 高容錯性腻暮。hadoop能夠自動保存數(shù)據(jù)的多個副本彤守,并且能夠自動將失敗的任務(wù)重新分配。
- 低成本哭靖。與一體機具垫、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比试幽,hadoop是開源的筝蚕,項目的軟件成本低。
hadoop hdfs核心組件
** hdfs有兩個核心角色:name node铺坞、data node **
Name Node僅有一個饰及,提供元數(shù)據(jù)服務(wù);Data Node為hdfs提供存儲塊康震。
Name Node的職責:
- 管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問
- 負責元數(shù)據(jù)的信息管理
Name Node的職責:
- 負責數(shù)據(jù)存儲
- 定期向Name Node匯報存儲的文件信息
mapreduce核心組件
mapreduce是什么
MapReduce是一種編程模型燎含,用于大規(guī)模數(shù)據(jù)集(大于1T)的并行運算。
mapreduce能解決什么問題
逐漸消亡腿短,被cloud dataflow代替
mapreduce計算模型
job tracker 和 task tracker
大數(shù)據(jù)技術(shù)生態(tài)體系
- hadoop(hdfs, mapreduce, yarn):最基礎(chǔ)的數(shù)據(jù)處理框架屏箍,擅長離線數(shù)據(jù)分析。
- zookeeper: 分布式協(xié)調(diào)服務(wù)基礎(chǔ)組件
- hbase:分布式海量數(shù)據(jù)庫橘忱,基于hdfs赴魁,離線分析和在線業(yè)務(wù)
- hive sql:數(shù)據(jù)倉庫工具,使用方便钝诚,功能豐富颖御,基于MR,延遲大
- sqoop:數(shù)據(jù)導入導出工具凝颇,關(guān)系數(shù)據(jù)庫和hdfs的數(shù)據(jù)橋梁
- flume:數(shù)據(jù)采集框架
- storm:實時流式計算框架
- spark:基于內(nèi)存的分布式運算框架潘拱,一站式處理。