Hadoop系統(tǒng)演化過(guò)程:
了解更多大數(shù)據(jù)相關(guān)知識(shí)點(diǎn)擊文章末尾:了解更多查看
HDFS:分布式存儲(chǔ)系統(tǒng)(Hadoop Distributed File System):提供了高可靠性趴乡、高擴(kuò)展性和高吞吐率的數(shù)據(jù)存儲(chǔ)服務(wù)
HDFS源自于Google的GFS論文 (發(fā)表于2003年10月 )绅喉,是GFS克隆版
YARN:資源管理系統(tǒng)(Yet Another Resource Negotiator):負(fù)責(zé)集群資源的統(tǒng)一管理和調(diào)度,Hadoop 2.0新增系統(tǒng)幢泼,使得多種計(jì)算框架可以運(yùn)行在一個(gè)集群中
MapReduce:分布式計(jì)算框架:具有易于編程姚炕、高容錯(cuò)性和高擴(kuò)展性等優(yōu)點(diǎn)
MapReduce源自于Google的MapReduce論文 (發(fā)表于2004年12月)舰涌,是Google MapReduce克隆版
Hive:由facebook開(kāi)源孔庭,基于MR的數(shù)據(jù)倉(cāng)庫(kù)忿偷,數(shù)據(jù)計(jì)算使用MR趣些,數(shù)據(jù)存儲(chǔ)使用HDFS仿荆,Hive 定義了一種類(lèi) SQL 查詢語(yǔ)言——HQL:類(lèi)似SQL,但不完全相同
日志分析:統(tǒng)計(jì)網(wǎng)站一個(gè)時(shí)間段內(nèi)的pv、uv
Pig:由yahoo拢操!開(kāi)源锦亦,構(gòu)建在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)
Mahout:數(shù)據(jù)挖掘庫(kù),基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的分布式計(jì)算框架令境,實(shí)現(xiàn)了三大類(lèi)算法 :推薦(Recommendation) 杠园、聚類(lèi)(Clustering) 、分類(lèi)(Classification)
HBase:分布式數(shù)據(jù)庫(kù)舔庶,源自Google的Bigtable論文 抛蚁,發(fā)表于2006年11月 ,是Google Bigtable克隆版
Zookeeper:分布式協(xié)作服務(wù)惕橙,源自Google的Chubby論文 瞧甩,發(fā)表于2006年11月 ,是Chubby克隆版
解決分布式環(huán)境下數(shù)據(jù)管理問(wèn)題 :統(tǒng)一命名 弥鹦、狀態(tài)同步 肚逸、集群管理 、配置同步
Sqoop:數(shù)據(jù)同步工具彬坏,連接Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間的橋梁 朦促,支持多種數(shù)據(jù)庫(kù),包括MySQL苍鲜、DB2等 思灰,插拔式玷犹,用戶可根據(jù)需要支持新的數(shù)據(jù)庫(kù) 混滔;本質(zhì)上是一個(gè)MapReduce程序
Flume:日志收集工具,Cloudera開(kāi)源的日志收集系統(tǒng)
Oozie:作業(yè)流調(diào)度系統(tǒng)
目前計(jì)算框架和作業(yè)類(lèi)型繁多: MapReduce Java歹颓、Streaming坯屿、HQL、Pig等
如何對(duì)這些框架和作業(yè)進(jìn)行統(tǒng)一管理和調(diào)度:
不同作業(yè)之間存在依賴關(guān)系(DAG)巍扛;
周期性作業(yè)
定時(shí)執(zhí)行的作業(yè)
作業(yè)執(zhí)行狀態(tài)監(jiān)控與報(bào)警(發(fā)郵件领跛、短信等)
Hadoop發(fā)行版本
apache hadoop版本
CDH:Cloudera DistributedHadoop
http://archive.cloudera.com/cdh5/cdh/
HDP:Hortonworks Data Platform
http://zh.hortonworks.com/hdp/downloads/
建議選擇公司發(fā)行版(不必面臨版本某一個(gè)框架的選擇問(wèn)題),比如CDH或HDP 撤奸,推薦使用CDH(國(guó)內(nèi)主流版本)
更易維護(hù)和升級(jí)
經(jīng)過(guò)集成測(cè)試吠昭,不會(huì)面臨版本兼容問(wèn)題