源:http://blog.csdn.net/it_man/article/details/14899905
主要介紹Hadoop家族產(chǎn)品,常用的項目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的項目包括岩调,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
從2011年開始陨献,中國進(jìn)入大數(shù)據(jù)風(fēng)起云涌的時代盒犹,以Hadoop為代表的家族軟件懂更,占據(jù)了大數(shù)據(jù)處理的廣闊地盤眨业。開源界及廠商,所有數(shù)據(jù)軟件沮协,無一不向Hadoop靠攏龄捡。Hadoop也從小眾的高富帥領(lǐng)域,變成了大數(shù)據(jù)開發(fā)的標(biāo)準(zhǔn)慷暂。在Hadoop原有技術(shù)基礎(chǔ)之上聘殖,出現(xiàn)了Hadoop家族產(chǎn)品,通過“大數(shù)據(jù)”概念不斷創(chuàng)新行瑞,推出科技進(jìn)步奸腺。
作為IT界的開發(fā)人員,我們也要跟上節(jié)奏血久,抓住機(jī)遇突照,跟著Hadoop一起雄起!
前言
使用Hadoop已經(jīng)有一段時間了氧吐,從開始的迷茫讹蘑,到各種的嘗試,到現(xiàn)在組合應(yīng)用….慢慢地涉及到數(shù)據(jù)處理的事情筑舅,已經(jīng)離不開hadoop了座慰。Hadoop在大數(shù)據(jù)領(lǐng)域的成功,更引發(fā)了它本身的加速發(fā)展〈浼穑現(xiàn)在Hadoop家族產(chǎn)品版仔,已經(jīng)達(dá)到20個了之多。
有必要對自己的知識做一個整理了误墓,把產(chǎn)品和技術(shù)都串起來邦尊。不僅能加深印象,更可以對以后的技術(shù)方向优烧,技術(shù)選型做好基礎(chǔ)準(zhǔn)備蝉揍。
本文為“Hadoop家族”開篇,Hadoop家族學(xué)習(xí)路線圖
目錄
Hadoop家族產(chǎn)品
Hadoop家族學(xué)習(xí)路線圖
截止到2013年畦娄,根據(jù)cloudera的統(tǒng)計又沾,Hadoop家族產(chǎn)品已經(jīng)達(dá)到20個!
http://blog.cloudera.com/blog/2013/01/apache-hadoop-in-2013-the-state-of-the-platform/
接下來熙卡,我把這20個產(chǎn)品杖刷,分成了2類。
第一類驳癌,是我已經(jīng)掌握的
第二類滑燃,是TODO準(zhǔn)備繼續(xù)學(xué)習(xí)的
一句話產(chǎn)品介紹:
Apache?Hadoop: 是Apache開源組織的一個分布式計算開源框架,提供了一個分布式文件系統(tǒng)子項目(HDFS)和支持MapReduce分布式計算的軟件架構(gòu)颓鲜。
Apache?Hive: 是基于Hadoop的一個數(shù)據(jù)倉庫工具表窘,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表典予,通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用乐严,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析瘤袖。
Apache?Pig: 是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析工具,它提供的SQL-LIKE語言叫Pig Latin昂验,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算捂敌。
Apache HBase: 是一個高可靠性、高性能既琴、面向列占婉、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群甫恩。
Apache Sqoop: 是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具锐涯,可以將一個關(guān)系型數(shù)據(jù)庫(MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中填物。
Apache Zookeeper: 是一個為分布式應(yīng)用所設(shè)計的分布的纹腌、開源的協(xié)調(diào)服務(wù),它主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題滞磺,簡化分布式應(yīng)用協(xié)調(diào)及其管理的難度升薯,提供高性能的分布式服務(wù)
Apache?Mahout:是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個分布式框架。Mahout用MapReduce實現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法击困,解決了并行挖掘的問題涎劈。
Apache?Cassandra:是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。它最初由Facebook開發(fā)阅茶,用于儲存簡單格式數(shù)據(jù)蛛枚,集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式的架構(gòu)于一身
Apache?Avro: 是一個數(shù)據(jù)序列化系統(tǒng),設(shè)計用于支持?jǐn)?shù)據(jù)密集型脸哀,大批量數(shù)據(jù)交換的應(yīng)用蹦浦。Avro是新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制
Apache?Ambari: 是一種基于Web的工具撞蜂,支持Hadoop集群的供應(yīng)盲镶、管理和監(jiān)控。
Apache?Chukwa: 是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)蝌诡,它可以將各種各樣類型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進(jìn)行各種 MapReduce 操作溉贿。
Apache?Hama: 是一個基于HDFS的BSP(Bulk Synchronous Parallel)并行計算框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模浦旱、大數(shù)據(jù)計算宇色。
Apache Flume: 是一個分布的、可靠的、高可用的海量日志聚合的系統(tǒng)宣蠕,可用于日志數(shù)據(jù)收集例隆,日志數(shù)據(jù)處理,日志數(shù)據(jù)傳輸植影。
Apache?Giraph: 是一個可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺涎永,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel思币。
Apache?Oozie: 是一個工作流引擎服務(wù)器, 用于管理和協(xié)調(diào)運行在Hadoop平臺上(HDFS、Pig和MapReduce)的任務(wù)羡微。
Apache?Crunch: 是基于Google的FlumeJava庫編寫的Java庫谷饿,用于創(chuàng)建MapReduce程序。與Hive妈倔,Pig類似博投,Crunch提供了用于實現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合和排序記錄等常見任務(wù)的模式庫
Apache?Whirr: 是一套運行于云服務(wù)的類庫(包括Hadoop)盯蝴,可提供高度的互補(bǔ)性毅哗。Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)。
Apache?Bigtop: 是一個對Hadoop及其周邊生態(tài)進(jìn)行打包捧挺,分發(fā)和測試的工具虑绵。
Apache?HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲管理,實現(xiàn)中央的元數(shù)據(jù)和模式管理闽烙,跨越Hadoop和RDBMS翅睛,利用Pig和Hive提供關(guān)系視圖。
Cloudera?Hue: 是一個基于WEB的監(jiān)控和管理系統(tǒng)黑竞,實現(xiàn)對HDFS捕发,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。
下面我將分別介紹各個產(chǎn)品的安裝和使用很魂,以我經(jīng)驗總結(jié)我的學(xué)習(xí)路線扎酷。
Hadoop
Yarn學(xué)習(xí)路線圖
海量Web日志分析 用Hadoop提取KPI統(tǒng)計指標(biāo)
RHadoop實踐系列之一 Hadoop環(huán)境搭建
Pig
Zookeeper
Mahout
用R解析Mahout用戶推薦協(xié)同過濾算法(UserCF)
RHadoop實踐系列之三 R實現(xiàn)MapReduce的協(xié)同過濾算法
Mahout分步式程序開發(fā) 基于物品的協(xié)同過濾ItemCF
Sqoop
Cassandra