Hadoop家族學(xué)習(xí)路線圖

源：http://blog.csdn.net/it_man/article/details/14899905

主要介紹Hadoop家族產(chǎn)品，常用的項目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的項目包括岩调，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

從2011年開始陨献，中國進(jìn)入大數(shù)據(jù)風(fēng)起云涌的時代盒犹，以Hadoop為代表的家族軟件懂更，占據(jù)了大數(shù)據(jù)處理的廣闊地盤眨业。開源界及廠商，所有數(shù)據(jù)軟件沮协，無一不向Hadoop靠攏龄捡。Hadoop也從小眾的高富帥領(lǐng)域，變成了大數(shù)據(jù)開發(fā)的標(biāo)準(zhǔn)慷暂。在Hadoop原有技術(shù)基礎(chǔ)之上聘殖，出現(xiàn)了Hadoop家族產(chǎn)品，通過“大數(shù)據(jù)”概念不斷創(chuàng)新行瑞，推出科技進(jìn)步奸腺。

作為IT界的開發(fā)人員，我們也要跟上節(jié)奏血久，抓住機(jī)遇突照，跟著Hadoop一起雄起！

前言

使用Hadoop已經(jīng)有一段時間了氧吐，從開始的迷茫讹蘑，到各種的嘗試，到現(xiàn)在組合應(yīng)用….慢慢地涉及到數(shù)據(jù)處理的事情筑舅，已經(jīng)離不開hadoop了座慰。Hadoop在大數(shù)據(jù)領(lǐng)域的成功，更引發(fā)了它本身的加速發(fā)展〈浼穑現(xiàn)在Hadoop家族產(chǎn)品版仔，已經(jīng)達(dá)到20個了之多。

有必要對自己的知識做一個整理了误墓，把產(chǎn)品和技術(shù)都串起來邦尊。不僅能加深印象，更可以對以后的技術(shù)方向优烧，技術(shù)選型做好基礎(chǔ)準(zhǔn)備蝉揍。

本文為“Hadoop家族”開篇，Hadoop家族學(xué)習(xí)路線圖

Hadoop家族產(chǎn)品

Hadoop家族學(xué)習(xí)路線圖

1. Hadoop家族產(chǎn)品

截止到2013年畦娄，根據(jù)cloudera的統(tǒng)計又沾，Hadoop家族產(chǎn)品已經(jīng)達(dá)到20個！

http://blog.cloudera.com/blog/2013/01/apache-hadoop-in-2013-the-state-of-the-platform/

接下來熙卡，我把這20個產(chǎn)品杖刷，分成了2類。

第一類驳癌，是我已經(jīng)掌握的

第二類滑燃，是TODO準(zhǔn)備繼續(xù)學(xué)習(xí)的

一句話產(chǎn)品介紹:

Apache?Hadoop: 是Apache開源組織的一個分布式計算開源框架，提供了一個分布式文件系統(tǒng)子項目(HDFS)和支持MapReduce分布式計算的軟件架構(gòu)颓鲜。

Apache?Hive: 是基于Hadoop的一個數(shù)據(jù)倉庫工具表窘，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表典予，通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計，不必開發(fā)專門的MapReduce應(yīng)用乐严，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析瘤袖。

Apache?Pig: 是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析工具，它提供的SQL-LIKE語言叫Pig Latin昂验，該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算捂敌。

Apache HBase: 是一個高可靠性、高性能既琴、面向列占婉、可伸縮的分布式存儲系統(tǒng)，利用HBase技術(shù)可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群甫恩。

Apache Sqoop: 是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具锐涯，可以將一個關(guān)系型數(shù)據(jù)庫（MySQL ,Oracle ,Postgres等）中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中填物。

Apache Zookeeper: 是一個為分布式應(yīng)用所設(shè)計的分布的纹腌、開源的協(xié)調(diào)服務(wù)，它主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題滞磺，簡化分布式應(yīng)用協(xié)調(diào)及其管理的難度升薯，提供高性能的分布式服務(wù)

Apache?Mahout:是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個分布式框架。Mahout用MapReduce實現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法击困，解決了并行挖掘的問題涎劈。

Apache?Cassandra:是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。它最初由Facebook開發(fā)阅茶，用于儲存簡單格式數(shù)據(jù)蛛枚，集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式的架構(gòu)于一身

Apache?Avro: 是一個數(shù)據(jù)序列化系統(tǒng)，設(shè)計用于支持?jǐn)?shù)據(jù)密集型脸哀，大批量數(shù)據(jù)交換的應(yīng)用蹦浦。Avro是新的數(shù)據(jù)序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機(jī)制

Apache?Ambari: 是一種基于Web的工具撞蜂，支持Hadoop集群的供應(yīng)盲镶、管理和監(jiān)控。

Apache?Chukwa: 是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)蝌诡，它可以將各種各樣類型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進(jìn)行各種 MapReduce 操作溉贿。

Apache?Hama: 是一個基于HDFS的BSP（Bulk Synchronous Parallel)并行計算框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模浦旱、大數(shù)據(jù)計算宇色。

Apache Flume: 是一個分布的、可靠的、高可用的海量日志聚合的系統(tǒng)宣蠕，可用于日志數(shù)據(jù)收集例隆，日志數(shù)據(jù)處理，日志數(shù)據(jù)傳輸植影。

Apache?Giraph: 是一個可伸縮的分布式迭代圖處理系統(tǒng)，基于Hadoop平臺涎永，靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel思币。

Apache?Oozie: 是一個工作流引擎服務(wù)器, 用于管理和協(xié)調(diào)運行在Hadoop平臺上（HDFS、Pig和MapReduce）的任務(wù)羡微。

Apache?Crunch: 是基于Google的FlumeJava庫編寫的Java庫谷饿，用于創(chuàng)建MapReduce程序。與Hive妈倔，Pig類似博投，Crunch提供了用于實現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合和排序記錄等常見任務(wù)的模式庫

Apache?Whirr: 是一套運行于云服務(wù)的類庫（包括Hadoop）盯蝴，可提供高度的互補(bǔ)性毅哗。Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)。

Apache?Bigtop: 是一個對Hadoop及其周邊生態(tài)進(jìn)行打包捧挺，分發(fā)和測試的工具虑绵。

Apache?HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲管理，實現(xiàn)中央的元數(shù)據(jù)和模式管理闽烙，跨越Hadoop和RDBMS翅睛，利用Pig和Hive提供關(guān)系視圖。

Cloudera?Hue: 是一個基于WEB的監(jiān)控和管理系統(tǒng)黑竞，實現(xiàn)對HDFS捕发，MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

2. Hadoop家族學(xué)習(xí)路線圖

下面我將分別介紹各個產(chǎn)品的安裝和使用很魂，以我經(jīng)驗總結(jié)我的學(xué)習(xí)路線扎酷。

Hadoop

Hadoop學(xué)習(xí)路線圖

Yarn學(xué)習(xí)路線圖

用Maven構(gòu)建Hadoop項目

Hadoop歷史版本安裝

Hadoop編程調(diào)用HDFS

海量Web日志分析用Hadoop提取KPI統(tǒng)計指標(biāo)

用Hadoop構(gòu)建電影推薦系統(tǒng)

創(chuàng)建Hadoop母體虛擬機(jī)

克隆虛擬機(jī)增加Hadoop節(jié)點

R語言為Hadoop注入統(tǒng)計血脈

RHadoop實踐系列之一 Hadoop環(huán)境搭建

Hive

Hive學(xué)習(xí)路線圖

Hive安裝及使用攻略

Hive導(dǎo)入10G數(shù)據(jù)的測試

R利劍NoSQL系列文章之 Hive

用RHive從歷史數(shù)據(jù)中提取逆回購信息

Pig

Pig學(xué)習(xí)路線圖

Zookeeper

Zookeeper學(xué)習(xí)路線圖

ZooKeeper偽分步式集群安裝及使用

ZooKeeper實現(xiàn)分布式隊列Queue

ZooKeeper實現(xiàn)分布式FIFO隊列

Hbase

HBase學(xué)習(xí)路線圖

RHadoop實踐系列之四 ?rhbase安裝與使用

Mahout

Mahout學(xué)習(xí)路線圖

用R解析Mahout用戶推薦協(xié)同過濾算法(UserCF)

RHadoop實踐系列之三 R實現(xiàn)MapReduce的協(xié)同過濾算法

用Maven構(gòu)建Mahout項目

Mahout推薦算法API詳解

從源代碼剖析Mahout推薦引擎

Mahout分步式程序開發(fā) 基于物品的協(xié)同過濾ItemCF

Mahout分步式程序開發(fā) 聚類Kmeans

用Mahout構(gòu)建職位推薦引擎

Sqoop

Sqoop學(xué)習(xí)路線圖

Cassandra

Cassandra學(xué)習(xí)路線圖

Cassandra單集群實驗2個節(jié)點

R利劍NoSQL系列文章之 Cassandra

最后編輯于：2017.12.05 23:44:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市遏匆，隨后出現(xiàn)的幾起案子霞玄，更是在濱河造成了極大的恐慌，老刑警劉巖拉岁，帶你破解...
沈念sama閱讀 217,542評論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件坷剧，死亡現(xiàn)場離奇詭異，居然都是意外死亡喊暖，警方通過查閱死者的電腦和手機(jī)惫企，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,822評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人狞尔，你說我怎么就攤上這事丛版。” “怎么了偏序？”我有些...
開封第一講書人閱讀 163,912評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵页畦，是天一觀的道長。經(jīng)常有香客問我研儒，道長豫缨，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,449評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任端朵，我火速辦了婚禮好芭，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘冲呢。我一直安慰自己舍败，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,500評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布敬拓。她就那樣靜靜地躺著邻薯，像睡著了一般。火紅的嫁衣襯著肌膚如雪乘凸。梳的紋絲不亂的頭發(fā)上弛说，一...
開封第一講書人閱讀 51,370評論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音翰意，去河邊找鬼木人。笑死，一個胖子當(dāng)著我的面吹牛冀偶，可吹牛的內(nèi)容都是我干的醒第。我是一名探鬼主播，決...
沈念sama閱讀 40,193評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼进鸠，長吁一口氣：“原來是場噩夢啊……” “哼稠曼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起客年，我...
開封第一講書人閱讀 39,074評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤霞幅，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后量瓜，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體司恳，經(jīng)...
沈念sama閱讀 45,505評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,722評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年绍傲，在試婚紗的時候發(fā)現(xiàn)自己被綠了扔傅。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片耍共。...
茶點故事閱讀 39,841評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖猎塞，靈堂內(nèi)的尸體忽然破棺而出试读，到底是詐尸還是另有隱情，我是刑警寧澤荠耽，帶...
沈念sama閱讀 35,569評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布钩骇，位于F島的核電站，受9級特大地震影響铝量，放射性物質(zhì)發(fā)生泄漏倘屹。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,168評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一款违、第九天我趴在偏房一處隱蔽的房頂上張望唐瀑。院中可真熱鬧群凶，春花似錦插爹、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,783評論 0贊 22
一樁弒父案赠尾，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至毅弧，卻和暖如春气嫁，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背够坐。一陣腳步聲響...
開封第一講書人閱讀 32,918評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工寸宵，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人元咙。一個月前我還...
沈念sama閱讀 47,962評論 2贊 370
代替公主和親
正文我出身青樓梯影，卻偏偏與公主長得像，于是被迫代替她去往敵國和親庶香。傳聞我的和親對象是個殘疾皇子甲棍，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,781評論 2贊 354

Hadoop家族學(xué)習(xí)路線圖

推薦閱讀更多精彩內(nèi)容