Hadoop的學(xué)習(xí)路線圖

目錄:

.1.Hadoop家族產(chǎn)品

2.Hadoop家族學(xué)習(xí)路線圖

Hadoop家族產(chǎn)品

截止到2013年,根據(jù)cloudera的統(tǒng)計毅访,Hadoop家族產(chǎn)品已經(jīng)達(dá)到20個白群!

接下來,我把這20個產(chǎn)品签钩,分成了2類掏呼。

?第一類,是我已經(jīng)掌握的

?第二類铅檩,是TODO準(zhǔn)備繼續(xù)學(xué)習(xí)的

一句話產(chǎn)品介紹:

?Apache?Hadoop: 是Apache開源組織的一個分布式計算開源框架憎夷,提供了一個分布式文件系統(tǒng)子項目(HDFS)和支持MapReduce分布式計算的軟件架構(gòu)。

?Apache?Hive: 是基于Hadoop的一個數(shù)據(jù)倉庫工具昧旨,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表拾给,通過類SQL語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計祥得,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析蒋得。

?Apache?Pig: 是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析工具级及,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算额衙。

?Apache HBase: 是一個高可靠性饮焦、高性能、面向列窍侧、可伸縮的分布式存儲系統(tǒng)县踢,利用HBase技術(shù)可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。

?Apache Sqoop: 是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具疏之,可以將一個關(guān)系型數(shù)據(jù)庫(MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中殿雪,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。

?Apache Zookeeper: 是一個為分布式應(yīng)用所設(shè)計的分布的锋爪、開源的協(xié)調(diào)服務(wù)丙曙,它主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,簡化分布式應(yīng)用協(xié)調(diào)及其管理的難度其骄,提供高性能的分布式服務(wù)

?Apache?Mahout:是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個分布式框架亏镰。Mahout用MapReduce實(shí)現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法,解決了并行挖掘的問題拯爽。

?Apache?Cassandra:是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)索抓。它最初由Facebook開發(fā),用于儲存簡單格式數(shù)據(jù)毯炮,集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式的架構(gòu)于一身

?Apache?Avro: 是一個數(shù)據(jù)序列化系統(tǒng)逼肯,設(shè)計用于支持?jǐn)?shù)據(jù)密集型,大批量數(shù)據(jù)交換的應(yīng)用桃煎。Avro是新的數(shù)據(jù)序列化格式與傳輸工具篮幢,將逐步取代Hadoop原有的IPC機(jī)制

?Apache?Ambari: 是一種基于Web的工具,支持Hadoop集群的供應(yīng)为迈、管理和監(jiān)控三椿。

?Apache?Chukwa: 是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),它可以將各種各樣類型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進(jìn)行各種 MapReduce 操作葫辐。

?Apache?Hama: 是一個基于HDFS的BSP(Bulk Synchronous Parallel)并行計算框架, Hama可用于包括圖搜锰、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計算耿战。

?Apache Flume: 是一個分布的蛋叼、可靠的、高可用的海量日志聚合的系統(tǒng)剂陡,可用于日志數(shù)據(jù)收集鸦列,日志數(shù)據(jù)處理租冠,日志數(shù)據(jù)傳輸。

?Apache?Giraph: 是一個可伸縮的分布式迭代圖處理系統(tǒng)薯嗤, 基于Hadoop平臺顽爹,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel骆姐。

?Apache?Oozie: 是一個工作流引擎服務(wù)器, 用于管理和協(xié)調(diào)運(yùn)行在Hadoop平臺上(HDFS、Pig和MapReduce)的任務(wù)。

?Apache?Crunch: 是基于Google的FlumeJava庫編寫的Java庫券勺,用于創(chuàng)建MapReduce程序匣吊。與Hive社痛,Pig類似蒜哀,Crunch提供了用于實(shí)現(xiàn)如連接數(shù)據(jù)赊抖、執(zhí)行聚合和排序記錄等常見任務(wù)的模式庫

?Apache?Whirr: 是一套運(yùn)行于云服務(wù)的類庫(包括Hadoop)耸成,可提供高度的互補(bǔ)性岳链。Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)零远。

?Apache?Bigtop: 是一個對Hadoop及其周邊生態(tài)進(jìn)行打包,分發(fā)和測試的工具。

?Apache?HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲管理罢猪,實(shí)現(xiàn)中央的元數(shù)據(jù)和模式管理近她,跨越Hadoop和RDBMS,利用Pig和Hive提供關(guān)系視圖膳帕。

?Cloudera?Hue: 是一個基于WEB的監(jiān)控和管理系統(tǒng)粘捎,實(shí)現(xiàn)對HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理危彩。

Hadoop家族學(xué)習(xí)路線圖

下面我將分別介紹各個產(chǎn)品的安裝和使用笑跛,以我經(jīng)驗總結(jié)我的學(xué)習(xí)路線削茁。

Hadoop

?Hadoop學(xué)習(xí)路線圖

?Yarn學(xué)習(xí)路線圖

?用Maven構(gòu)建Hadoop項目

?Hadoop歷史版本安裝

?Hadoop編程調(diào)用HDFS

?海量Web日志分析 用Hadoop提取KPI統(tǒng)計指標(biāo)

?用Hadoop構(gòu)建電影推薦系統(tǒng)

創(chuàng)建Hadoop母體虛擬機(jī)

?克隆虛擬機(jī)增加Hadoop節(jié)點(diǎn)

?R語言為Hadoop注入統(tǒng)計血脈

?RHadoop實(shí)踐系列之一 Hadoop環(huán)境搭建

?用MapReduce實(shí)現(xiàn)矩陣乘法

?PageRank算法并行實(shí)現(xiàn)

?PeopleRank從社交網(wǎng)絡(luò)中發(fā)現(xiàn)個體價值

Hive

?Hive學(xué)習(xí)路線圖

?Hive安裝及使用攻略

?Hive導(dǎo)入10G數(shù)據(jù)的測試

?R利劍NoSQL系列文章 之 Hive

?用RHive從歷史數(shù)據(jù)中提取逆回購信息

Pig

?Pig學(xué)習(xí)路線圖

Zookeeper

?Zookeeper學(xué)習(xí)路線圖

?ZooKeeper偽分步式集群安裝及使用

?ZooKeeper實(shí)現(xiàn)分布式隊列Queue

?ZooKeeper實(shí)現(xiàn)分布式FIFO隊列

?基于Zookeeper的分步式隊列系統(tǒng)集成案例

HBase

?HBase學(xué)習(xí)路線圖

?在Ubuntu中安裝HBase

?RHadoop實(shí)踐系列之四 ?rhbase安裝與使用

Mahout

?Mahout學(xué)習(xí)路線圖

?用R解析Mahout用戶推薦協(xié)同過濾算法(UserCF)

?RHadoop實(shí)踐系列之三 R實(shí)現(xiàn)MapReduce的協(xié)同過濾算法

?用Maven構(gòu)建Mahout項目

?Mahout推薦算法API詳解

?從源代碼剖析Mahout推薦引擎

?Mahout分步式程序開發(fā) 基于物品的協(xié)同過濾ItemCF

?Mahout分步式程序開發(fā) 聚類Kmeans

?用Mahout構(gòu)建職位推薦引擎

?Mahout構(gòu)建圖書推薦系統(tǒng)

Sqoop

?Sqoop學(xué)習(xí)路線圖

Cassandra

?Cassandra學(xué)習(xí)路線圖

?Cassandra單集群實(shí)驗2個節(jié)點(diǎn)

?R利劍NoSQL系列文章 之 Cassandra

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子饭入,更是在濱河造成了極大的恐慌,老刑警劉巖割粮,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件争便,死亡現(xiàn)場離奇詭異,居然都是意外死亡完疫,警方通過查閱死者的電腦和手機(jī)泰鸡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來壳鹤,“玉大人盛龄,你說我怎么就攤上這事。” “怎么了余舶?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵啊鸭,是天一觀的道長。 經(jīng)常有香客問我匿值,道長赠制,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任千扔,我火速辦了婚禮憎妙,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘曲楚。我一直安慰自己厘唾,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布龙誊。 她就那樣靜靜地躺著抚垃,像睡著了一般。 火紅的嫁衣襯著肌膚如雪趟大。 梳的紋絲不亂的頭發(fā)上鹤树,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天,我揣著相機(jī)與錄音逊朽,去河邊找鬼罕伯。 笑死,一個胖子當(dāng)著我的面吹牛叽讳,可吹牛的內(nèi)容都是我干的追他。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼岛蚤,長吁一口氣:“原來是場噩夢啊……” “哼邑狸!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起涤妒,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤单雾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后她紫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體硅堆,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年贿讹,在試婚紗的時候發(fā)現(xiàn)自己被綠了渐逃。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡围详,死狀恐怖朴乖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情助赞,我是刑警寧澤买羞,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站雹食,受9級特大地震影響畜普,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜群叶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一吃挑、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧街立,春花似錦舶衬、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至梁剔,卻和暖如春虽画,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背荣病。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工码撰, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人个盆。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓脖岛,卻偏偏與公主長得像,于是被迫代替她去往敵國和親砾省。 傳聞我的和親對象是個殘疾皇子鸡岗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容