《Hadoop大數(shù)據(jù)技術(shù)體系：原理震叙、內(nèi)幕與項(xiàng)目實(shí)踐》課程體系

《Hadoop大數(shù)據(jù)技術(shù)體系：原理、內(nèi)幕與項(xiàng)目實(shí)踐》課程體系
課程特色：
本課程以
“互聯(lián)網(wǎng)日志分析系統(tǒng)”這一大數(shù)據(jù)應(yīng)用案例為主線散休，依次介紹相關(guān)的大數(shù)據(jù)技術(shù)媒楼，涉及數(shù)據(jù)收集，存儲(chǔ)戚丸，數(shù)據(jù)分析以及數(shù)據(jù)可視化划址，最終會(huì)形成一個(gè)完整的大數(shù)據(jù)項(xiàng)目。

本課程以目前主流的，最新Hadoop穩(wěn)定版2.7.x為基礎(chǔ)夺颤，同時(shí)兼介紹3.0版本新增特性及使用痢缎，深入淺出地介紹Hadoop大數(shù)據(jù)技術(shù)體系的原理、內(nèi)幕及案例實(shí)踐世澜，內(nèi)容包括大數(shù)據(jù)收集独旷、存儲(chǔ)、分布式資源管理以及各類主要計(jì)算引擎宜狐，
具體包括數(shù)據(jù)收集組件Flume势告、分布式文件系統(tǒng)HDFS，分布式資源管理系統(tǒng)YARN抚恒、分布式查詢引擎Hive和Presto咱台，以及數(shù)據(jù)可視化（包括Hue、D3俭驮、EChat等）回溺，涉及各組件基本原理，使用方法混萝，實(shí)戰(zhàn)經(jīng)驗(yàn)（優(yōu)化技巧）以及在線演示遗遵。

本課程精心設(shè)計(jì)了互聯(lián)網(wǎng)日志分析系統(tǒng)這一案例，幫助大家在理解理論的基礎(chǔ)上逸嘀，親手實(shí)踐Hadoop车要。

基礎(chǔ)要求：
了解Linux基礎(chǔ)知識(shí)，掌握J(rèn)ava語言基礎(chǔ)
目標(biāo)人群：
大數(shù)據(jù)愛好者崭倘，Hadoop初中級(jí)學(xué)者翼岁，希望系統(tǒng)性學(xué)習(xí)Hadoop的人
主講老師：
**

**
Hulu****大數(shù)據(jù)團(tuán)隊(duì)
董西成，畢業(yè)于中國科學(xué)院司光，hulu大數(shù)據(jù)架構(gòu)組負(fù)責(zé)人琅坡；《Hadoop技術(shù)內(nèi)幕：深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》和《Hadoop技術(shù)內(nèi)幕：深入解析YARN架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》作者；資深Hadoop技術(shù)實(shí)踐者和研究者残家，曾參與商用Hadoop原型研發(fā)榆俺，以及分布式日志系統(tǒng)、全網(wǎng)圖片搜索引擎坞淮、Hadoop調(diào)度器等項(xiàng)目的設(shè)計(jì)茴晋。

譚政，畢業(yè)于北京大學(xué)回窘，曾就職于新浪微博平臺(tái)研發(fā)部诺擅；曾參與微博核心Feed系統(tǒng)的改造，主導(dǎo)多機(jī)房數(shù)據(jù)同步和容災(zāi)部署毫玖，Spark內(nèi)核級(jí)優(yōu)化和企業(yè)推廣掀虎，Hadoop集群升級(jí)與優(yōu)化，Hive On Tez優(yōu)化以及推廣等工作付枫。

張虔熙烹玉，畢業(yè)于中國科學(xué)院，HBase Contributor阐滩；參與維護(hù)并優(yōu)化千節(jié)點(diǎn)規(guī)模的Hadoop集群二打，對(duì)分布式存儲(chǔ)系統(tǒng)有深入研究（源碼級(jí)修改），尤其擅長HDFS/HBase調(diào)優(yōu)及應(yīng)用掂榔；利用impala與presto大數(shù)據(jù)查詢引擎構(gòu)建企業(yè)級(jí)OLAP引擎继效，對(duì)高性能查詢優(yōu)化有豐富經(jīng)驗(yàn)。

課程大綱
第一部分 Hadoop 概述（共1課時(shí)）

1.1 大數(shù)據(jù)背景
1.2 大數(shù)據(jù)技術(shù)體系
1.3 Hadoop生態(tài)系統(tǒng)構(gòu)成以及核心組件
1.4 Hadoop主流發(fā)行版以及選型
包括Apache装获、CDH瑞信、 HDP等
1.5 Hadoop單機(jī)及分布式集群搭建方法（在線演示）
1.6 Hadoop典型應(yīng)用場景
包括日志分析，搜索引擎索引構(gòu)建穴豫、機(jī)器學(xué)習(xí)等
1.7 課程綜合案例：分布式日志分析系統(tǒng)
介紹分布式日志分析系統(tǒng)的背景凡简、關(guān)鍵模塊、以及采用的關(guān)鍵大數(shù)據(jù)技術(shù) 精肃。

**第二部分大數(shù)據(jù)技術(shù)體系關(guān)鍵組件原理秤涩、使用與實(shí)戰(zhàn)（共8.5課時(shí)）**** **

2.1 分布式數(shù)據(jù)收集：Flume原理與應(yīng)用（共1課時(shí)）
2.1.1 Flume產(chǎn)生背景
2.1.2 Flume基本原理及架構(gòu)
2.1.3 Flume部署模式（在線演示）
2.1.4 Flume與Hadoop整合應(yīng)用與實(shí)戰(zhàn)
2.1.5 分布式日志分析系統(tǒng)：數(shù)據(jù)收集模塊剖析
詳細(xì)介紹基于TailDir和Pool Directory Source，F(xiàn)ile Channel以及HDFS sink收集日志的flume拓?fù)錁?gòu)建方式司抱。
2.2 分布式文件系統(tǒng)：HDFS基礎(chǔ)與應(yīng)用（共1課時(shí)）
2.2.1 HDFS產(chǎn)生背景
2.2.2 HDFS基本原理
2.2.3 HDFS架構(gòu)以及關(guān)鍵組件
2.2.4 HDFS使用方式（在線演示）
2.2.5 HDFS優(yōu)化小技巧
2.2.6 分布式日志分析系統(tǒng)：文件存儲(chǔ)模塊剖析
詳細(xì)介紹日志文件在HDFS存放方式筐眷，以及如何解決小文件，文件歸檔等問題习柠。
2.3 分布式資源管理系統(tǒng)：YARN架構(gòu)與應(yīng)用（共1課時(shí)）
2.3.1 YARN產(chǎn)生背景
2.3.2 YARN基本原理以及架構(gòu)
2.3.3 YARN資源調(diào)度器（Capacity Scheduler以及Fair Scheduler）
2.3.4 YARN基于標(biāo)簽的調(diào)度策略以及啟用方式
2.3.5 YARN典型應(yīng)用場景及在大數(shù)據(jù)系統(tǒng)中的地位
2.3.6 分布式日志分析系統(tǒng)：資源管理模塊剖析
詳細(xì)介紹容量調(diào)度器匀谣，多隊(duì)列管理，如何啟用基于標(biāo)簽的調(diào)度機(jī)制
2.4 分布式計(jì)算：批處理引擎MapReduce(第一部分)（共1課時(shí)）
2.4.1 MapReduce產(chǎn)生背景
2.4.2 MapReduce基本原理
2.4.3 MapReduce基本架構(gòu)
2.4.4 MapReduce Java分布式程序設(shè)計(jì)（在線演示）
2.4.5 什么情況下Spark性能比MapReduce差
2.4.6 MapReduce的未來
2.5 分布式計(jì)算：批處理引擎MapReduce(第二部分)（共1課時(shí)）
2.5.1 MapReduce回顧
2.5.2 MapReduce多語言程序設(shè)計(jì)（在線演示）
2.5.3 MapReduce優(yōu)化小技巧
2.5.4 分布式日志分析系統(tǒng)：ETL模塊剖析
詳細(xì)介紹如何使用Java API以及Hadoop Streaming方式設(shè)計(jì)ELT程序津畸。
2.6 分布式計(jì)算：數(shù)據(jù)分析引擎Hive（第一部分）（共1課時(shí)）
2.6.1 Hive產(chǎn)生背景
2.6.2 Hive基本架構(gòu)以及部署模式
2.6.3 Hive HQL基礎(chǔ)（在線演示）
2.6.4 Hive創(chuàng)建Parquet與ORC表
2.6.5 總結(jié)
2.7 分布式計(jì)算：數(shù)據(jù)分析引擎Hive（第二部分）（共1課時(shí)）
2.7.1 Hive編程訪問
2.7.2 Hive On Tez/Spark
2.7.3 Hive優(yōu)化小技巧
2.7.4 分布式日志分析系統(tǒng)：數(shù)據(jù)倉庫模塊剖析
詳細(xì)介紹如何在Hive中進(jìn)行數(shù)據(jù)建模振定，并使用Hive查詢引擎查詢?nèi)罩緮?shù)據(jù)。
2.8 分布式計(jì)算：數(shù)據(jù)查詢引擎Presto（共1課時(shí)）
2.8.1 Presto產(chǎn)生背景
2.8.2 Presto基本架構(gòu)以及部署模式
2.8.3 Presto SQL基礎(chǔ)（在線演示）
2.8.4 Presto優(yōu)化小技巧
2.8.5 分布式日志分析系統(tǒng)：數(shù)據(jù)倉庫查詢模塊剖析
詳細(xì)介紹如何使用Presto加速數(shù)據(jù)查詢效率（相比于Hive）
2.9 大數(shù)據(jù)可視化：可視化主流方案（共0.5課時(shí)）
2.9.1 什么是大數(shù)據(jù)可視化
2.9.2 可視化主流解決方案
2.9.3 EChart肉拓，D3后频，tableau, Hue等
2.9.4 分布式日志分析系統(tǒng)：報(bào)表可視化模塊剖析
詳細(xì)介紹如何構(gòu)建日志分析系統(tǒng)的可視化模塊。

第三部分綜合案例回顧：分布式日志分析系統(tǒng)（共0.5課時(shí)）

3.1 案例背景
3.2 基本架構(gòu)與關(guān)鍵模塊
3.3 日志分析系統(tǒng)部署及維護(hù)
3.4 總結(jié)

常見問題：
Q****：會(huì)有實(shí)際上機(jī)演示和動(dòng)手操作嗎暖途？
A：有的卑惜，幾乎每節(jié)課，老師均會(huì)準(zhǔn)備上機(jī)演示部分驻售，學(xué)員可以學(xué)習(xí)老師的實(shí)踐經(jīng)驗(yàn)露久。
Q****：本課程主要是基于Hadoop 2.7.x版本嗎，如果3.0成熟了欺栗，內(nèi)容會(huì)不會(huì)過期毫痕？
A：不會(huì)的征峦。本課程以介紹Hadoop基本原理和使用技巧為主，這些內(nèi)容適用于2.x之后各個(gè)版本消请，盡管Hadoop3.x有稍許的改動(dòng)栏笆，但學(xué)員學(xué)完這門課后，應(yīng)該有能力主動(dòng)學(xué)習(xí)這些新功能和特性臊泰。
Q****：本課程有專門的答疑時(shí)間嗎蛉加？
A：有的。助教會(huì)統(tǒng)一收集學(xué)員問題缸逃，老師在每節(jié)課最后部分针饥，會(huì)在線回答20~30個(gè)問題，并由助教整理后發(fā)布到問答社區(qū)中需频。

最后編輯于：2017.12.08 06:13:28

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末丁眼，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子昭殉，更是在濱河造成了極大的恐慌户盯，老刑警劉巖，帶你破解...
沈念sama閱讀 216,591評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件饲化，死亡現(xiàn)場離奇詭異莽鸭，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)吃靠，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,448評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門硫眨，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人巢块，你說我怎么就攤上這事礁阁。” “怎么了族奢？”我有些...
開封第一講書人閱讀 162,823評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵姥闭，是天一觀的道長。經(jīng)常有香客問我越走，道長棚品，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,204評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任廊敌，我火速辦了婚禮铜跑，結(jié)果婚禮上仙畦，老公的妹妹穿的比我還像新娘耍共。我一直安慰自己排惨，他們只是感情好血公，可當(dāng)我...
茶點(diǎn)故事閱讀 67,228評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著谎替，像睡著了一般丈莺。火紅的嫁衣襯著肌膚如雪蜗细。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,190評(píng)論 1贊 299
城市分裂傳說
那天官地，我揣著相機(jī)與錄音减拭，去河邊找鬼。笑死区丑，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的修陡。我是一名探鬼主播沧侥，決...
沈念sama閱讀 40,078評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼魄鸦！你這毒婦竟也來了宴杀？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,923評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤拾因，失蹤者是張志新（化名）和其女友劉穎旺罢，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绢记，經(jīng)...
沈念sama閱讀 45,334評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡扁达，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,550評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蠢熄。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片跪解。...
茶點(diǎn)故事閱讀 39,727評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖签孔，靈堂內(nèi)的尸體忽然破棺而出叉讥，到底是詐尸還是另有隱情，我是刑警寧澤饥追，帶...
沈念sama閱讀 35,428評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布图仓，位于F島的核電站，受9級(jí)特大地震影響但绕，放射性物質(zhì)發(fā)生泄漏救崔。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,022評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一捏顺、第九天我趴在偏房一處隱蔽的房頂上張望帚豪。院中可真熱鬧，春花似錦草丧、人聲如沸狸臣。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,672評(píng)論 0贊 22
一樁弒父案昌执，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽烛亦。三九已至诈泼，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間煤禽，已是汗流浹背铐达。一陣腳步聲響...
開封第一講書人閱讀 32,826評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留檬果，地道東北人瓮孙。一個(gè)月前我還...
沈念sama閱讀 47,734評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像选脊，于是被迫代替她去往敵國和親杭抠。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,619評(píng)論 2贊 354

《Hadoop大數(shù)據(jù)技術(shù)體系：原理震叙、內(nèi)幕與項(xiàng)目實(shí)踐》課程體系

推薦閱讀更多精彩內(nèi)容