《Hadoop大數(shù)據(jù)技術(shù)體系:原理震叙、內(nèi)幕與項(xiàng)目實(shí)踐》課程體系

《Hadoop大數(shù)據(jù)技術(shù)體系:原理、內(nèi)幕與項(xiàng)目實(shí)踐》課程體系
課程特色:
本課程以
互聯(lián)網(wǎng)日志分析系統(tǒng)”這一大數(shù)據(jù)應(yīng)用案例為主線散休,依次介紹相關(guān)的大數(shù)據(jù)技術(shù)媒楼,涉及數(shù)據(jù)收集,存儲(chǔ)戚丸,數(shù)據(jù)分析以及數(shù)據(jù)可視化划址,最終會(huì)形成一個(gè)完整的大數(shù)據(jù)項(xiàng)目。

本課程以目前主流的,最新Hadoop穩(wěn)定版2.7.x為基礎(chǔ)夺颤,同時(shí)兼介紹3.0版本新增特性及使用痢缎,深入淺出地介紹Hadoop大數(shù)據(jù)技術(shù)體系的原理、內(nèi)幕及案例實(shí)踐世澜, 內(nèi)容包括大數(shù)據(jù)收集独旷、存儲(chǔ)、分布式資源管理以及各類主要計(jì)算引擎宜狐,
具體包括數(shù)據(jù)收集組件Flume势告、分布式文件系統(tǒng)HDFS,分布式資源管理系統(tǒng)YARN抚恒、分布式查詢引擎Hive和Presto咱台,以及數(shù)據(jù)可視化(包括Hue、D3俭驮、EChat等)回溺,涉及各組件基本原理,使用方法混萝,實(shí)戰(zhàn)經(jīng)驗(yàn)(優(yōu)化技巧)以及在線演示遗遵。

本課程精心設(shè)計(jì)了互聯(lián)網(wǎng)日志分析系統(tǒng)這一案例,幫助大家在理解理論的基礎(chǔ)上逸嘀,親手實(shí)踐Hadoop车要。

基礎(chǔ)要求:
了解Linux基礎(chǔ)知識(shí),掌握J(rèn)ava語言基礎(chǔ)
目標(biāo)人群:
大數(shù)據(jù)愛好者崭倘,Hadoop初中級(jí)學(xué)者翼岁,希望系統(tǒng)性學(xué)習(xí)Hadoop的人
主講老師:
**

**
Hulu****大數(shù)據(jù)團(tuán)隊(duì)
董西成,畢業(yè)于中國科學(xué)院司光,hulu大數(shù)據(jù)架構(gòu)組負(fù)責(zé)人琅坡;《Hadoop技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》和《Hadoop技術(shù)內(nèi)幕:深入解析YARN架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》作者;資深Hadoop技術(shù)實(shí)踐者和研究者残家,曾參與商用Hadoop原型研發(fā)榆俺,以及分布式日志系統(tǒng)、全網(wǎng)圖片搜索引擎坞淮、Hadoop調(diào)度器等項(xiàng)目的設(shè)計(jì)茴晋。

譚政,畢業(yè)于北京大學(xué)回窘,曾就職于新浪微博平臺(tái)研發(fā)部诺擅;曾參與微博核心Feed系統(tǒng)的改造,主導(dǎo)多機(jī)房數(shù)據(jù)同步和容災(zāi)部署毫玖,Spark內(nèi)核級(jí)優(yōu)化和企業(yè)推廣掀虎,Hadoop集群升級(jí)與優(yōu)化,Hive On Tez優(yōu)化以及推廣等工作付枫。

張虔熙烹玉,畢業(yè)于中國科學(xué)院,HBase Contributor阐滩;參與維護(hù)并優(yōu)化千節(jié)點(diǎn)規(guī)模的Hadoop集群二打,對(duì)分布式存儲(chǔ)系統(tǒng)有深入研究(源碼級(jí)修改),尤其擅長HDFS/HBase調(diào)優(yōu)及應(yīng)用掂榔;利用impala與presto大數(shù)據(jù)查詢引擎構(gòu)建企業(yè)級(jí)OLAP引擎继效,對(duì)高性能查詢優(yōu)化有豐富經(jīng)驗(yàn)。

課程大綱
第一部分 Hadoop 概述(共1課時(shí))

1.1 大數(shù)據(jù)背景
1.2 大數(shù)據(jù)技術(shù)體系
1.3 Hadoop生態(tài)系統(tǒng)構(gòu)成以及核心組件
1.4 Hadoop主流發(fā)行版以及選型
包括Apache装获、CDH瑞信、 HDP等
1.5 Hadoop單機(jī)及分布式集群搭建方法(在線演示)
1.6 Hadoop典型應(yīng)用場景
包括日志分析,搜索引擎索引構(gòu)建穴豫、機(jī)器學(xué)習(xí)等
1.7 課程綜合案例:分布式日志分析系統(tǒng)
介紹分布式日志分析系統(tǒng)的背景凡简、關(guān)鍵模塊、以及采用的關(guān)鍵大數(shù)據(jù)技術(shù) 精肃。

**第二部分 大數(shù)據(jù)技術(shù)體系關(guān)鍵組件原理秤涩、使用與實(shí)戰(zhàn)(共8.5課時(shí))**** **

2.1 分布式數(shù)據(jù)收集:Flume原理與應(yīng)用(共1課時(shí))
2.1.1 Flume產(chǎn)生背景
2.1.2 Flume基本原理及架構(gòu)
2.1.3 Flume部署模式(在線演示)
2.1.4 Flume與Hadoop整合應(yīng)用與實(shí)戰(zhàn)
2.1.5 分布式日志分析系統(tǒng):數(shù)據(jù)收集模塊剖析
詳細(xì)介紹基于TailDir和Pool Directory Source,F(xiàn)ile Channel以及HDFS sink收集日志的flume拓?fù)錁?gòu)建方式司抱。
2.2 分布式文件系統(tǒng):HDFS基礎(chǔ)與應(yīng)用(共1課時(shí))
2.2.1 HDFS產(chǎn)生背景
2.2.2 HDFS基本原理
2.2.3 HDFS架構(gòu)以及關(guān)鍵組件
2.2.4 HDFS使用方式(在線演示)
2.2.5 HDFS優(yōu)化小技巧
2.2.6 分布式日志分析系統(tǒng):文件存儲(chǔ)模塊剖析
詳細(xì)介紹日志文件在HDFS存放方式筐眷,以及如何解決小文件,文件歸檔等問題习柠。
2.3 分布式資源管理系統(tǒng):YARN架構(gòu)與應(yīng)用 (共1課時(shí))
2.3.1 YARN產(chǎn)生背景
2.3.2 YARN基本原理以及架構(gòu)
2.3.3 YARN資源調(diào)度器(Capacity Scheduler以及Fair Scheduler)
2.3.4 YARN基于標(biāo)簽的調(diào)度策略以及啟用方式
2.3.5 YARN典型應(yīng)用場景及在大數(shù)據(jù)系統(tǒng)中的地位
2.3.6 分布式日志分析系統(tǒng):資源管理模塊剖析
詳細(xì)介紹容量調(diào)度器匀谣,多隊(duì)列管理,如何啟用基于標(biāo)簽的調(diào)度機(jī)制
2.4 分布式計(jì)算:批處理引擎MapReduce(第一部分)(共1課時(shí))
2.4.1 MapReduce產(chǎn)生背景
2.4.2 MapReduce基本原理
2.4.3 MapReduce基本架構(gòu)
2.4.4 MapReduce Java分布式程序設(shè)計(jì)(在線演示)
2.4.5 什么情況下Spark性能比MapReduce差
2.4.6 MapReduce的未來
2.5 分布式計(jì)算:批處理引擎MapReduce(第二部分)(共1課時(shí))
2.5.1 MapReduce回顧
2.5.2 MapReduce多語言程序設(shè)計(jì)(在線演示)
2.5.3 MapReduce優(yōu)化小技巧
2.5.4 分布式日志分析系統(tǒng):ETL模塊剖析
詳細(xì)介紹如何使用Java API以及Hadoop Streaming方式設(shè)計(jì)ELT程序津畸。
2.6 分布式計(jì)算:數(shù)據(jù)分析引擎Hive(第一部分)(共1課時(shí))
2.6.1 Hive產(chǎn)生背景
2.6.2 Hive基本架構(gòu)以及部署模式
2.6.3 Hive HQL基礎(chǔ)(在線演示)
2.6.4 Hive創(chuàng)建Parquet與ORC表
2.6.5 總結(jié)
2.7 分布式計(jì)算:數(shù)據(jù)分析引擎Hive(第二部分)(共1課時(shí))
2.7.1 Hive編程訪問
2.7.2 Hive On Tez/Spark
2.7.3 Hive優(yōu)化小技巧
2.7.4 分布式日志分析系統(tǒng):數(shù)據(jù)倉庫模塊剖析
詳細(xì)介紹如何在Hive中進(jìn)行數(shù)據(jù)建模振定,并使用Hive查詢引擎查詢?nèi)罩緮?shù)據(jù)。
2.8 分布式計(jì)算:數(shù)據(jù)查詢引擎Presto(共1課時(shí))
2.8.1 Presto產(chǎn)生背景
2.8.2 Presto基本架構(gòu)以及部署模式
2.8.3 Presto SQL基礎(chǔ)(在線演示)
2.8.4 Presto優(yōu)化小技巧
2.8.5 分布式日志分析系統(tǒng):數(shù)據(jù)倉庫查詢模塊剖析
詳細(xì)介紹如何使用Presto加速數(shù)據(jù)查詢效率(相比于Hive)
2.9 大數(shù)據(jù)可視化:可視化主流方案(共0.5課時(shí))
2.9.1 什么是大數(shù)據(jù)可視化
2.9.2 可視化主流解決方案
2.9.3 EChart肉拓,D3后频,tableau, Hue等
2.9.4 分布式日志分析系統(tǒng):報(bào)表可視化模塊剖析
詳細(xì)介紹如何構(gòu)建日志分析系統(tǒng)的可視化模塊。

第三部分 綜合案例回顧:分布式日志分析系統(tǒng)(共0.5課時(shí))

3.1 案例背景
3.2 基本架構(gòu)與關(guān)鍵模塊
3.3 日志分析系統(tǒng)部署及維護(hù)
3.4 總結(jié)

常見問題:
Q****: 會(huì)有實(shí)際上機(jī)演示和動(dòng)手操作嗎暖途?
A: 有的卑惜,幾乎每節(jié)課,老師均會(huì)準(zhǔn)備上機(jī)演示部分驻售,學(xué)員可以學(xué)習(xí)老師的實(shí)踐經(jīng)驗(yàn)露久。
Q****: 本課程主要是基于Hadoop 2.7.x版本嗎,如果3.0成熟了欺栗,內(nèi)容會(huì)不會(huì)過期毫痕?
A: 不會(huì)的征峦。本課程以介紹Hadoop基本原理和使用技巧為主,這些內(nèi)容適用于2.x之后各個(gè)版本消请,盡管Hadoop3.x有稍許的改動(dòng)栏笆,但學(xué)員學(xué)完這門課后,應(yīng)該有能力主動(dòng)學(xué)習(xí)這些新功能和特性臊泰。
Q****: 本課程有專門的答疑時(shí)間嗎蛉加?
A: 有的。助教會(huì)統(tǒng)一收集學(xué)員問題缸逃,老師在每節(jié)課最后部分针饥,會(huì)在線回答20~30個(gè)問題,并由助教整理后發(fā)布到問答社區(qū)中需频。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末丁眼,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子昭殉,更是在濱河造成了極大的恐慌户盯,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件饲化,死亡現(xiàn)場離奇詭異莽鸭,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)吃靠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門硫眨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人巢块,你說我怎么就攤上這事礁阁。” “怎么了族奢?”我有些...
    開封第一講書人閱讀 162,823評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵姥闭,是天一觀的道長。 經(jīng)常有香客問我越走,道長棚品,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,204評(píng)論 1 292
  • 正文 為了忘掉前任廊敌,我火速辦了婚禮铜跑,結(jié)果婚禮上仙畦,老公的妹妹穿的比我還像新娘耍共。我一直安慰自己排惨,他們只是感情好血公,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著谎替,像睡著了一般丈莺。 火紅的嫁衣襯著肌膚如雪蜗细。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,190評(píng)論 1 299
  • 那天官地,我揣著相機(jī)與錄音减拭,去河邊找鬼。 笑死区丑,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的修陡。 我是一名探鬼主播沧侥,決...
    沈念sama閱讀 40,078評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼魄鸦!你這毒婦竟也來了宴杀?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,923評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤拾因,失蹤者是張志新(化名)和其女友劉穎旺罢,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绢记,經(jīng)...
    沈念sama閱讀 45,334評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡扁达,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蠢熄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片跪解。...
    茶點(diǎn)故事閱讀 39,727評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖签孔,靈堂內(nèi)的尸體忽然破棺而出叉讥,到底是詐尸還是另有隱情,我是刑警寧澤饥追,帶...
    沈念sama閱讀 35,428評(píng)論 5 343
  • 正文 年R本政府宣布图仓,位于F島的核電站,受9級(jí)特大地震影響但绕,放射性物質(zhì)發(fā)生泄漏救崔。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評(píng)論 3 326
  • 文/蒙蒙 一捏顺、第九天 我趴在偏房一處隱蔽的房頂上張望帚豪。 院中可真熱鬧,春花似錦草丧、人聲如沸狸臣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽烛亦。三九已至诈泼,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間煤禽,已是汗流浹背铐达。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留檬果,地道東北人瓮孙。 一個(gè)月前我還...
    沈念sama閱讀 47,734評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像选脊,于是被迫代替她去往敵國和親杭抠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容