《Hadoop大數(shù)據(jù)技術(shù)體系:原理、內(nèi)幕與項(xiàng)目實(shí)踐》課程體系
課程特色:
本課程以
“互聯(lián)網(wǎng)日志分析系統(tǒng)”這一大數(shù)據(jù)應(yīng)用案例為主線散休,依次介紹相關(guān)的大數(shù)據(jù)技術(shù)媒楼,涉及數(shù)據(jù)收集,存儲(chǔ)戚丸,數(shù)據(jù)分析以及數(shù)據(jù)可視化划址,最終會(huì)形成一個(gè)完整的大數(shù)據(jù)項(xiàng)目。
本課程以目前主流的,最新Hadoop穩(wěn)定版2.7.x為基礎(chǔ)夺颤,同時(shí)兼介紹3.0版本新增特性及使用痢缎,深入淺出地介紹Hadoop大數(shù)據(jù)技術(shù)體系的原理、內(nèi)幕及案例實(shí)踐世澜, 內(nèi)容包括大數(shù)據(jù)收集独旷、存儲(chǔ)、分布式資源管理以及各類主要計(jì)算引擎宜狐,
具體包括數(shù)據(jù)收集組件Flume势告、分布式文件系統(tǒng)HDFS,分布式資源管理系統(tǒng)YARN抚恒、分布式查詢引擎Hive和Presto咱台,以及數(shù)據(jù)可視化(包括Hue、D3俭驮、EChat等)回溺,涉及各組件基本原理,使用方法混萝,實(shí)戰(zhàn)經(jīng)驗(yàn)(優(yōu)化技巧)以及在線演示遗遵。
本課程精心設(shè)計(jì)了互聯(lián)網(wǎng)日志分析系統(tǒng)這一案例,幫助大家在理解理論的基礎(chǔ)上逸嘀,親手實(shí)踐Hadoop车要。
基礎(chǔ)要求:
了解Linux基礎(chǔ)知識(shí),掌握J(rèn)ava語言基礎(chǔ)
目標(biāo)人群:
大數(shù)據(jù)愛好者崭倘,Hadoop初中級(jí)學(xué)者翼岁,希望系統(tǒng)性學(xué)習(xí)Hadoop的人
主講老師:
**
Hulu****大數(shù)據(jù)團(tuán)隊(duì)
董西成,畢業(yè)于中國科學(xué)院司光,hulu大數(shù)據(jù)架構(gòu)組負(fù)責(zé)人琅坡;《Hadoop技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》和《Hadoop技術(shù)內(nèi)幕:深入解析YARN架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理》作者;資深Hadoop技術(shù)實(shí)踐者和研究者残家,曾參與商用Hadoop原型研發(fā)榆俺,以及分布式日志系統(tǒng)、全網(wǎng)圖片搜索引擎坞淮、Hadoop調(diào)度器等項(xiàng)目的設(shè)計(jì)茴晋。
譚政,畢業(yè)于北京大學(xué)回窘,曾就職于新浪微博平臺(tái)研發(fā)部诺擅;曾參與微博核心Feed系統(tǒng)的改造,主導(dǎo)多機(jī)房數(shù)據(jù)同步和容災(zāi)部署毫玖,Spark內(nèi)核級(jí)優(yōu)化和企業(yè)推廣掀虎,Hadoop集群升級(jí)與優(yōu)化,Hive On Tez優(yōu)化以及推廣等工作付枫。
張虔熙烹玉,畢業(yè)于中國科學(xué)院,HBase Contributor阐滩;參與維護(hù)并優(yōu)化千節(jié)點(diǎn)規(guī)模的Hadoop集群二打,對(duì)分布式存儲(chǔ)系統(tǒng)有深入研究(源碼級(jí)修改),尤其擅長HDFS/HBase調(diào)優(yōu)及應(yīng)用掂榔;利用impala與presto大數(shù)據(jù)查詢引擎構(gòu)建企業(yè)級(jí)OLAP引擎继效,對(duì)高性能查詢優(yōu)化有豐富經(jīng)驗(yàn)。
課程大綱
第一部分 Hadoop 概述(共1課時(shí))
1.1 大數(shù)據(jù)背景
1.2 大數(shù)據(jù)技術(shù)體系
1.3 Hadoop生態(tài)系統(tǒng)構(gòu)成以及核心組件
1.4 Hadoop主流發(fā)行版以及選型
包括Apache装获、CDH瑞信、 HDP等
1.5 Hadoop單機(jī)及分布式集群搭建方法(在線演示)
1.6 Hadoop典型應(yīng)用場景
包括日志分析,搜索引擎索引構(gòu)建穴豫、機(jī)器學(xué)習(xí)等
1.7 課程綜合案例:分布式日志分析系統(tǒng)
介紹分布式日志分析系統(tǒng)的背景凡简、關(guān)鍵模塊、以及采用的關(guān)鍵大數(shù)據(jù)技術(shù) 精肃。
**第二部分 大數(shù)據(jù)技術(shù)體系關(guān)鍵組件原理秤涩、使用與實(shí)戰(zhàn)(共8.5課時(shí))**** **
2.1 分布式數(shù)據(jù)收集:Flume原理與應(yīng)用(共1課時(shí))
2.1.1 Flume產(chǎn)生背景
2.1.2 Flume基本原理及架構(gòu)
2.1.3 Flume部署模式(在線演示)
2.1.4 Flume與Hadoop整合應(yīng)用與實(shí)戰(zhàn)
2.1.5 分布式日志分析系統(tǒng):數(shù)據(jù)收集模塊剖析
詳細(xì)介紹基于TailDir和Pool Directory Source,F(xiàn)ile Channel以及HDFS sink收集日志的flume拓?fù)錁?gòu)建方式司抱。
2.2 分布式文件系統(tǒng):HDFS基礎(chǔ)與應(yīng)用(共1課時(shí))
2.2.1 HDFS產(chǎn)生背景
2.2.2 HDFS基本原理
2.2.3 HDFS架構(gòu)以及關(guān)鍵組件
2.2.4 HDFS使用方式(在線演示)
2.2.5 HDFS優(yōu)化小技巧
2.2.6 分布式日志分析系統(tǒng):文件存儲(chǔ)模塊剖析
詳細(xì)介紹日志文件在HDFS存放方式筐眷,以及如何解決小文件,文件歸檔等問題习柠。
2.3 分布式資源管理系統(tǒng):YARN架構(gòu)與應(yīng)用 (共1課時(shí))
2.3.1 YARN產(chǎn)生背景
2.3.2 YARN基本原理以及架構(gòu)
2.3.3 YARN資源調(diào)度器(Capacity Scheduler以及Fair Scheduler)
2.3.4 YARN基于標(biāo)簽的調(diào)度策略以及啟用方式
2.3.5 YARN典型應(yīng)用場景及在大數(shù)據(jù)系統(tǒng)中的地位
2.3.6 分布式日志分析系統(tǒng):資源管理模塊剖析
詳細(xì)介紹容量調(diào)度器匀谣,多隊(duì)列管理,如何啟用基于標(biāo)簽的調(diào)度機(jī)制
2.4 分布式計(jì)算:批處理引擎MapReduce(第一部分)(共1課時(shí))
2.4.1 MapReduce產(chǎn)生背景
2.4.2 MapReduce基本原理
2.4.3 MapReduce基本架構(gòu)
2.4.4 MapReduce Java分布式程序設(shè)計(jì)(在線演示)
2.4.5 什么情況下Spark性能比MapReduce差
2.4.6 MapReduce的未來
2.5 分布式計(jì)算:批處理引擎MapReduce(第二部分)(共1課時(shí))
2.5.1 MapReduce回顧
2.5.2 MapReduce多語言程序設(shè)計(jì)(在線演示)
2.5.3 MapReduce優(yōu)化小技巧
2.5.4 分布式日志分析系統(tǒng):ETL模塊剖析
詳細(xì)介紹如何使用Java API以及Hadoop Streaming方式設(shè)計(jì)ELT程序津畸。
2.6 分布式計(jì)算:數(shù)據(jù)分析引擎Hive(第一部分)(共1課時(shí))
2.6.1 Hive產(chǎn)生背景
2.6.2 Hive基本架構(gòu)以及部署模式
2.6.3 Hive HQL基礎(chǔ)(在線演示)
2.6.4 Hive創(chuàng)建Parquet與ORC表
2.6.5 總結(jié)
2.7 分布式計(jì)算:數(shù)據(jù)分析引擎Hive(第二部分)(共1課時(shí))
2.7.1 Hive編程訪問
2.7.2 Hive On Tez/Spark
2.7.3 Hive優(yōu)化小技巧
2.7.4 分布式日志分析系統(tǒng):數(shù)據(jù)倉庫模塊剖析
詳細(xì)介紹如何在Hive中進(jìn)行數(shù)據(jù)建模振定,并使用Hive查詢引擎查詢?nèi)罩緮?shù)據(jù)。
2.8 分布式計(jì)算:數(shù)據(jù)查詢引擎Presto(共1課時(shí))
2.8.1 Presto產(chǎn)生背景
2.8.2 Presto基本架構(gòu)以及部署模式
2.8.3 Presto SQL基礎(chǔ)(在線演示)
2.8.4 Presto優(yōu)化小技巧
2.8.5 分布式日志分析系統(tǒng):數(shù)據(jù)倉庫查詢模塊剖析
詳細(xì)介紹如何使用Presto加速數(shù)據(jù)查詢效率(相比于Hive)
2.9 大數(shù)據(jù)可視化:可視化主流方案(共0.5課時(shí))
2.9.1 什么是大數(shù)據(jù)可視化
2.9.2 可視化主流解決方案
2.9.3 EChart肉拓,D3后频,tableau, Hue等
2.9.4 分布式日志分析系統(tǒng):報(bào)表可視化模塊剖析
詳細(xì)介紹如何構(gòu)建日志分析系統(tǒng)的可視化模塊。
第三部分 綜合案例回顧:分布式日志分析系統(tǒng)(共0.5課時(shí))
3.1 案例背景
3.2 基本架構(gòu)與關(guān)鍵模塊
3.3 日志分析系統(tǒng)部署及維護(hù)
3.4 總結(jié)
常見問題:
Q****: 會(huì)有實(shí)際上機(jī)演示和動(dòng)手操作嗎暖途?
A: 有的卑惜,幾乎每節(jié)課,老師均會(huì)準(zhǔn)備上機(jī)演示部分驻售,學(xué)員可以學(xué)習(xí)老師的實(shí)踐經(jīng)驗(yàn)露久。
Q****: 本課程主要是基于Hadoop 2.7.x版本嗎,如果3.0成熟了欺栗,內(nèi)容會(huì)不會(huì)過期毫痕?
A: 不會(huì)的征峦。本課程以介紹Hadoop基本原理和使用技巧為主,這些內(nèi)容適用于2.x之后各個(gè)版本消请,盡管Hadoop3.x有稍許的改動(dòng)栏笆,但學(xué)員學(xué)完這門課后,應(yīng)該有能力主動(dòng)學(xué)習(xí)這些新功能和特性臊泰。
Q****: 本課程有專門的答疑時(shí)間嗎蛉加?
A: 有的。助教會(huì)統(tǒng)一收集學(xué)員問題缸逃,老師在每節(jié)課最后部分针饥,會(huì)在線回答20~30個(gè)問題,并由助教整理后發(fā)布到問答社區(qū)中需频。