大數(shù)據(jù)實戰(zhàn)項目《大型電商日志分析》的知識點

大數(shù)據(jù)實戰(zhàn)項目的知識點

1、大數(shù)據(jù)集群環(huán)境的搭建

CentOS 6.8题暖、
hadoop-2.7.3、
hive-0.13.1
zookeeper-3.4.10
kafka_2.10-0.10.2.0、
flume-ng-1.7.0
日志采集流程啰挪、
Spark 1.6.3

2呐矾、企業(yè)級大數(shù)據(jù)項目的架構(gòu)搭建

Java苔埋、配置管理組件、JDBC輔助組件(內(nèi)置數(shù)據(jù)庫連接池)蜒犯、Domain與DAO模型
scala:只適合用于編寫一些比較純粹的一些數(shù)據(jù)處理程序(比如說一些復(fù)雜的數(shù)據(jù)etl)

真正的講師本人做過的項目的原型组橄,技術(shù)的使用上荞膘,要比這個復(fù)雜很多
Spring、
MyBatis(半自動ORM框架)玉工,
復(fù)雜的代碼組件的管理(Spring)羽资,
復(fù)雜的底層數(shù)據(jù)庫CRUD的操作(MyBatis)

用到了一些額外的輔助組件,
包括redis(緩存)遵班、
kafka(消息隊列削罩,spark一邊處理數(shù)據(jù),一邊往kafka中寫)

唯一的選擇费奸,就是java弥激。scala?愿阐?微服?(不現(xiàn)實)
scala會調(diào)用很多底層的java代碼,造成項目的多編程語言的混編缨历;最終導(dǎo)致整個項目的可維護(hù)性以蕴、可擴(kuò)展性極差

3、J2EE與Spark組成的交互式大數(shù)據(jù)分析平臺架構(gòu)

沒有講解j2ee辛孵,但是至少給大家講解清楚了j2ee與spark組成的大數(shù)據(jù)平臺架構(gòu)丛肮,拓展了大家的知識面
而且,這是根據(jù)本次項目課程的原型項目
大家要知道魄缚,即使是本套項目課程宝与,你做出來的東西,
都是要放在j2ee與spark的架構(gòu)中的(task冶匹、spark觸發(fā)习劫、spark結(jié)果如何被展示)
特別是拿出去面試找工作的時候,這個架構(gòu)要說清楚嚼隘,j2ee層不是你做的就可以了

4诽里、企業(yè)級大數(shù)據(jù)項目的開發(fā)流程

貫穿了整個項目,每個模塊飞蛹,基本上都是按照這個完整的流程來的

數(shù)據(jù)分析(來源數(shù)據(jù)的分析)
需求分析(基于上述數(shù)據(jù)谤狡,要實現(xiàn)什么樣的需求和功能)
技術(shù)方案設(shè)計(基于來源數(shù)據(jù)與需求,以及你所掌握的spark技術(shù)卧檐,設(shè)計方案來實現(xiàn)需求功能)
數(shù)據(jù)庫設(shè)計(技術(shù)方案設(shè)計完了以后墓懂,要配合著技術(shù)方案,設(shè)計數(shù)據(jù)庫中表)
編碼實現(xiàn)(基于上述所有的東西泄隔,使用你掌握的spark技術(shù)拒贱,來編碼,實現(xiàn)功能)
功能測試(包括本地測試和生產(chǎn)環(huán)境測試佛嬉,spark的client和cluster的說明)
性能調(diào)優(yōu)(spark core逻澳、spark sql、spark streaming)
troubleshooting(項目上線以后暖呕,要及時解決出現(xiàn)的線上故障與報錯)
解決數(shù)據(jù)傾斜(后期維護(hù)過程中斜做,可能會出現(xiàn)的嚴(yán)重的性能問題)

5、一套項目課程湾揽,

全面涵蓋了90%以上的Spark Core瓤逼、Spark SQL和Spark Streaming,幾乎所有的初中高級技術(shù)點库物;
全面鍛煉了學(xué)員的spark大數(shù)據(jù)項目實戰(zhàn)能力霸旗;
視頻至少看一遍(最佳是兩遍以上),
代碼至少三遍(一遍根據(jù)視頻copy代碼跑起來理解流程戚揭,一遍跟著視頻敲诱告,一遍脫開視頻自己敲);
將大數(shù)據(jù)項目與spark技術(shù)融會貫通

6民晒、用戶訪問session分析模塊

用戶session分析業(yè)務(wù):

  • 復(fù)雜業(yè)務(wù)邏輯精居,
  • session聚合統(tǒng)計、
  • session隨機(jī)抽取潜必、
  • top10熱門品類靴姿、
  • top10活躍用戶

技術(shù)點:

  • 數(shù)據(jù)的過濾與聚合、
  • 自定義Accumulator磁滚、
  • 按時間比例隨機(jī)抽取算法佛吓、
  • 二次排序、
  • 分組取topN

性能調(diào)優(yōu)方案:

  • 普通調(diào)優(yōu)垂攘、
  • jvm調(diào)優(yōu)辈毯、
  • shuffle調(diào)優(yōu)、
  • 算子調(diào)優(yōu)
  • troubleshooting經(jīng)驗
  • 數(shù)據(jù)傾斜解決方案:7種方案
7搜贤、頁面單跳轉(zhuǎn)化率模塊

小小的特色谆沃,而且主要是互聯(lián)網(wǎng)行業(yè)中非常常見的一些需求
頁面單跳轉(zhuǎn)化率計算業(yè)務(wù)
頁面切片生成以及頁面流匹配算法

知道,如何去計算網(wǎng)站 / app的頁面之間的流轉(zhuǎn)路徑的轉(zhuǎn)化率

8仪芒、各區(qū)域熱門商品統(tǒng)計模塊

Spark SQL

區(qū)域級別的熱門商品的統(tǒng)計業(yè)務(wù)

技術(shù)點:

  • Hive與MySQL異構(gòu)數(shù)據(jù)源唁影、
  • RDD轉(zhuǎn)換為DataFrame、
  • 注冊和使用臨時表掂名、
  • 自定義UDAF聚合函數(shù)据沈、
  • 自定義get_json_object等普通函數(shù)、
  • Spark SQL的高級內(nèi)置函數(shù)(if與case when等)饺蔑、
  • 開窗函數(shù)(高端)
  • Spark SQL數(shù)據(jù)傾斜解決方案
9锌介、廣告點擊流量實時統(tǒng)計模塊

廣告點擊流量的實時統(tǒng)計的業(yè)務(wù)
技術(shù)點:動態(tài)黑名單機(jī)制(動態(tài)生成黑名單以及黑名單過濾)、transform、updateStateByKey孔祸、transform與Spark SQL整合隆敢、window滑動窗口、高性能寫數(shù)據(jù)庫
HA方案:高可用性方案崔慧,3種
性能調(diào)優(yōu):常用的性能調(diào)優(yōu)的技巧

10拂蝎、貫穿了大量講師在大數(shù)據(jù)行業(yè)內(nèi)的從業(yè)經(jīng)驗以及所見所聞,幫助學(xué)員豐富行業(yè)閱歷(“閑話”)

職場的言談舉止惶室,對職業(yè)發(fā)展是極大的温自,什么該說,什么不該說皇钞,有問題要不要問同事悼泌,一句話什么情況下可以說,什么不能說夹界,對于初入職場的同學(xué)們馆里,是非常的重要的。

11掉盅、贈送完整spark大型大數(shù)據(jù)項目的商業(yè)級別的源代碼也拜,

價值上百萬(稍加改造,二次開發(fā)趾痘,甚至可以直接用于你的企業(yè)的大數(shù)據(jù)行為分析)
本身是沒有價值的慢哈,但是問題是,網(wǎng)上沒有任何這種資料永票;
所以價值自然高昂卵贱;價值百萬,并不是說真的可以值100萬侣集;
價值是非常之高的键俱,無可比擬的價值

《Spark從入門到精通》課程:
根據(jù)學(xué)習(xí)程度的不同+本身工作年限的不同,1~2年的spark大數(shù)據(jù)開發(fā)經(jīng)驗
《Spark大型項目實戰(zhàn)》課程:
根據(jù)學(xué)習(xí)程度的不同+本身工作年限的不同世分,加上之前的《Spark從入門到精通》的學(xué)習(xí)的話编振,2~3年的spark大數(shù)據(jù)開發(fā)經(jīng)驗

你在國內(nèi),大數(shù)據(jù)行業(yè)里面臭埋,無論是什么級別的公司踪央,從BAT到初創(chuàng)企業(yè);你都可以稱之為自己是spark的高手瓢阴、甚至“大懦澹”;

12荣恐、學(xué)習(xí)這套課程給你帶來的價值
  • 面試液斜,沒有任何問題累贤。。少漆。
  • 做項目臼膏,沒有任何問題。检疫。讶请。

應(yīng)聘崗位
spark高級開發(fā)工程師祷嘶、spark資深開發(fā)工程師
spark配合著你的hadoop屎媳、hbase、hive论巍、zookeeper烛谊、flume、kafka嘉汰、storm等大數(shù)據(jù)生態(tài)圈的深厚功底:可以達(dá)到大數(shù)據(jù)架構(gòu)師級別

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末丹禀,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子鞋怀,更是在濱河造成了極大的恐慌双泪,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件密似,死亡現(xiàn)場離奇詭異焙矛,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)残腌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進(jìn)店門村斟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人抛猫,你說我怎么就攤上這事蟆盹。” “怎么了闺金?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵逾滥,是天一觀的道長。 經(jīng)常有香客問我败匹,道長寨昙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任哎壳,我火速辦了婚禮毅待,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘归榕。我一直安慰自己尸红,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著外里,像睡著了一般怎爵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盅蝗,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天鳖链,我揣著相機(jī)與錄音,去河邊找鬼墩莫。 笑死芙委,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的狂秦。 我是一名探鬼主播灌侣,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼裂问!你這毒婦竟也來了侧啼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤堪簿,失蹤者是張志新(化名)和其女友劉穎痊乾,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體椭更,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡哪审,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了甜孤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片协饲。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖缴川,靈堂內(nèi)的尸體忽然破棺而出茉稠,到底是詐尸還是另有隱情,我是刑警寧澤把夸,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布而线,位于F島的核電站,受9級特大地震影響恋日,放射性物質(zhì)發(fā)生泄漏膀篮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一岂膳、第九天 我趴在偏房一處隱蔽的房頂上張望誓竿。 院中可真熱鬧,春花似錦谈截、人聲如沸筷屡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽毙死。三九已至燎潮,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間扼倘,已是汗流浹背确封。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留再菊,地道東北人爪喘。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像袄简,于是被迫代替她去往敵國和親腥放。 傳聞我的和親對象是個殘疾皇子泛啸,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容