應用場景
如上圖斗锭,搜索引擎,分布式處理失球,baidu,360
系統(tǒng)推薦岖是,淘寶購物推薦,瀏覽器廣告
時事熱點实苞,微博熱搜
金融領域璧微,客戶畫像,比如對銀行儲戶進行分類硬梁,
精準營銷,針對用戶行為胞得,進行定向產品推薦
風險管控荧止,對用戶征信進行分類預測
我們以貨物量增加來考慮,其他對應的流程可能都要增加投入
hadoop是一個生態(tài)圈,我們之前可能聽說spark等等跃巡,這里把hadoop理解成一個工廠危号,工廠里有很多個并行的倉庫,HDFS素邪,倉庫的存取由YARN負責協調外莲,有MapReduce負責加工,對于后面新招來的Storm也負責加工兔朦,但是其從不休息
hadoop解決了如上圖的幾個問題
如上圖偷线,可以看到Hadoop的體系,
在hadoop體系沒有storm而只有MapReduce時沽甥,M負責存取加工声邦,但是工作量大時,實時性就會變差
Storm還沒有出生時摆舟,員工自己開創(chuàng)了S工廠亥曹,Spark
spark是新創(chuàng)業(yè)工廠,有自己的工作間RDD恨诱,可以當倉庫也可以里面加工媳瞪,SparkStreaming在RDD中一直工作,照宝,S廠還可以接一些高端業(yè)務如AI來做
上圖是Spark框架體系蛇受,Core為核心,數據處理涉及到SparkSQL,SparkStreaming,MLib,GraphX
其中MLib是設計人工智能部分硫豆,
Spark廠加工速度時Hadoop廠速度10倍以上
有人會問龙巨,那我們是不是只學spark就行了,hadoop是不是不行的問題熊响,事實上沒有便宜的買賣旨别,很多項目往往是hadoop和spark兼顧實現
spark和hadoop的結合以及特點如上,首先二者是可以共生合作的汗茄,spark擅長加工和高端服務秸弛,處理附在,機器學習洪碳,交互查詢递览,hadoop采用持久倉庫,spark采用可擴容工作間RDD瞳腌,hadoop是硬盤上處理绞铃,而spark是內存上處理
spark在處理速度上占有優(yōu)勢,但是hadoop存儲以擴展嫂侍,存儲安全穩(wěn)定儿捧,所以常常是結合二者之長進行架構
最后老師給了一點雞湯荚坞,課程是0基礎的,不要怕菲盾,奧利給颓影,理論和實踐結合,你就能變強