基于Spark的電影推薦系統(tǒng)(推薦系統(tǒng)~1)

第四部分-推薦系統(tǒng)-項(xiàng)目介紹

行業(yè)背景:

快速:Apache Spark以內(nèi)存計算為核心
通用 :一站式解決各個問題麻昼,ADHOC SQL查詢,流計算馋辈,數(shù)據(jù)挖掘抚芦,圖計算
完整的生態(tài)圈
只要掌握Spark,就能夠?yàn)榇蠖鄶?shù)的企業(yè)的大數(shù)據(jù)應(yīng)用場景提供明顯的加速

“猜你喜歡”為代表的推薦系統(tǒng),從吃穿住行等

項(xiàng)目背景介紹:

本項(xiàng)目是一個基于Apache Spark 的電影推薦系統(tǒng)首有,
技術(shù)路線:離線推薦+實(shí)時推薦

項(xiàng)目架構(gòu):

在這里插入圖片描述
  • 存儲層:HDFS作為底層存儲燕垃,Hive作為數(shù)據(jù)倉庫 (Hive Metastore:Hive管理數(shù)據(jù)的schema)

  • 離線數(shù)據(jù)處理:SparkSQL (做數(shù)據(jù)查詢引擎<===> 數(shù)據(jù)ETL)

  • 實(shí)時數(shù)據(jù)處理:Kafka + Spark Streaming

  • 數(shù)據(jù)應(yīng)用層:MLlib 產(chǎn)生一個模型 als算法

  • 數(shù)據(jù)展示和對接:Zeppelin

    選用考量:
    HDFS不管是在存儲的性能,穩(wěn)定性 吞吐量 都是在主流文件系統(tǒng)中很占有優(yōu)勢的
    如果感覺HDFS存儲還是比較慢井联,可以采用SSD硬盤等方案

      數(shù)據(jù)處理層組件:
      Hive 在數(shù)據(jù)量不是很大或?qū)?shí)時性沒有那么高要求的時候卜壕,可以選用作為計算引擎
      
      消息隊(duì)列一般還是Kafka,消費(fèi)者端也可以使用Flink,Storm等...
      同時,SparkStreaming的優(yōu)勢就是: 已經(jīng)有與各個組件比較好的集成  
      這里寫一個KafkaProducer作業(yè)實(shí)時將數(shù)據(jù) 放到Kafka 中 
      
      應(yīng)用層:MLlib :Spark 對數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)庫的封裝 烙常,ALS是其中一個算法  
      http://spark.apache.org/docs/1.6.3/mllib-guide.html
      http://spark.apache.org/docs/latest/ml-guide.html
      TensorFlow 偏向于深度學(xué)習(xí)
      
      Zeppelin:包含各個圖標(biāo)表展示轴捎,而且組件集成性更多鹤盒。作業(yè)調(diào)度略差
      HUE 數(shù)據(jù)展示+作業(yè)調(diào)度  
          
      系統(tǒng)采用standaone模式,更加簡單侦副。
      只有SPARK 環(huán)境侦锯,就使用standalone 脫機(jī)運(yùn)行模式
      Hadoop +Spark 就推薦:Spark On Yarn
      Spark On Docker : 任務(wù)封裝為一個個的Docker,不依賴于你的物理機(jī)環(huán)境,每個Docker 的資源可以更好的分配
    

主要模塊:

  • 存儲模塊:搭建和配置HDFS分布式存儲系統(tǒng)秦驯,并Hbase和MySQL作為備用方案

  • ETL模塊:加載原始數(shù)據(jù)尺碰,清洗,加工译隘,為模型訓(xùn)練模塊 和 推薦模塊 準(zhǔn)備所需的各種數(shù)據(jù)亲桥。

  • 模型訓(xùn)練模塊:負(fù)責(zé)產(chǎn)生模型,以及尋找最佳的模型

  • 推薦模塊:包含離線推薦和實(shí)時推薦固耘,離線推薦負(fù)責(zé)把推薦結(jié)果存儲到存儲系統(tǒng)中
    實(shí)時推薦負(fù)責(zé)產(chǎn)生實(shí)時的消息隊(duì)列题篷,并且消費(fèi)實(shí)時消息產(chǎn)生推薦結(jié)果,最后存儲在存儲模塊中

  • 數(shù)據(jù)展示模塊:負(fù)責(zé)展示項(xiàng)目中所用的數(shù)據(jù)

  • 數(shù)據(jù)流向:


    在這里插入圖片描述

系統(tǒng)開發(fā)的重難點(diǎn):

數(shù)據(jù)倉庫的準(zhǔn)備 :Spark + Hive 數(shù)據(jù)ETL  ,Zeppelin +Hive 數(shù)據(jù)展示 
數(shù)據(jù)處理:
實(shí)時數(shù)據(jù)處理 : 1.數(shù)據(jù)實(shí)時性厅目,完整性 番枚、一致性 ,
                2.保證應(yīng)用不會崩潰掉损敷,or 崩掉之后及時啟動起來 并 數(shù)據(jù)一致性處理

拓展:

1.數(shù)據(jù)倉庫怎么理解葫笼?兩種東西,其一是IBM微軟數(shù)據(jù)產(chǎn)品為代表的拗馒,其二是Hadoop+Hive
Apache Hive?數(shù)據(jù)倉庫軟件有助于使用SQL讀取渔欢,寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。
可以將結(jié)構(gòu)投影到已經(jīng)存儲的數(shù)據(jù)上瘟忱。
提供了命令行工具和JDBC驅(qū)動程序以將用戶連接到Hive。

2.數(shù)據(jù)源準(zhǔn)備:
Data Source:Movielens Open Data
http://files.grouplens.org/datasets/movielens
http://files.grouplens.org/datasets/movielens/ml-latest.zip

[root@hadoop001 ml-latest]# pwd
/root/data/ml/ml-latest
[root@hadoop001 ml-latest]# ll -h
總用量 1.9G
-rw-r--r--. 1 root root 1.3M 10月 17 13:41 links.txt
-rw-r--r--. 1 root root 2.8M 10月 17 16:06 movies.txt
-rw-r--r--. 1 root root 725M 10月 17 16:07 ratings.txt
-rw-r--r--. 1 root root  38M 10月 17 16:08 tags.txt
[root@hadoop001 ml-latest]# 

接下來就是開始Coding...

有任何問題苫幢,歡迎留言一起交流~~
更多文章:基于Spark的電影推薦系統(tǒng):https://blog.csdn.net/liuge36/column/info/29285

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末访诱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子韩肝,更是在濱河造成了極大的恐慌触菜,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,430評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哀峻,死亡現(xiàn)場離奇詭異涡相,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)剩蟀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評論 3 398
  • 文/潘曉璐 我一進(jìn)店門催蝗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人育特,你說我怎么就攤上這事丙号。” “怎么了?”我有些...
    開封第一講書人閱讀 167,834評論 0 360
  • 文/不壞的土叔 我叫張陵犬缨,是天一觀的道長喳魏。 經(jīng)常有香客問我,道長怀薛,這世上最難降的妖魔是什么刺彩? 我笑而不...
    開封第一講書人閱讀 59,543評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮枝恋,結(jié)果婚禮上创倔,老公的妹妹穿的比我還像新娘。我一直安慰自己鼓择,他們只是感情好三幻,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,547評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著呐能,像睡著了一般念搬。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上摆出,一...
    開封第一講書人閱讀 52,196評論 1 308
  • 那天朗徊,我揣著相機(jī)與錄音,去河邊找鬼偎漫。 笑死爷恳,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的象踊。 我是一名探鬼主播温亲,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼杯矩!你這毒婦竟也來了栈虚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,671評論 0 276
  • 序言:老撾萬榮一對情侶失蹤史隆,失蹤者是張志新(化名)和其女友劉穎魂务,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泌射,經(jīng)...
    沈念sama閱讀 46,221評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡粘姜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,303評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了熔酷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片孤紧。...
    茶點(diǎn)故事閱讀 40,444評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖纯陨,靈堂內(nèi)的尸體忽然破棺而出坛芽,到底是詐尸還是另有隱情留储,我是刑警寧澤,帶...
    沈念sama閱讀 36,134評論 5 350
  • 正文 年R本政府宣布咙轩,位于F島的核電站获讳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏活喊。R本人自食惡果不足惜丐膝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,810評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望钾菊。 院中可真熱鬧帅矗,春花似錦、人聲如沸煞烫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽滞详。三九已至凛俱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間料饥,已是汗流浹背蒲犬。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留岸啡,地道東北人原叮。 一個月前我還...
    沈念sama閱讀 48,837評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像巡蘸,于是被迫代替她去往敵國和親奋隶。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,455評論 2 359

推薦閱讀更多精彩內(nèi)容