2018-07-08 基于內(nèi)存的協(xié)同過濾算法學(xué)習(xí)(Memory-Based Collaborative Filtering)

今天看了一篇關(guān)于協(xié)同過濾的學(xué)習(xí)文章袋毙,感覺不錯忍疾,文中主要介紹了以下兩種算法:
Implementing your own recommender systems in Python

  • 基于內(nèi)存的協(xié)同過濾算法(Memory-Based Collaborative Filtering)
  • 基于模型的協(xié)同過濾算法(Model-based Collaborative Filtering)

跟著寫了一遍代碼以后环肘,發(fā)現(xiàn)其實也有國內(nèi)翻譯版的,意思基本上差不多墨礁,不過還是有一點點機翻的感覺:
在Python中實現(xiàn)你自己的推薦系統(tǒng)


基于內(nèi)存的協(xié)同過濾算法包括兩個類別:user-item filtering 充石、item-item filtering。.用原文的話就是:

  • Item-Item Collaborative Filtering: “Users who liked this item also liked …”
  • User-Item Collaborative Filtering: “Users who are similar to you also liked …”

這個介紹應(yīng)該很直白易懂了峻厚。
直接上代碼吧响蕴,原文應(yīng)該是pyhton 2寫的,改成python3環(huán)境上也沒太大區(qū)別惠桃。

讀入數(shù)據(jù)

import numpy as np
import pandas as pd
#讀入數(shù)據(jù)
header=['user_id','item_id','rating','timestamp']
df=pd.read_csv('D:/PythonSource/ml-100k/u.data',sep='\t',names=header)
n_users=df.user_id.unique().shape[0]
n_items=df.item_id.unique().shape[0]
print('Numbers of users='+str(n_users),'and Numbers of items='+str(n_items))

Numbers of users=943 and Numbers of items=1682

分割數(shù)據(jù)集

from sklearn import cross_validation as cv
#分割數(shù)據(jù)集
train_data,test_data=cv.train_test_split(df,test_size=0.25)
# create 2 user-item matrices
train_data_matrix=np.zeros((n_users,n_items))
for line in train_data.itertuples():
    #數(shù)據(jù)中用戶和物品是從1開始計算的
    train_data_matrix[line[1]-1,line[2]-1]=line[3]

test_data_matrix=np.zeros((n_users,n_items))
for line in test_data.itertuples():
    test_data_matrix[line[1]-1,line[2]-1]=line[3]

計算相似性(余弦夾角)

from sklearn.metrics.pairwise import pairwise_distances
user_similarity=pairwise_distances(train_data_matrix,metric='cosine')
item_similarity=pairwise_distances(train_data_matrix.T,metric='cosine')

計算預(yù)測值

#預(yù)測函數(shù)
def predict(ratings,similarity,type='user'):
    if type=='user':
        mean_user_rating=ratings.mean(axis=1)
        ratings_diff=(ratings-mean_user_rating[:,np.newaxis])
        print(ratings_diff)
        pred=mean_user_rating[:,np.newaxis]+similarity.dot(ratings_diff)/np.array([np.abs(similarity).sum(axis=1)]).T
    elif type=='item':
        pred=ratings.dot(similarity)/np.array([np.abs(similarity).sum(axis=1)])
    return pred

這里計算user類型的時候浦夷,涉及數(shù)組轉(zhuǎn)置,這個過程可參考:
Collaborative filtering using RapidMiner: user vs. item recommenders

輸出預(yù)測結(jié)果

#輸出結(jié)果
item_prediction=predict(train_data_matrix,item_similarity,type='item')
np.savetxt('D:/PythonSource/item_prediction.csv',item_prediction,delimiter=',')
user_prediction=predict(train_data_matrix,user_similarity,type='user')
np.savetxt('D:/PythonSource/user_prediction.csv',user_prediction,delimiter=',')

準確性評估

#評估準確性
from sklearn.metrics import mean_squared_error
from math import sqrt
def rmse(prediction,ground_truth):
    prediction=prediction[ground_truth.nonzero()].flatten()
    ground_truth=ground_truth[ground_truth.nonzero()].flatten()
    return sqrt(mean_squared_error(prediction,ground_truth))
print('user-based CF RMSE='+str(rmse(user_prediction,test_data_matrix)))
print('item-based CF RMSE='+str(rmse(item_prediction,test_data_matrix)))

user-based CF RMSE=3.138256866186845
item-based CF RMSE=3.464855694296178

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末辜王,一起剝皮案震驚了整個濱河市劈狐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌呐馆,老刑警劉巖肥缔,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異汹来,居然都是意外死亡续膳,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進店門俗慈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來姑宽,“玉大人,你說我怎么就攤上這事闺阱∨诔担” “怎么了?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵酣溃,是天一觀的道長瘦穆。 經(jīng)常有香客問我,道長赊豌,這世上最難降的妖魔是什么扛或? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮碘饼,結(jié)果婚禮上熙兔,老公的妹妹穿的比我還像新娘。我一直安慰自己艾恼,他們只是感情好住涉,可當(dāng)我...
    茶點故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著钠绍,像睡著了一般舆声。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天媳握,我揣著相機與錄音碱屁,去河邊找鬼。 笑死蛾找,一個胖子當(dāng)著我的面吹牛娩脾,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播打毛,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼晦雨,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了隘冲?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤绑雄,失蹤者是張志新(化名)和其女友劉穎展辞,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體万牺,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡罗珍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了脚粟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片覆旱。...
    茶點故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖核无,靈堂內(nèi)的尸體忽然破棺而出扣唱,到底是詐尸還是另有隱情,我是刑警寧澤团南,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布噪沙,位于F島的核電站,受9級特大地震影響吐根,放射性物質(zhì)發(fā)生泄漏正歼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一拷橘、第九天 我趴在偏房一處隱蔽的房頂上張望局义。 院中可真熱鬧,春花似錦冗疮、人聲如沸萄唇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽穷绵。三九已至,卻和暖如春特愿,著一層夾襖步出監(jiān)牢的瞬間仲墨,已是汗流浹背勾缭。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留目养,地道東北人俩由。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像癌蚁,于是被迫代替她去往敵國和親幻梯。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容