機(jī)器學(xué)習(xí):推薦系統(tǒng)(六. 測(cè)試推薦系統(tǒng))

目錄

1.瀏覽我們系統(tǒng)的推薦
2.使用正則
3.評(píng)估推薦準(zhǔn)確率

1.瀏覽我們系統(tǒng)的推薦

現(xiàn)在我們有一個(gè)可用的產(chǎn)品推薦系統(tǒng)亮蒋,讓我們看看我們?yōu)椴煌挠脩裟玫搅耸裁唇Y(jié)果扣典。我們來看看Chapter 6/make_recommendations.py。

# Load user ratings 
raw_dataset_df = pd.read_csv('movie_ratings_data_set.csv')

# Load movie titles 
movies_df = pd.read_csv('movies.csv', index_col='movie_id')

# Convert the running list of user ratings into a matrix 
ratings_df = pd.pivot_table(raw_dataset_df, index='user_id',
                            columns='movie_id',
                            aggfunc=np.max)

# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_df.as_matrix(),
                                                                    num_features=15,
                                                                    regularization_amount=0.1)

首先慎玖,我們將使用pandas的read csv命令讀取數(shù)據(jù)集贮尖。我們還將使用read csv加載電影列表,所以我們也可以訪問電影標(biāo)題趁怔。然后湿硝,我們將使用pandas的pivot_table函數(shù)來創(chuàng)建審查矩陣薪前,然后我們將審查矩陣分解以獲得U和M矩陣。然后我們將乘以U和M來為每個(gè)用戶創(chuàng)建預(yù)測(cè)評(píng)級(jí)」匦保現(xiàn)在我們已經(jīng)有了預(yù)測(cè)評(píng)分示括,我們可以做出預(yù)測(cè)。


# Find all predicted ratings by multiplying U and M matrices
predicted_ratings = np.matmul(U, M)

print("Enter a user_id to get recommendations (Between 1 and 100):")
user_id_to_search = int(input())

print("Movies previously reviewed by user_id {}:".format(user_id_to_search))

reviewed_movies_df = raw_dataset_df[raw_dataset_df['user_id'] == user_id_to_search]
reviewed_movies_df = reviewed_movies_df.join(movies_df, on='movie_id')

print(reviewed_movies_df[['title', 'genre', 'value']])

在這里痢畜,我們將提示輸入用戶ID垛膝,用戶可以鍵入任何用戶ID來查看針對(duì)不同用戶的推薦。
在我們打印用戶推薦的電影之前,讓我們打印用戶已經(jīng)評(píng)價(jià)過的電影。
我們可以在原始數(shù)據(jù)集df數(shù)據(jù)框中查找它們徽曲。我們用pandas將列表篩選到用戶ID與剛輸入的用戶相同的條目中硼一。接下來,讓我們將這個(gè)評(píng)論列表與電影df數(shù)據(jù)join起來膨桥,以便我們可以顯示每個(gè)電影的詳細(xì)信息。我們可以用pandas的join功能來做到這一點(diǎn)。現(xiàn)在我們將打印帶有標(biāo)題矿酵,流派,價(jià)值或用戶給電影評(píng)分的評(píng)論電影列表矗积。
現(xiàn)在我們來看看我們要推薦給這個(gè)用戶的電影列表全肮。


user_ratings = predicted_ratings[user_id_to_search - 1]
movies_df['rating'] = user_ratings

首先,讓我們從預(yù)測(cè)評(píng)級(jí)列表中提取此特定用戶的預(yù)測(cè)評(píng)級(jí)棘捣。我們需要在這里減去一個(gè)辜腺,因?yàn)檫@個(gè)數(shù)組是零索引,但用戶ID從一開始≌Э郑現(xiàn)在我們可以將每部電影的預(yù)測(cè)評(píng)級(jí)保存到電影列表中评疗,以便于打印。在這一點(diǎn)上茵烈,我們有一個(gè)電影列表百匆,每個(gè)電影的分?jǐn)?shù)取決于用戶的喜好程度,但我們不想顯示用戶已經(jīng)評(píng)分過的電影呜投。所以我們需要從列表中排除那些電影加匈。


already_reviewed = reviewed_movies_df['movie_id']
recommended_df = movies_df[movies_df.index.isin(already_reviewed) == False]
recommended_df = recommended_df.sort_values(by=['rating'], ascending=False)

print(recommended_df[['title', 'genre', 'rating']].head(5))

我們可以獲得用戶已經(jīng)看過的電影ID列表,并將其保存到一個(gè)名為“already_reviewed”的變量中仑荐。然后雕拼,我們將看看不在該列表中的電影。這行代碼有點(diǎn)復(fù)雜粘招。首先啥寇,我們使用is函數(shù)來查找列表中的電影,然后我們將該列表與false進(jìn)行比較,以將其反轉(zhuǎn)并找到不在該列表中的電影示姿。然后甜橱,我們可以使用排序值對(duì)列表進(jìn)行排序,以便評(píng)級(jí)最高的電影是第一個(gè)栈戳。最后岂傲,我們可以使用pandas的head功能打印列表中的前五個(gè)電影。
讓我們來運(yùn)行代碼子檀。



讓我們輸入用戶2镊掖,然后回車。這是用戶ID 2已經(jīng)評(píng)分的電影褂痰。我們可以看到用戶給科幻亩进,神秘,驚悚和戲劇電影五顆星缩歪。注意归薛,這個(gè)用戶給了大城市法官1和警長(zhǎng)1五顆星。現(xiàn)在讓我們按回車匪蝙,看看我們的系統(tǒng)有什么推薦主籍。

好的,這五部電影看起來很不錯(cuò)逛球。這些建議中有三個(gè)甚至是用戶評(píng)價(jià)很高的電影續(xù)集千元。
它看起來像一切工作得很好。您可以嘗試使用不同的用戶ID系統(tǒng)颤绕,看看你得到什么樣的結(jié)果幸海。

2.使用正則

在我們的推薦系統(tǒng)中,我們采用評(píng)論數(shù)據(jù)奥务,并從中提取用戶屬性和電影屬性作為模型物独。使用這個(gè)模型,我們可以提出建議氯葬。構(gòu)建像這樣的模型時(shí)可能發(fā)生的常見問題稱為過度擬合挡篓。過度擬合是指模型沒有學(xué)習(xí)數(shù)據(jù)的整體模式,而是在取了太多的特定數(shù)據(jù)點(diǎn)溢谤。我們來舉個(gè)例子來解釋一下瞻凤。



想象一下憨攒,我們有兩部電影世杀。第一部電影是恐怖喜劇。第二個(gè)是嚴(yán)肅的血腥恐怖片肝集,根本沒有喜劇瞻坝。兩部電影都有恐怖元素,但一些觀眾可能更喜歡有趣的電影,而其他觀眾可能更喜歡這部嚴(yán)肅的電影所刀。
一個(gè)好的推薦系統(tǒng)將能把這兩部電影分開衙荐,看看這兩部電影有著相似的元素,但卻是截然不同的電影浮创,吸引了不同的觀眾忧吟。一個(gè)糟糕的推薦系統(tǒng)會(huì)過度配合,完全將注意力放在恐怖的屬性上斩披,而忽視其他的一切溜族。那個(gè)系統(tǒng)會(huì)提出更糟糕的建議,因?yàn)樗鼤?huì)把電影推薦給任何喜歡恐怖的人垦沉。它會(huì)忽略使這兩部電影獨(dú)一無二的其他屬性煌抒。為了防止這種情況,我們使用正則化厕倍。正則化限制了用矩陣分解查找用戶或電影屬性時(shí)寡壮,我們將設(shè)置在單個(gè)屬性上的權(quán)重。
我們?cè)O(shè)置的正則化量越高讹弯,我們將放在任何單個(gè)屬性上的權(quán)重就越小况既。這有助于我們識(shí)別出恐怖喜劇中恐怖和喜劇兩種元素。

到目前為止闸婴,我們?cè)诖a中使用了0.1的正則化數(shù)量坏挠。這適用于較小的數(shù)據(jù)集,就像我們?cè)谶@里少于100個(gè)產(chǎn)品一樣邪乍。但是降狠,對(duì)于具有數(shù)千個(gè)產(chǎn)品的更大的數(shù)據(jù)集,您應(yīng)該使用更大的值庇楞。當(dāng)您使用自己的數(shù)據(jù)集建立推薦系統(tǒng)時(shí)榜配,您需要嘗試使用不同的正則化值來了解它是如何影響推薦的質(zhì)量的。
在下一節(jié)中吕晌,我們將學(xué)習(xí)如何衡量模型的性能蛋褥。當(dāng)試驗(yàn)不同的正則化設(shè)置時(shí),這將會(huì)有非常大的幫助睛驳。

3.評(píng)估推薦準(zhǔn)確率

我們?nèi)绾沃牢覀冇猛扑]系統(tǒng)預(yù)測(cè)的電影評(píng)分是正確的烙心?為了衡量我們的預(yù)測(cè)的準(zhǔn)確性,我們將使用稱為均方根誤差或RMSE(Root-Mean-Square-Error)的標(biāo)準(zhǔn)統(tǒng)計(jì)量度乏沸。 RMSE是衡量用戶的真實(shí)電影評(píng)級(jí)與我們?yōu)橥徊侩娪邦A(yù)測(cè)的評(píng)級(jí)之間的差異淫茵。 RMSE越低,模型越精確蹬跃。 RMSE為零意味著我們的模型完美地猜測(cè)用戶評(píng)分匙瘪。RMSE等于1,意味著當(dāng)預(yù)測(cè)用戶評(píng)級(jí)時(shí),我們平均只有一顆星丹喻。

在衡量我們的推薦系統(tǒng)的準(zhǔn)確性時(shí)薄货,我們需要確保我們用來驗(yàn)證系統(tǒng)的數(shù)據(jù)是系統(tǒng)從未見過的數(shù)據(jù)。否則碍论,這不是一個(gè)公平的測(cè)試谅猾。所以,我們將我們的電影評(píng)級(jí)數(shù)據(jù)隨機(jī)分成兩組鳍悠,前70%的數(shù)據(jù)將成為我們的訓(xùn)練數(shù)據(jù)集赊瞬。我們將使用訓(xùn)練數(shù)據(jù)集來進(jìn)行矩陣分解,并創(chuàng)建U和M矩陣贼涩。另外30%的數(shù)據(jù)將作為測(cè)試數(shù)據(jù)集保留下來巧涧。我們將使用測(cè)試數(shù)據(jù)集來檢查系統(tǒng)如何對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),這是以前從未見過的數(shù)據(jù)遥倦。
我們來看一下measure_accuracy.py



# Load user ratings
raw_training_dataset_df = pd.read_csv('movie_ratings_data_set_training.csv')
raw_testing_dataset_df = pd.read_csv('movie_ratings_data_set_testing.csv')

# Convert the running list of user ratings into a matrix
ratings_training_df = pd.pivot_table(raw_training_dataset_df, index='user_id', columns='movie_id', aggfunc=np.max)
ratings_testing_df = pd.pivot_table(raw_testing_dataset_df, index='user_id', columns='movie_id', aggfunc=np.max)

# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_training_df.as_matrix(),
                                                                    num_features=11,
                                                                    regularization_amount=1.1)

我已經(jīng)把數(shù)據(jù)集分成了兩個(gè)不同的文件谤绳,movie_ratings_data_set_training.csv有70%的評(píng)論,而movie_ratings_data_set_testing.csv有另外的30%袒哥。我們將使用pandas的read_CSV功能將兩個(gè)文件加載到單獨(dú)的數(shù)據(jù)框中缩筛。接下來,我們將使用Panda的pivot_table函數(shù)為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)創(chuàng)建單獨(dú)的評(píng)分矩陣堡称。然后瞎抛,我們將只對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行矩陣分解。
然后却紧,我們將乘以U和M來獲得預(yù)測(cè)評(píng)級(jí)桐臊。

現(xiàn)在,我們可以使用RMSE函數(shù)和矩陣分解工具來計(jì)算錯(cuò)誤率晓殊。要使用這個(gè)函數(shù)断凶,我們只需要傳入我們想要比較的兩個(gè)數(shù)組。

# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_training_df.as_matrix(),
                                                                    num_features=11,
                                                                    regularization_amount=1.1)

# Find all predicted ratings by multiplying U and M
predicted_ratings = np.matmul(U, M)

# Measure RMSE
rmse_training = matrix_factorization_utilities.RMSE(ratings_training_df.as_matrix(),
                                                    predicted_ratings)
rmse_testing = matrix_factorization_utilities.RMSE(ratings_testing_df.as_matrix(),
                                                   predicted_ratings)

print("Training RMSE: {}".format(rmse_training))
print("Testing RMSE: {}".format(rmse_testing))

首先巫俺,我們將訓(xùn)練數(shù)據(jù)與預(yù)測(cè)評(píng)分進(jìn)行比較认烁,我們?cè)谟?xùn)練數(shù)據(jù)框架上調(diào)用as_matrix,所以它作為num.py矩陣數(shù)據(jù)類型被傳入介汹。然后却嗡,我們還將測(cè)試數(shù)據(jù)與預(yù)測(cè)評(píng)分進(jìn)行比較,最后我們可以打印出兩個(gè)數(shù)字嘹承。讓我們運(yùn)行代碼窗价,看看我們得到了什么樣的結(jié)果。
好吧赶撰,我們得到了0.24的training-RMSE和約1.2的testing-RMSE舌镶。低的training-RMSE表明我們的基本算法正在工作,testing-RMSE是更重要的數(shù)字豪娜,因?yàn)樗嬖V我們預(yù)測(cè)到底如何餐胀。得分為1.2意味著我們的系統(tǒng)在預(yù)測(cè)用戶的評(píng)分時(shí)得分很少。我們可以做的一件事就是調(diào)整正則化量參數(shù)瘤载。然而否灾,這是一個(gè)折衷,正規(guī)化將提高訓(xùn)練分?jǐn)?shù)鸣奔,但可能會(huì)降低測(cè)試分?jǐn)?shù)墨技。
我們?cè)谶@個(gè)例子中有一個(gè)局限性,就是我們只有幾百個(gè)電影評(píng)論可供使用挎狸,在這種情況下我們可以做的最好的事情就是獲得更多的用戶評(píng)論扣汪。更多的電影評(píng)論會(huì)給我們的系統(tǒng)提供更多的信息,所以它可以做得更好锨匆。在構(gòu)建自己的建議系統(tǒng)時(shí)崭别,RMSE是查看系統(tǒng)運(yùn)行狀況的有用工具,但RMSE不是最后的評(píng)定恐锣。推薦系統(tǒng)的終極測(cè)試是用戶喜歡他們得到的建議茅主。因此,如果實(shí)際上并沒有改善用戶體驗(yàn)土榴,那么不要擔(dān)心RMSE的微小改進(jìn)诀姚。

結(jié)語

下一章將介紹如何在現(xiàn)實(shí)生活中應(yīng)用推薦系統(tǒng) .

你的 關(guān)注-收藏-轉(zhuǎn)發(fā) 是我繼續(xù)分享的動(dòng)力!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市玷禽,隨后出現(xiàn)的幾起案子赫段,更是在濱河造成了極大的恐慌,老刑警劉巖矢赁,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瑞佩,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡坯台,警方通過查閱死者的電腦和手機(jī)炬丸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蜒蕾,“玉大人稠炬,你說我怎么就攤上這事∵浞龋” “怎么了首启?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)撤摸。 經(jīng)常有香客問我毅桃,道長(zhǎng)褒纲,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任钥飞,我火速辦了婚禮莺掠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘读宙。我一直安慰自己彻秆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布结闸。 她就那樣靜靜地躺著唇兑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪桦锄。 梳的紋絲不亂的頭發(fā)上扎附,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音结耀,去河邊找鬼帕棉。 笑死,一個(gè)胖子當(dāng)著我的面吹牛饼记,可吹牛的內(nèi)容都是我干的香伴。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼具则,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼即纲!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起博肋,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤低斋,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后匪凡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體膊畴,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年病游,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了唇跨。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡衬衬,死狀恐怖买猖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情滋尉,我是刑警寧澤玉控,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站狮惜,受9級(jí)特大地震影響高诺,放射性物質(zhì)發(fā)生泄漏碌识。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一虱而、第九天 我趴在偏房一處隱蔽的房頂上張望筏餐。 院中可真熱鬧,春花似錦薛窥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至众旗,卻和暖如春罢杉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背贡歧。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國打工滩租, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人利朵。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓律想,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親绍弟。 傳聞我的和親對(duì)象是個(gè)殘疾皇子技即,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容