機(jī)器學(xué)習(xí)：推薦系統(tǒng)（六. 測(cè)試推薦系統(tǒng)）

1.瀏覽我們系統(tǒng)的推薦

現(xiàn)在我們有一個(gè)可用的產(chǎn)品推薦系統(tǒng)亮蒋，讓我們看看我們?yōu)椴煌挠脩裟玫搅耸裁唇Y(jié)果扣典。我們來看看Chapter 6/make_recommendations.py。

# Load user ratings 
raw_dataset_df = pd.read_csv('movie_ratings_data_set.csv')

# Load movie titles 
movies_df = pd.read_csv('movies.csv', index_col='movie_id')

# Convert the running list of user ratings into a matrix 
ratings_df = pd.pivot_table(raw_dataset_df, index='user_id',
                            columns='movie_id',
                            aggfunc=np.max)

# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_df.as_matrix(),
                                                                    num_features=15,
                                                                    regularization_amount=0.1)

首先慎玖，我們將使用pandas的read csv命令讀取數(shù)據(jù)集贮尖。我們還將使用read csv加載電影列表，所以我們也可以訪問電影標(biāo)題趁怔。然后湿硝，我們將使用pandas的pivot_table函數(shù)來創(chuàng)建審查矩陣薪前，然后我們將審查矩陣分解以獲得U和M矩陣。然后我們將乘以U和M來為每個(gè)用戶創(chuàng)建預(yù)測(cè)評(píng)級(jí)」匦保現(xiàn)在我們已經(jīng)有了預(yù)測(cè)評(píng)分示括，我們可以做出預(yù)測(cè)。


# Find all predicted ratings by multiplying U and M matrices
predicted_ratings = np.matmul(U, M)

print("Enter a user_id to get recommendations (Between 1 and 100):")
user_id_to_search = int(input())

print("Movies previously reviewed by user_id {}:".format(user_id_to_search))

reviewed_movies_df = raw_dataset_df[raw_dataset_df['user_id'] == user_id_to_search]
reviewed_movies_df = reviewed_movies_df.join(movies_df, on='movie_id')

print(reviewed_movies_df[['title', 'genre', 'value']])

在這里痢畜，我們將提示輸入用戶ID垛膝，用戶可以鍵入任何用戶ID來查看針對(duì)不同用戶的推薦。
在我們打印用戶推薦的電影之前，讓我們打印用戶已經(jīng)評(píng)價(jià)過的電影。
我們可以在原始數(shù)據(jù)集df數(shù)據(jù)框中查找它們徽曲。我們用pandas將列表篩選到用戶ID與剛輸入的用戶相同的條目中硼一。接下來，讓我們將這個(gè)評(píng)論列表與電影df數(shù)據(jù)join起來膨桥，以便我們可以顯示每個(gè)電影的詳細(xì)信息。我們可以用pandas的join功能來做到這一點(diǎn)。現(xiàn)在我們將打印帶有標(biāo)題矿酵，流派，價(jià)值或用戶給電影評(píng)分的評(píng)論電影列表矗积。
現(xiàn)在我們來看看我們要推薦給這個(gè)用戶的電影列表全肮。


user_ratings = predicted_ratings[user_id_to_search - 1]
movies_df['rating'] = user_ratings

首先，讓我們從預(yù)測(cè)評(píng)級(jí)列表中提取此特定用戶的預(yù)測(cè)評(píng)級(jí)棘捣。我們需要在這里減去一個(gè)辜腺，因?yàn)檫@個(gè)數(shù)組是零索引，但用戶ID從一開始≌Э郑現(xiàn)在我們可以將每部電影的預(yù)測(cè)評(píng)級(jí)保存到電影列表中评疗，以便于打印。在這一點(diǎn)上茵烈，我們有一個(gè)電影列表百匆，每個(gè)電影的分?jǐn)?shù)取決于用戶的喜好程度，但我們不想顯示用戶已經(jīng)評(píng)分過的電影呜投。所以我們需要從列表中排除那些電影加匈。


already_reviewed = reviewed_movies_df['movie_id']
recommended_df = movies_df[movies_df.index.isin(already_reviewed) == False]
recommended_df = recommended_df.sort_values(by=['rating'], ascending=False)

print(recommended_df[['title', 'genre', 'rating']].head(5))

我們可以獲得用戶已經(jīng)看過的電影ID列表，并將其保存到一個(gè)名為“already_reviewed”的變量中仑荐。然后雕拼，我們將看看不在該列表中的電影。這行代碼有點(diǎn)復(fù)雜粘招。首先啥寇，我們使用is函數(shù)來查找列表中的電影，然后我們將該列表與false進(jìn)行比較，以將其反轉(zhuǎn)并找到不在該列表中的電影示姿。然后甜橱，我們可以使用排序值對(duì)列表進(jìn)行排序，以便評(píng)級(jí)最高的電影是第一個(gè)栈戳。最后岂傲，我們可以使用pandas的head功能打印列表中的前五個(gè)電影。
讓我們來運(yùn)行代碼子檀。

讓我們輸入用戶2镊掖，然后回車。這是用戶ID 2已經(jīng)評(píng)分的電影褂痰。我們可以看到用戶給科幻亩进，神秘，驚悚和戲劇電影五顆星缩歪。注意归薛，這個(gè)用戶給了大城市法官1和警長(zhǎng)1五顆星。現(xiàn)在讓我們按回車匪蝙，看看我們的系統(tǒng)有什么推薦主籍。

好的，這五部電影看起來很不錯(cuò)逛球。這些建議中有三個(gè)甚至是用戶評(píng)價(jià)很高的電影續(xù)集千元。
它看起來像一切工作得很好。您可以嘗試使用不同的用戶ID系統(tǒng)颤绕，看看你得到什么樣的結(jié)果幸海。

2.使用正則

在我們的推薦系統(tǒng)中，我們采用評(píng)論數(shù)據(jù)奥务，并從中提取用戶屬性和電影屬性作為模型物独。使用這個(gè)模型，我們可以提出建議氯葬。構(gòu)建像這樣的模型時(shí)可能發(fā)生的常見問題稱為過度擬合挡篓。過度擬合是指模型沒有學(xué)習(xí)數(shù)據(jù)的整體模式，而是在取了太多的特定數(shù)據(jù)點(diǎn)溢谤。我們來舉個(gè)例子來解釋一下瞻凤。

想象一下憨攒，我們有兩部電影世杀。第一部電影是恐怖喜劇。第二個(gè)是嚴(yán)肅的血腥恐怖片肝集，根本沒有喜劇瞻坝。兩部電影都有恐怖元素，但一些觀眾可能更喜歡有趣的電影，而其他觀眾可能更喜歡這部嚴(yán)肅的電影所刀。
一個(gè)好的推薦系統(tǒng)將能把這兩部電影分開衙荐，看看這兩部電影有著相似的元素，但卻是截然不同的電影浮创，吸引了不同的觀眾忧吟。一個(gè)糟糕的推薦系統(tǒng)會(huì)過度配合，完全將注意力放在恐怖的屬性上斩披，而忽視其他的一切溜族。那個(gè)系統(tǒng)會(huì)提出更糟糕的建議，因?yàn)樗鼤?huì)把電影推薦給任何喜歡恐怖的人垦沉。它會(huì)忽略使這兩部電影獨(dú)一無二的其他屬性煌抒。為了防止這種情況，我們使用正則化厕倍。正則化限制了用矩陣分解查找用戶或電影屬性時(shí)寡壮，我們將設(shè)置在單個(gè)屬性上的權(quán)重。
我們?cè)O(shè)置的正則化量越高讹弯，我們將放在任何單個(gè)屬性上的權(quán)重就越小况既。這有助于我們識(shí)別出恐怖喜劇中恐怖和喜劇兩種元素。

到目前為止闸婴，我們?cè)诖a中使用了0.1的正則化數(shù)量坏挠。這適用于較小的數(shù)據(jù)集，就像我們?cè)谶@里少于100個(gè)產(chǎn)品一樣邪乍。但是降狠，對(duì)于具有數(shù)千個(gè)產(chǎn)品的更大的數(shù)據(jù)集，您應(yīng)該使用更大的值庇楞。當(dāng)您使用自己的數(shù)據(jù)集建立推薦系統(tǒng)時(shí)榜配，您需要嘗試使用不同的正則化值來了解它是如何影響推薦的質(zhì)量的。
在下一節(jié)中吕晌，我們將學(xué)習(xí)如何衡量模型的性能蛋褥。當(dāng)試驗(yàn)不同的正則化設(shè)置時(shí)，這將會(huì)有非常大的幫助睛驳。

3.評(píng)估推薦準(zhǔn)確率

我們?nèi)绾沃牢覀冇猛扑]系統(tǒng)預(yù)測(cè)的電影評(píng)分是正確的烙心？為了衡量我們的預(yù)測(cè)的準(zhǔn)確性，我們將使用稱為均方根誤差或RMSE(Root-Mean-Square-Error)的標(biāo)準(zhǔn)統(tǒng)計(jì)量度乏沸。 RMSE是衡量用戶的真實(shí)電影評(píng)級(jí)與我們?yōu)橥徊侩娪邦A(yù)測(cè)的評(píng)級(jí)之間的差異淫茵。 RMSE越低，模型越精確蹬跃。 RMSE為零意味著我們的模型完美地猜測(cè)用戶評(píng)分匙瘪。RMSE等于1，意味著當(dāng)預(yù)測(cè)用戶評(píng)級(jí)時(shí)，我們平均只有一顆星丹喻。

在衡量我們的推薦系統(tǒng)的準(zhǔn)確性時(shí)薄货，我們需要確保我們用來驗(yàn)證系統(tǒng)的數(shù)據(jù)是系統(tǒng)從未見過的數(shù)據(jù)。否則碍论，這不是一個(gè)公平的測(cè)試谅猾。所以，我們將我們的電影評(píng)級(jí)數(shù)據(jù)隨機(jī)分成兩組鳍悠，前70％的數(shù)據(jù)將成為我們的訓(xùn)練數(shù)據(jù)集赊瞬。我們將使用訓(xùn)練數(shù)據(jù)集來進(jìn)行矩陣分解，并創(chuàng)建U和M矩陣贼涩。另外30％的數(shù)據(jù)將作為測(cè)試數(shù)據(jù)集保留下來巧涧。我們將使用測(cè)試數(shù)據(jù)集來檢查系統(tǒng)如何對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)，這是以前從未見過的數(shù)據(jù)遥倦。
我們來看一下measure_accuracy.py



# Load user ratings
raw_training_dataset_df = pd.read_csv('movie_ratings_data_set_training.csv')
raw_testing_dataset_df = pd.read_csv('movie_ratings_data_set_testing.csv')

# Convert the running list of user ratings into a matrix
ratings_training_df = pd.pivot_table(raw_training_dataset_df, index='user_id', columns='movie_id', aggfunc=np.max)
ratings_testing_df = pd.pivot_table(raw_testing_dataset_df, index='user_id', columns='movie_id', aggfunc=np.max)

# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_training_df.as_matrix(),
                                                                    num_features=11,
                                                                    regularization_amount=1.1)

我已經(jīng)把數(shù)據(jù)集分成了兩個(gè)不同的文件谤绳，movie_ratings_data_set_training.csv有70％的評(píng)論，而movie_ratings_data_set_testing.csv有另外的30％袒哥。我們將使用pandas的read_CSV功能將兩個(gè)文件加載到單獨(dú)的數(shù)據(jù)框中缩筛。接下來，我們將使用Panda的pivot_table函數(shù)為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)創(chuàng)建單獨(dú)的評(píng)分矩陣堡称。然后瞎抛，我們將只對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行矩陣分解。
然后却紧，我們將乘以U和M來獲得預(yù)測(cè)評(píng)級(jí)桐臊。

現(xiàn)在，我們可以使用RMSE函數(shù)和矩陣分解工具來計(jì)算錯(cuò)誤率晓殊。要使用這個(gè)函數(shù)断凶，我們只需要傳入我們想要比較的兩個(gè)數(shù)組。

# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_training_df.as_matrix(),
                                                                    num_features=11,
                                                                    regularization_amount=1.1)

# Find all predicted ratings by multiplying U and M
predicted_ratings = np.matmul(U, M)

# Measure RMSE
rmse_training = matrix_factorization_utilities.RMSE(ratings_training_df.as_matrix(),
                                                    predicted_ratings)
rmse_testing = matrix_factorization_utilities.RMSE(ratings_testing_df.as_matrix(),
                                                   predicted_ratings)

print("Training RMSE: {}".format(rmse_training))
print("Testing RMSE: {}".format(rmse_testing))

首先巫俺，我們將訓(xùn)練數(shù)據(jù)與預(yù)測(cè)評(píng)分進(jìn)行比較认烁，我們?cè)谟?xùn)練數(shù)據(jù)框架上調(diào)用as_matrix，所以它作為num.py矩陣數(shù)據(jù)類型被傳入介汹。然后却嗡，我們還將測(cè)試數(shù)據(jù)與預(yù)測(cè)評(píng)分進(jìn)行比較，最后我們可以打印出兩個(gè)數(shù)字嘹承。讓我們運(yùn)行代碼窗价，看看我們得到了什么樣的結(jié)果。
好吧赶撰，我們得到了0.24的training-RMSE和約1.2的testing-RMSE舌镶。低的training-RMSE表明我們的基本算法正在工作，testing-RMSE是更重要的數(shù)字豪娜，因?yàn)樗嬖V我們預(yù)測(cè)到底如何餐胀。得分為1.2意味著我們的系統(tǒng)在預(yù)測(cè)用戶的評(píng)分時(shí)得分很少。我們可以做的一件事就是調(diào)整正則化量參數(shù)瘤载。然而否灾，這是一個(gè)折衷，正規(guī)化將提高訓(xùn)練分?jǐn)?shù)鸣奔，但可能會(huì)降低測(cè)試分?jǐn)?shù)墨技。
我們?cè)谶@個(gè)例子中有一個(gè)局限性，就是我們只有幾百個(gè)電影評(píng)論可供使用挎狸，在這種情況下我們可以做的最好的事情就是獲得更多的用戶評(píng)論扣汪。更多的電影評(píng)論會(huì)給我們的系統(tǒng)提供更多的信息，所以它可以做得更好锨匆。在構(gòu)建自己的建議系統(tǒng)時(shí)崭别，RMSE是查看系統(tǒng)運(yùn)行狀況的有用工具，但RMSE不是最后的評(píng)定恐锣。推薦系統(tǒng)的終極測(cè)試是用戶喜歡他們得到的建議茅主。因此，如果實(shí)際上并沒有改善用戶體驗(yàn)土榴，那么不要擔(dān)心RMSE的微小改進(jìn)诀姚。

結(jié)語

下一章將介紹如何在現(xiàn)實(shí)生活中應(yīng)用推薦系統(tǒng) .

你的關(guān)注-收藏-轉(zhuǎn)發(fā) 是我繼續(xù)分享的動(dòng)力!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市玷禽，隨后出現(xiàn)的幾起案子赫段，更是在濱河造成了極大的恐慌，老刑警劉巖矢赁，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件瑞佩，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡坯台，警方通過查閱死者的電腦和手機(jī)炬丸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蜒蕾，“玉大人稠炬，你說我怎么就攤上這事∵浞龋” “怎么了首启？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)撤摸。經(jīng)常有香客問我毅桃，道長(zhǎng)褒纲，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任钥飞，我火速辦了婚禮莺掠，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘读宙。我一直安慰自己彻秆，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布结闸。她就那樣靜靜地躺著唇兑，像睡著了一般。火紅的嫁衣襯著肌膚如雪桦锄。梳的紋絲不亂的頭發(fā)上扎附，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說
那天，我揣著相機(jī)與錄音结耀，去河邊找鬼帕棉。笑死，一個(gè)胖子當(dāng)著我的面吹牛饼记，可吹牛的內(nèi)容都是我干的香伴。我是一名探鬼主播，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼具则，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼即纲！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起博肋，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤低斋，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后匪凡，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體膊畴，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年病游，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了唇跨。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡衬衬，死狀恐怖买猖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情滋尉，我是刑警寧澤玉控，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站狮惜，受9級(jí)特大地震影響高诺，放射性物質(zhì)發(fā)生泄漏碌识。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一虱而、第九天我趴在偏房一處隱蔽的房頂上張望筏餐。院中可真熱鬧，春花似錦薛窥、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案诅迷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至众旗，卻和暖如春罢杉，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背贡歧。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工滩租，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人利朵。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓律想，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國和親绍弟。傳聞我的和親對(duì)象是個(gè)殘疾皇子技即，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

機(jī)器學(xué)習(xí)：推薦系統(tǒng)（六. 測(cè)試推薦系統(tǒng)）

機(jī)器學(xué)習(xí)：推薦系統(tǒng)（六. 測(cè)試推薦系統(tǒng)）

目錄

1.瀏覽我們系統(tǒng)的推薦

2.使用正則

3.評(píng)估推薦準(zhǔn)確率

結(jié)語

推薦閱讀更多精彩內(nèi)容