目錄
1.瀏覽我們系統(tǒng)的推薦
2.使用正則
3.評(píng)估推薦準(zhǔn)確率
1.瀏覽我們系統(tǒng)的推薦
現(xiàn)在我們有一個(gè)可用的產(chǎn)品推薦系統(tǒng)亮蒋,讓我們看看我們?yōu)椴煌挠脩裟玫搅耸裁唇Y(jié)果扣典。我們來看看Chapter 6/make_recommendations.py。
# Load user ratings
raw_dataset_df = pd.read_csv('movie_ratings_data_set.csv')
# Load movie titles
movies_df = pd.read_csv('movies.csv', index_col='movie_id')
# Convert the running list of user ratings into a matrix
ratings_df = pd.pivot_table(raw_dataset_df, index='user_id',
columns='movie_id',
aggfunc=np.max)
# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_df.as_matrix(),
num_features=15,
regularization_amount=0.1)
首先慎玖,我們將使用pandas的read csv命令讀取數(shù)據(jù)集贮尖。我們還將使用read csv加載電影列表,所以我們也可以訪問電影標(biāo)題趁怔。然后湿硝,我們將使用pandas的pivot_table函數(shù)來創(chuàng)建審查矩陣薪前,然后我們將審查矩陣分解以獲得U和M矩陣。然后我們將乘以U和M來為每個(gè)用戶創(chuàng)建預(yù)測(cè)評(píng)級(jí)」匦保現(xiàn)在我們已經(jīng)有了預(yù)測(cè)評(píng)分示括,我們可以做出預(yù)測(cè)。
# Find all predicted ratings by multiplying U and M matrices
predicted_ratings = np.matmul(U, M)
print("Enter a user_id to get recommendations (Between 1 and 100):")
user_id_to_search = int(input())
print("Movies previously reviewed by user_id {}:".format(user_id_to_search))
reviewed_movies_df = raw_dataset_df[raw_dataset_df['user_id'] == user_id_to_search]
reviewed_movies_df = reviewed_movies_df.join(movies_df, on='movie_id')
print(reviewed_movies_df[['title', 'genre', 'value']])
在這里痢畜,我們將提示輸入用戶ID垛膝,用戶可以鍵入任何用戶ID來查看針對(duì)不同用戶的推薦。
在我們打印用戶推薦的電影之前,讓我們打印用戶已經(jīng)評(píng)價(jià)過的電影。
我們可以在原始數(shù)據(jù)集df數(shù)據(jù)框中查找它們徽曲。我們用pandas將列表篩選到用戶ID與剛輸入的用戶相同的條目中硼一。接下來,讓我們將這個(gè)評(píng)論列表與電影df數(shù)據(jù)join起來膨桥,以便我們可以顯示每個(gè)電影的詳細(xì)信息。我們可以用pandas的join功能來做到這一點(diǎn)。現(xiàn)在我們將打印帶有標(biāo)題矿酵,流派,價(jià)值或用戶給電影評(píng)分的評(píng)論電影列表矗积。
現(xiàn)在我們來看看我們要推薦給這個(gè)用戶的電影列表全肮。
user_ratings = predicted_ratings[user_id_to_search - 1]
movies_df['rating'] = user_ratings
首先,讓我們從預(yù)測(cè)評(píng)級(jí)列表中提取此特定用戶的預(yù)測(cè)評(píng)級(jí)棘捣。我們需要在這里減去一個(gè)辜腺,因?yàn)檫@個(gè)數(shù)組是零索引,但用戶ID從一開始≌Э郑現(xiàn)在我們可以將每部電影的預(yù)測(cè)評(píng)級(jí)保存到電影列表中评疗,以便于打印。在這一點(diǎn)上茵烈,我們有一個(gè)電影列表百匆,每個(gè)電影的分?jǐn)?shù)取決于用戶的喜好程度,但我們不想顯示用戶已經(jīng)評(píng)分過的電影呜投。所以我們需要從列表中排除那些電影加匈。
already_reviewed = reviewed_movies_df['movie_id']
recommended_df = movies_df[movies_df.index.isin(already_reviewed) == False]
recommended_df = recommended_df.sort_values(by=['rating'], ascending=False)
print(recommended_df[['title', 'genre', 'rating']].head(5))
我們可以獲得用戶已經(jīng)看過的電影ID列表,并將其保存到一個(gè)名為“already_reviewed”的變量中仑荐。然后雕拼,我們將看看不在該列表中的電影。這行代碼有點(diǎn)復(fù)雜粘招。首先啥寇,我們使用is函數(shù)來查找列表中的電影,然后我們將該列表與false進(jìn)行比較,以將其反轉(zhuǎn)并找到不在該列表中的電影示姿。然后甜橱,我們可以使用排序值對(duì)列表進(jìn)行排序,以便評(píng)級(jí)最高的電影是第一個(gè)栈戳。最后岂傲,我們可以使用pandas的head功能打印列表中的前五個(gè)電影。
讓我們來運(yùn)行代碼子檀。
讓我們輸入用戶2镊掖,然后回車。這是用戶ID 2已經(jīng)評(píng)分的電影褂痰。我們可以看到用戶給科幻亩进,神秘,驚悚和戲劇電影五顆星缩歪。注意归薛,這個(gè)用戶給了大城市法官1和警長(zhǎng)1五顆星。現(xiàn)在讓我們按回車匪蝙,看看我們的系統(tǒng)有什么推薦主籍。
好的,這五部電影看起來很不錯(cuò)逛球。這些建議中有三個(gè)甚至是用戶評(píng)價(jià)很高的電影續(xù)集千元。
它看起來像一切工作得很好。您可以嘗試使用不同的用戶ID系統(tǒng)颤绕,看看你得到什么樣的結(jié)果幸海。
2.使用正則
在我們的推薦系統(tǒng)中,我們采用評(píng)論數(shù)據(jù)奥务,并從中提取用戶屬性和電影屬性作為模型物独。使用這個(gè)模型,我們可以提出建議氯葬。構(gòu)建像這樣的模型時(shí)可能發(fā)生的常見問題稱為過度擬合挡篓。過度擬合是指模型沒有學(xué)習(xí)數(shù)據(jù)的整體模式,而是在取了太多的特定數(shù)據(jù)點(diǎn)溢谤。我們來舉個(gè)例子來解釋一下瞻凤。
想象一下憨攒,我們有兩部電影世杀。第一部電影是恐怖喜劇。第二個(gè)是嚴(yán)肅的血腥恐怖片肝集,根本沒有喜劇瞻坝。兩部電影都有恐怖元素,但一些觀眾可能更喜歡有趣的電影,而其他觀眾可能更喜歡這部嚴(yán)肅的電影所刀。
一個(gè)好的推薦系統(tǒng)將能把這兩部電影分開衙荐,看看這兩部電影有著相似的元素,但卻是截然不同的電影浮创,吸引了不同的觀眾忧吟。一個(gè)糟糕的推薦系統(tǒng)會(huì)過度配合,完全將注意力放在恐怖的屬性上斩披,而忽視其他的一切溜族。那個(gè)系統(tǒng)會(huì)提出更糟糕的建議,因?yàn)樗鼤?huì)把電影推薦給任何喜歡恐怖的人垦沉。它會(huì)忽略使這兩部電影獨(dú)一無二的其他屬性煌抒。為了防止這種情況,我們使用正則化厕倍。正則化限制了用矩陣分解查找用戶或電影屬性時(shí)寡壮,我們將設(shè)置在單個(gè)屬性上的權(quán)重。
我們?cè)O(shè)置的正則化量越高讹弯,我們將放在任何單個(gè)屬性上的權(quán)重就越小况既。這有助于我們識(shí)別出恐怖喜劇中恐怖和喜劇兩種元素。
到目前為止闸婴,我們?cè)诖a中使用了0.1的正則化數(shù)量坏挠。這適用于較小的數(shù)據(jù)集,就像我們?cè)谶@里少于100個(gè)產(chǎn)品一樣邪乍。但是降狠,對(duì)于具有數(shù)千個(gè)產(chǎn)品的更大的數(shù)據(jù)集,您應(yīng)該使用更大的值庇楞。當(dāng)您使用自己的數(shù)據(jù)集建立推薦系統(tǒng)時(shí)榜配,您需要嘗試使用不同的正則化值來了解它是如何影響推薦的質(zhì)量的。
在下一節(jié)中吕晌,我們將學(xué)習(xí)如何衡量模型的性能蛋褥。當(dāng)試驗(yàn)不同的正則化設(shè)置時(shí),這將會(huì)有非常大的幫助睛驳。
3.評(píng)估推薦準(zhǔn)確率
我們?nèi)绾沃牢覀冇猛扑]系統(tǒng)預(yù)測(cè)的電影評(píng)分是正確的烙心?為了衡量我們的預(yù)測(cè)的準(zhǔn)確性,我們將使用稱為均方根誤差或RMSE(Root-Mean-Square-Error)的標(biāo)準(zhǔn)統(tǒng)計(jì)量度乏沸。 RMSE是衡量用戶的真實(shí)電影評(píng)級(jí)與我們?yōu)橥徊侩娪邦A(yù)測(cè)的評(píng)級(jí)之間的差異淫茵。 RMSE越低,模型越精確蹬跃。 RMSE為零意味著我們的模型完美地猜測(cè)用戶評(píng)分匙瘪。RMSE等于1,意味著當(dāng)預(yù)測(cè)用戶評(píng)級(jí)時(shí),我們平均只有一顆星丹喻。
在衡量我們的推薦系統(tǒng)的準(zhǔn)確性時(shí)薄货,我們需要確保我們用來驗(yàn)證系統(tǒng)的數(shù)據(jù)是系統(tǒng)從未見過的數(shù)據(jù)。否則碍论,這不是一個(gè)公平的測(cè)試谅猾。所以,我們將我們的電影評(píng)級(jí)數(shù)據(jù)隨機(jī)分成兩組鳍悠,前70%的數(shù)據(jù)將成為我們的訓(xùn)練數(shù)據(jù)集赊瞬。我們將使用訓(xùn)練數(shù)據(jù)集來進(jìn)行矩陣分解,并創(chuàng)建U和M矩陣贼涩。另外30%的數(shù)據(jù)將作為測(cè)試數(shù)據(jù)集保留下來巧涧。我們將使用測(cè)試數(shù)據(jù)集來檢查系統(tǒng)如何對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),這是以前從未見過的數(shù)據(jù)遥倦。
我們來看一下measure_accuracy.py
# Load user ratings
raw_training_dataset_df = pd.read_csv('movie_ratings_data_set_training.csv')
raw_testing_dataset_df = pd.read_csv('movie_ratings_data_set_testing.csv')
# Convert the running list of user ratings into a matrix
ratings_training_df = pd.pivot_table(raw_training_dataset_df, index='user_id', columns='movie_id', aggfunc=np.max)
ratings_testing_df = pd.pivot_table(raw_testing_dataset_df, index='user_id', columns='movie_id', aggfunc=np.max)
# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_training_df.as_matrix(),
num_features=11,
regularization_amount=1.1)
我已經(jīng)把數(shù)據(jù)集分成了兩個(gè)不同的文件谤绳,movie_ratings_data_set_training.csv有70%的評(píng)論,而movie_ratings_data_set_testing.csv有另外的30%袒哥。我們將使用pandas的read_CSV功能將兩個(gè)文件加載到單獨(dú)的數(shù)據(jù)框中缩筛。接下來,我們將使用Panda的pivot_table函數(shù)為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)創(chuàng)建單獨(dú)的評(píng)分矩陣堡称。然后瞎抛,我們將只對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行矩陣分解。
然后却紧,我們將乘以U和M來獲得預(yù)測(cè)評(píng)級(jí)桐臊。
現(xiàn)在,我們可以使用RMSE函數(shù)和矩陣分解工具來計(jì)算錯(cuò)誤率晓殊。要使用這個(gè)函數(shù)断凶,我們只需要傳入我們想要比較的兩個(gè)數(shù)組。
# Apply matrix factorization to find the latent features
U, M = matrix_factorization_utilities.low_rank_matrix_factorization(ratings_training_df.as_matrix(),
num_features=11,
regularization_amount=1.1)
# Find all predicted ratings by multiplying U and M
predicted_ratings = np.matmul(U, M)
# Measure RMSE
rmse_training = matrix_factorization_utilities.RMSE(ratings_training_df.as_matrix(),
predicted_ratings)
rmse_testing = matrix_factorization_utilities.RMSE(ratings_testing_df.as_matrix(),
predicted_ratings)
print("Training RMSE: {}".format(rmse_training))
print("Testing RMSE: {}".format(rmse_testing))
首先巫俺,我們將訓(xùn)練數(shù)據(jù)與預(yù)測(cè)評(píng)分進(jìn)行比較认烁,我們?cè)谟?xùn)練數(shù)據(jù)框架上調(diào)用as_matrix,所以它作為num.py矩陣數(shù)據(jù)類型被傳入介汹。然后却嗡,我們還將測(cè)試數(shù)據(jù)與預(yù)測(cè)評(píng)分進(jìn)行比較,最后我們可以打印出兩個(gè)數(shù)字嘹承。讓我們運(yùn)行代碼窗价,看看我們得到了什么樣的結(jié)果。
好吧赶撰,我們得到了0.24的training-RMSE和約1.2的testing-RMSE舌镶。低的training-RMSE表明我們的基本算法正在工作,testing-RMSE是更重要的數(shù)字豪娜,因?yàn)樗嬖V我們預(yù)測(cè)到底如何餐胀。得分為1.2意味著我們的系統(tǒng)在預(yù)測(cè)用戶的評(píng)分時(shí)得分很少。我們可以做的一件事就是調(diào)整正則化量參數(shù)瘤载。然而否灾,這是一個(gè)折衷,正規(guī)化將提高訓(xùn)練分?jǐn)?shù)鸣奔,但可能會(huì)降低測(cè)試分?jǐn)?shù)墨技。
我們?cè)谶@個(gè)例子中有一個(gè)局限性,就是我們只有幾百個(gè)電影評(píng)論可供使用挎狸,在這種情況下我們可以做的最好的事情就是獲得更多的用戶評(píng)論扣汪。更多的電影評(píng)論會(huì)給我們的系統(tǒng)提供更多的信息,所以它可以做得更好锨匆。在構(gòu)建自己的建議系統(tǒng)時(shí)崭别,RMSE是查看系統(tǒng)運(yùn)行狀況的有用工具,但RMSE不是最后的評(píng)定恐锣。推薦系統(tǒng)的終極測(cè)試是用戶喜歡他們得到的建議茅主。因此,如果實(shí)際上并沒有改善用戶體驗(yàn)土榴,那么不要擔(dān)心RMSE的微小改進(jìn)诀姚。
結(jié)語
下一章將介紹如何在現(xiàn)實(shí)生活中應(yīng)用推薦系統(tǒng) .
你的 關(guān)注-收藏-轉(zhuǎn)發(fā) 是我繼續(xù)分享的動(dòng)力!