原文鏈接:商業(yè)分析python實(shí)戰(zhàn)(二):電影智能推薦
隨著企業(yè)經(jīng)營(yíng)水平的提高弯予,對(duì)應(yīng)網(wǎng)站的訪問(wèn)量逐步增加,數(shù)據(jù)信息也隨之大量增長(zhǎng),使得用戶(hù)面對(duì)海量信息時(shí)無(wú)法快速找到想要的內(nèi)容,降低了信息使用效率。這時(shí),可以利用相關(guān)數(shù)據(jù),研究用戶(hù)興趣偏好燕雁,分析用戶(hù)的需求和行為诞丽,引導(dǎo)用戶(hù)發(fā)現(xiàn)需求信息,將內(nèi)容準(zhǔn)確推薦給用戶(hù)拐格。
本例通過(guò)943名用戶(hù)對(duì)1664部電影的評(píng)分?jǐn)?shù)據(jù)僧免,構(gòu)建協(xié)同過(guò)濾模型,進(jìn)而推薦電影供用戶(hù)觀看捏浊。通過(guò)本例懂衩,可以了解協(xié)同過(guò)濾算法在電子商務(wù)智能推薦領(lǐng)域的應(yīng)用方法,幫助用戶(hù)更加便捷的獲取想要的信息金踪,進(jìn)而提升用戶(hù)體驗(yàn)浊洞、促進(jìn)推薦轉(zhuǎn)化。
步驟
1胡岔、獲取數(shù)據(jù)法希;
2、數(shù)據(jù)探索分析靶瘸;
3苫亦、構(gòu)建智能推薦模型;
4奕锌、評(píng)估推薦系統(tǒng)模型著觉。
NO.1 獲取數(shù)據(jù)
數(shù)據(jù)包含943名用戶(hù)對(duì)1664部電影的打分村生,評(píng)分在1-5分之間惊暴,超出規(guī)定范圍的算異常值。
NO.2 數(shù)據(jù)探索分析
導(dǎo)入的數(shù)據(jù)共有99416行趁桃,3列辽话,第一列為用戶(hù)id,第二列為電影名字卫病,第三列為打分油啤。
經(jīng)過(guò)基本的數(shù)據(jù)驗(yàn)證,發(fā)現(xiàn)三列數(shù)據(jù)均存在缺失的情況(取值為空)蟀苛,且根據(jù)打分列益咬,發(fā)現(xiàn)數(shù)據(jù)存在異常值(打分結(jié)果不在1-5范圍內(nèi)),因此將存在缺失值和異常值的行刪除帜平,刪除后幽告,數(shù)據(jù)剩下99392行。同時(shí)裆甩,為了進(jìn)行每部電影的打分?jǐn)?shù)據(jù)探索分析冗锁,將movie列中的電影名轉(zhuǎn)換為列名,轉(zhuǎn)換后嗤栓,可觀察每部電影的評(píng)分用戶(hù)數(shù)及分?jǐn)?shù)的基本分布冻河。
NO.3 構(gòu)建基于物品的協(xié)同過(guò)濾推薦模型
基于物品的協(xié)同過(guò)濾模型(ItemCF)通過(guò)分析群體用戶(hù)的歷史偏好箍邮,找到相似物品,然后根據(jù)個(gè)體用戶(hù)的歷史行為為其進(jìn)行推薦叨叙,主要分為計(jì)算物品間相似度和生成推薦列表兩個(gè)步驟锭弊。ItemCF可以離線計(jì)算,從而提高推薦效率擂错,且利用歷史行為進(jìn)行推薦解釋?zhuān)Y(jié)果更容易信服廷蓉,但是推薦精度相對(duì)有限,且對(duì)于用戶(hù)偏好的變化不敏感马昙,實(shí)時(shí)推薦能力較弱桃犬。關(guān)于ItemCF的更多介紹可參考往期文章推薦算法概述。在實(shí)際應(yīng)用時(shí)行楞,用戶(hù)的歷史行為包含是否瀏覽網(wǎng)頁(yè)攒暇、是否購(gòu)買(mǎi)、是否評(píng)論子房、是否轉(zhuǎn)發(fā)點(diǎn)贊等形用,本例中,僅涉及用戶(hù)對(duì)電影的打分证杭,因此不存在其他的行為田度。得到的電影相似度矩陣如下:
構(gòu)建ItemCF模型后,得到用戶(hù)1.0的推薦清單如下:
NO.4 評(píng)估推薦系統(tǒng)模型
模型結(jié)果評(píng)價(jià)主要有三種方式解愤,分別為離線測(cè)試镇饺、用戶(hù)調(diào)查和在線實(shí)驗(yàn)。
離線測(cè)試:通過(guò)從實(shí)際系統(tǒng)中提取數(shù)據(jù)送讲,采用各種推薦算法并計(jì)算各算法的測(cè)評(píng)指標(biāo)奸笤。該方法不需真實(shí)用戶(hù)參與,但結(jié)果與實(shí)際結(jié)果會(huì)存在偏差哼鬓。
用戶(hù)調(diào)查:利用測(cè)試的推薦系統(tǒng)調(diào)查真實(shí)用戶(hù)监右,觀察他們的行為并回答相關(guān)問(wèn)題,通過(guò)用戶(hù)行為及反饋判斷推薦系統(tǒng)好壞异希。
在線實(shí)驗(yàn):將推薦系統(tǒng)投入實(shí)際應(yīng)用健盒,通過(guò)應(yīng)用的轉(zhuǎn)化指標(biāo)評(píng)價(jià)推薦系統(tǒng)結(jié)果。
實(shí)現(xiàn)代碼
點(diǎn)擊原文()后臺(tái)回復(fù)“電影推薦”可得本例數(shù)據(jù)及代碼称簿。
參考內(nèi)容:
1扣癣、《R語(yǔ)言商務(wù)數(shù)據(jù)分析實(shí)戰(zhàn)》