推薦系統(tǒng)實戰(zhàn)：ch1好的推薦系統(tǒng)

推薦系統(tǒng)是一個看似簡單但和業(yè)務(wù)邏輯聯(lián)系緊密的問題姻几，了解什么是“優(yōu)秀”的推薦系統(tǒng)至關(guān)重要漆诽。

什么是推薦系統(tǒng)
推薦系統(tǒng)的主要任務(wù)
推薦系統(tǒng)和搜索引擎的區(qū)別
推薦系統(tǒng)的評測指標(biāo)

1.1 什么是推薦系統(tǒng)

從以往的分類瀏覽到現(xiàn)在信息過載的時代数冬，面對海量信息李命，人們難以描述和真正知道自己需要的是什么撩鹿。當(dāng)然搜索引擎可以解決一部分問題搅方，但前提是用戶首先知道自己想要什么谬哀。

用戶需要從大量信息中找到自己想要的刺覆，信息生產(chǎn)者想要自己的信息脫穎而出。推薦系統(tǒng)的目的就是來解決這個矛盾的問題史煎，其任務(wù)是：聯(lián)系用戶和信息谦屑，幫助用戶發(fā)展對自己有價值的信息驳糯，同時讓信息能夠展現(xiàn)在感興趣用戶的面前，實現(xiàn)用戶和信息生產(chǎn)者的雙贏氢橙。

推薦系統(tǒng)不需要用戶提供明確的需求酝枢，通過分析用戶的歷史行為進行建模。主動給用戶推薦能滿足用戶興趣需求的你信息悍手。所以推薦系統(tǒng)和搜索引擎是兩個互補的工具：搜索引擎滿足了用戶有明確需求的信息檢索需求帘睦，推薦系統(tǒng)滿足了用戶無明確目的的信息檢索需求。

物品的記錄符合長尾規(guī)律（80/20定律）坦康，即80%的銷售額來自20%的熱門品牌竣付。主流商品代表了絕大用戶的共同需求，但長尾商品代表了小部分用戶和大部分用戶的個性化需求滞欠。推薦系統(tǒng)的目的可以用“千人千面”這個詞語代替古胆，即對每個用戶都能夠找到個性化需求，將長尾物品進行推薦仑撞。

推薦系統(tǒng)的工作方式：

社會化推薦(Social Recommendation)：詢問好友得到信息赤兴。
內(nèi)容推薦(Content-Based Recommendation)：找用戶已有信息內(nèi)容上相似的物品。
協(xié)同過濾(Collaborative Filtering)：找到相似和用戶和物品隧哮。

推薦系統(tǒng)就是將用戶與物品進行聯(lián)系的工具桶良。

1.3 推薦系統(tǒng)評測

推薦系統(tǒng)能夠滿足用戶的需求，也能夠把合適信息推薦給用戶沮翔，同時還能不斷在反饋中進度陨帆。準(zhǔn)確的預(yù)測并不是好的預(yù)測，可能熱門商品很準(zhǔn)確采蚀，但并不嫩能夠滿足用戶的個性化需求疲牵。推薦系統(tǒng)還能夠擴展用戶的視野。

1.3.1 推薦系統(tǒng)的實驗方法

1.離線實驗

收集用戶行為數(shù)據(jù)榆鼠，形成數(shù)據(jù)集纲爸；
劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)；
在訓(xùn)練數(shù)據(jù)上訓(xùn)練興趣模型妆够，在測試數(shù)據(jù)進行測試识啦；
使用離線指標(biāo)在測試集上進行預(yù)測；

推薦系統(tǒng)可以在離線數(shù)據(jù)上完成神妹，但不能關(guān)注點擊率和轉(zhuǎn)化率等颓哮，很難找到商業(yè)指標(biāo)。

2.用戶調(diào)查

離線實驗不能得到用戶的主觀感受鸵荠，通過用戶調(diào)查可以得到用戶的主觀感受指標(biāo)冕茅，但成本高。

3.在線實驗

將新推薦算法上線做AB測試，將用戶隨機分為幾組姨伤，并采用不同的算法哨坪，通過統(tǒng)計不同組用戶的評測指標(biāo)來比較算法的性能。AB測試的優(yōu)點是可以公平獲得算法的性能精度對比姜挺，以及商業(yè)評價指標(biāo)齿税，但測試周期比較長。

1.3.2 評測指標(biāo)

1.用戶滿意程度

用戶滿意是推薦系統(tǒng)的最重要的指標(biāo)炊豪，但用戶滿意度無法離線計算凌箕，只能通過在線調(diào)查獲得。用戶滿意度可以從用戶的行為數(shù)據(jù)中獲得词渤，比如用戶的購物行為牵舱、用戶反饋和用戶點贊。

2.預(yù)測準(zhǔn)確度
預(yù)測準(zhǔn)確度用來衡量推薦算法預(yù)測用戶行為的能力缺虐，是重要的離線評測指標(biāo)芜壁。

評分預(yù)測：預(yù)測用戶對物品的評分
評分預(yù)測一般使用均方誤差(RSME)和平均絕對誤差(MAE)計算。對于用戶u和物品i高氮，tui表示用戶u對物品i的實際評分慧妄，則RSME定義為：
![](http://latex.codecogs.com/gif.latex?$$RMSE=\frac{\sqrt{\sum_{u,i \in T}(r_ui-\hat{r}_ui)^2}}{|T|}$$)

MAE采用絕對值計算預(yù)測誤差，定義為：
![](http://latex.codecogs.com/gif.latex?$$MAE=\frac{\sum_{u,i \in T}| r_ui - \hat{r}_ui|}{|T|}$$)
Netflix認(rèn)為RMSE架打了對預(yù)測不準(zhǔn)的懲罰剪芍，對于系統(tǒng)要求高塞淹。

TopN 推薦：給用戶個性化的推薦列表
TopN 推薦一般使用準(zhǔn)確率(precision)和召回率(recall)度量。假設(shè)$R(u)$為用戶在訓(xùn)練數(shù)據(jù)上給用戶做出的推薦列表罪裹，T(u)為用戶在測試數(shù)據(jù)上的列表饱普。則推薦結(jié)果的召回率定義為：
![](http://latex.codecogs.com/gif.latex?$$Recall=\frac{\sum_{u \in U}|R(u)\bigcap T(u)|}{\sum_{u \in U}|T(u)|}$$)
準(zhǔn)確率定義為：
![](http://latex.codecogs.com/gif.latex?$$Precision=\frac{\sum_{u \in U}|R(u)\bigcap T(u)|}{\sum_{u \in U}|R(u)|}$$)

評分預(yù)測一直是推薦系統(tǒng)的研究熱點，關(guān)注與RSME的優(yōu)化状共。但TopN 才更加適合實際的應(yīng)用需求套耕，因為預(yù)測的目的是用戶感興趣的信息，而不是得分峡继。

3.覆蓋率
覆蓋率(coverage)評價的是推薦系統(tǒng)對長尾物品的發(fā)掘能力冯袍。覆蓋率有不同的定義方法，最簡單是為推薦系統(tǒng)能推薦物品占總物品的比例碾牌，是信息產(chǎn)生者關(guān)注的指標(biāo)颠猴。為了細(xì)致描述推薦系統(tǒng)的長尾能力，需要統(tǒng)計推薦列表中不同物品出現(xiàn)的次數(shù)小染。如果所有的物品都出現(xiàn)在推薦列表中，且出現(xiàn)的次數(shù)不多贮折，則推薦系統(tǒng)發(fā)掘長尾能力比較好裤翩，即可以通過研究推薦列表中出現(xiàn)次數(shù)的分布來描述推薦系統(tǒng)挖掘長尾的能力。若分布比較平均，則覆蓋率較高踊赠；反之或曲線比較陡峭呵扛，說明覆蓋率較低】鸫可以使用以下兩個指標(biāo)來定義覆蓋率：

第一個是信息熵：
![](http://latex.codecogs.com/gif.latex?$$H=-\sum^n_{i=1}p(i)log , p(i)$$)
其中p(i)表示物品i的流行度除以所有物品流行度之和今穿。

第二個指標(biāo)是基尼指數(shù)(Gini Index)：

$G=\frac{1}{n-1}\sum^n_{j=1}(2j-n-1)p(i_j)$

其中$i_j$是按照物品流行程度p()來從小到大排序物品中第j個物品。

4.多樣性
推薦列表應(yīng)該能夠覆蓋用戶不同的興趣領(lǐng)域伦籍，增加用戶找到物品的概率蓝晒。多樣性描述推薦列表中物品兩兩之間的不相似性，假設(shè)$s(i, j)\in[0,1]$為物品i和j之間的相似度帖鸦，則用戶u的推薦列表R(u)的多樣性定義如下：
![](http://latex.codecogs.com/gif.latex?$$Diversity=1-\frac{\sum_{i,j \in R(u) and i , \neq , j}s(i, j)}{\frac{1}{2}|R(u)|(|R(u)|-1)}$$)

而整個推薦系統(tǒng)的多樣性可以定義為所有用戶推薦列表多樣性的平均值：
![](http://latex.codecogs.com/gif.latex?$$Diversity=\frac{1}{|U|}\sum_{u \in U}Diversity(R(u))$$)

所以不同物品相似度量函數(shù)$s(i,j)$定義了不同的多樣性芝薇。如果用物品內(nèi)容來描述物品相似度，則得到內(nèi)容多樣性函數(shù)作儿；如果用協(xié)同過濾的相似度函數(shù)洛二，則得到協(xié)同過濾相似度函數(shù)。

5.新穎性
新穎的推薦是給用戶推薦他們沒有聽所的物品攻锰，可以直接在推薦列表中過濾掉用戶以評分的相似物品晾嘶。評測新穎性可以簡單的利用推薦結(jié)果的平均流行程度，一般情況下冷門物品會給人感覺很有驚喜娶吞。

6.驚喜度
驚喜度和新穎性有點類似垒迂，但有本質(zhì)的區(qū)別。驚喜度側(cè)重于推薦與用戶歷史不相似寝志，但能讓用戶滿意的結(jié)果娇斑；新穎性側(cè)重于用戶是否聽說該物品。

定義驚喜度首先需要定義推薦結(jié)果和用戶歷史上喜歡物品的相似成都材部，其次需要定義用戶對推薦物品的滿意程度毫缆。即獲得了用戶觀看電影的歷史，得到電影演員和導(dǎo)演集合乐导，給用戶推薦不屬于該集合的電影苦丁，而得到用戶滿意，這就是驚喜的推薦物臂。

7.信任度
如果用戶信任推薦系統(tǒng)旺拉，就會增加和推薦系統(tǒng)的交互。提高信任度的主要辦法是給用戶解釋推薦原理棵磷，比如顯示列表的同時顯示推薦的理由(如物品相似蛾狗、好友推薦或者流行度等)。

8.實時性
推薦系統(tǒng)的實時性包括兩個方面：首先推薦系統(tǒng)需要實時更新推薦列表來滿足用戶的行為變化仪媒，特別是在購物電商網(wǎng)站沉桌；其次推薦系統(tǒng)需要實時將新的物品推薦給用戶，這就涉及到物品冷啟動的問題。

9.健壯性
健壯性衡量了推薦系統(tǒng)抗擊作弊的能力留凭，可以通過模擬攻擊進行評測佃扼。

10.商業(yè)目標(biāo)

1.3.3 評測維度

評測維度能夠知道算法在什么情況下性能最好，為融合不同算法提供參考蔼夜。一般維度分為以下三種：

用戶維度：用戶統(tǒng)計信息
物品維度：物品屬性信息和流行程度等
時間維度：周末或節(jié)日等

最后編輯于：2017.12.03 07:17:50

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末兼耀，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子求冷，更是在濱河造成了極大的恐慌瘤运，老刑警劉巖，帶你破解...
沈念sama閱讀 216,402評論 6贊 499
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件遵倦，死亡現(xiàn)場離奇詭異尽超，居然都是意外死亡，警方通過查閱死者的電腦和手機梧躺，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,377評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門似谁，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人掠哥，你說我怎么就攤上這事巩踏。” “怎么了续搀？”我有些...
開封第一講書人閱讀 162,483評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵塞琼，是天一觀的道長。經(jīng)常有香客問我禁舷，道長彪杉，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,165評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任牵咙，我火速辦了婚禮派近，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘洁桌。我一直安慰自己渴丸，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,176評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布另凌。她就那樣靜靜地躺著谱轨，像睡著了一般。火紅的嫁衣襯著肌膚如雪吠谢。梳的紋絲不亂的頭發(fā)上土童，一...
開封第一講書人閱讀 51,146評論 1贊 297
城市分裂傳說
那天，我揣著相機與錄音工坊，去河邊找鬼娜扇。笑死错沃，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的雀瓢。我是一名探鬼主播，決...
沈念sama閱讀 40,032評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼玉掸，長吁一口氣：“原來是場噩夢啊……” “哼刃麸！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起司浪，我...
開封第一講書人閱讀 38,896評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤泊业，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后啊易，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吁伺，經(jīng)...
沈念sama閱讀 45,311評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,536評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年租谈，在試婚紗的時候發(fā)現(xiàn)自己被綠了篮奄。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,696評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡割去，死狀恐怖窟却，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情呻逆，我是刑警寧澤夸赫，帶...
沈念sama閱讀 35,413評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站咖城，受9級特大地震影響茬腿，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宜雀，卻給世界環(huán)境...
茶點故事閱讀 41,008評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一切平、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧州袒，春花似錦揭绑、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案他匪，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至夸研，卻和暖如春邦蜜，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背亥至。一陣腳步聲響...
開封第一講書人閱讀 32,815評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工悼沈，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留贱迟，地道東北人。一個月前我還...
沈念sama閱讀 47,698評論 2贊 368
代替公主和親
正文我出身青樓絮供，卻偏偏與公主長得像衣吠，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子壤靶，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,592評論 2贊 353