背景
這其實(shí)是recsys 2018的一個tutorial级乍,關(guān)于推薦系統(tǒng)評價仗谆,從定量和定性的混合角度橘蜜。PPT地址在recsys2018-evaluation-tutorial
定性
采訪Interviews
- 為什么需要采訪似炎?
因?yàn)槿绻覀儾蝗栍脩羲麄優(yōu)槭裁锤吲d犬缨,那我們就需要進(jìn)行假設(shè)扯饶。 - 我們怎么認(rèn)為用戶對一個每周發(fā)現(xiàn)的音樂推薦滿意恒削?
- 聽的時長:有一些用戶只是會去seek&save,這些人時長短尾序;有些人會轉(zhuǎn)到音樂家列表進(jìn)行深度聽
- 下周復(fù)聽:有些用戶只是習(xí)慣性打開钓丰;有些用戶對于Discover只是看心情;算法是迭代的每币,這周算法差但是期待下周算法好
- 具體的采訪內(nèi)容:
- 這個領(lǐng)域的習(xí)慣(比如看視頻的習(xí)慣)
- 這個領(lǐng)域的偏好(比如看視頻的偏好)
- 對系統(tǒng)的態(tài)度
- 為什么要用這個系統(tǒng)(為什么要來西瓜看視頻)
- 用這個系統(tǒng)的習(xí)慣(在西瓜看視頻主要是看啥)
- 這個系統(tǒng)體驗(yàn)好的地方
- 這個系統(tǒng)體驗(yàn)差的地方
- 深度的習(xí)慣挖掘
- 具體的采訪對象:
- 高頻 9-10/10 wks
- 中頻 5-8/10 wks
- 低頻 1-4/10 wks
- 混合上年齡携丁、性別、地域
- 局限性
- 泛化性比較差
- 采訪者的需求效應(yīng),有可能會去哄著被采訪者
- 不是很自然
- 被采訪者的偏差
調(diào)查問卷Surveys
- 為什么要調(diào)查梦鉴?
- 了解用戶的基準(zhǔn)和敏感程度
- 探索用戶的需求
- 創(chuàng)建一份標(biāo)注樣本
- 調(diào)查的最佳實(shí)踐
- 對你的問題的答案進(jìn)行去偏:避免隱式的假設(shè)李茫;選項(xiàng)的標(biāo)量可能會影響答案(別包括抽象的值,選項(xiàng)應(yīng)該有一些有意義的答案
- 像你的調(diào)查者一樣去設(shè)計:問題和回答應(yīng)該要反應(yīng)他們的體驗(yàn)肥橙;用他們可能會用的詞來描述
- 對開放性問題要小心
- 局限性
- 不自然
- 回應(yīng)者本身存在偏差
- 個體可能有不同的打分偏好
定量
- Attention
用戶是否關(guān)注到了推薦系統(tǒng)魄宏,比如page load、page scroll存筏、cursor-tracking宠互、touch gestures、eye-tracking - Interaction
用戶是否與推薦系統(tǒng)進(jìn)行了交互椭坚,比如track stream予跌、examine、bookmark/save/delete善茎,reference等等 - Satisfaction
用戶是否滿意券册,比如completed playlist - Retention
用戶是否覺得推薦系統(tǒng)是個很好用的工具,比如return to recsys