MRR:平均排名的倒數(shù)
MAP:平均精度均值
NDCG:標(biāo)準(zhǔn)化折扣累積收益
一拟烫、無(wú)排序的度量指標(biāo)
二该编、有排序意義的度量指標(biāo)
1:MRR
優(yōu)點(diǎn):該方法計(jì)算簡(jiǎn)單,解釋簡(jiǎn)單硕淑。
? ? ? ? ? ?這種方法高度關(guān)注列表的第一個(gè)相關(guān)元素课竣。它最適合有針對(duì)性的搜索嘉赎,比如用戶詢(xún)問(wèn)“對(duì)我來(lái)說(shuō)最好的東西”。
? ? ? ? ? ?適用于已知項(xiàng)目搜索稠氮,如導(dǎo)航查詢(xún)或?qū)ふ沂聦?shí)曹阔。
缺點(diǎn):MRR指標(biāo)不評(píng)估推薦項(xiàng)目列表的其余部分。它只關(guān)注列表中的第一個(gè)項(xiàng)目隔披。
? ? ? ? ? ?它給出一個(gè)只有一個(gè)相關(guān)物品的列表赃份。如果這是評(píng)估的目標(biāo),那找個(gè)度量指標(biāo)是可以的奢米。
? ? ? ? ? ?對(duì)于想要瀏覽相關(guān)物品列表的用戶來(lái)說(shuō)抓韩,這可能不是一個(gè)好的評(píng)估指標(biāo)。用戶的目標(biāo)可能是比較多個(gè)相關(guān)物品鬓长。
2:MAP
平均準(zhǔn)確率為每個(gè)查詢(xún)的相關(guān)排序結(jié)果賦予一個(gè)評(píng)價(jià)數(shù)字谒拴,將多個(gè)查詢(xún)的結(jié)果進(jìn)行平均。
查詢(xún)1的平均準(zhǔn)確率=(1.0+0.67+0.5+0.44+0.5)/5=0.62
查詢(xún)2的平均準(zhǔn)確率=(0.5+0.4+0.43)/3=0.44
MAP=(0.62+0.44)/2=0.53
優(yōu)點(diǎn):給出了一個(gè)代表“精確度 - 召回率“”曲線下復(fù)雜區(qū)域的單一度量涉波。這提供了每個(gè)列表的平均精度英上。
? ? ? ? ? ?處理列表推薦物品的自然排序。這與將檢索項(xiàng)視為集合的度量標(biāo)準(zhǔn)形成了對(duì)比啤覆。
? ? ? ? ? ?這一指標(biāo)能夠給予發(fā)生在排序高的推薦名單中的錯(cuò)誤更多的權(quán)重苍日。相反,它對(duì)發(fā)生在推薦列表中較深位置的錯(cuò)誤的權(quán)重較小窗声。這符合在推薦列表的最前面顯示盡可能多的相關(guān)條目的需要相恃。
缺點(diǎn):這個(gè)度量標(biāo)準(zhǔn)適用于二進(jìn)制(相關(guān)/非相關(guān))評(píng)級(jí)。然而笨觅,它不適合細(xì)粒度的數(shù)字評(píng)級(jí)拦耐。此度量無(wú)法從此信息中提取誤差度量。
? ? ? ? ? ?對(duì)于細(xì)粒度的評(píng)分见剩,例如從1星到5星的評(píng)分杀糯,評(píng)估首先需要對(duì)評(píng)分進(jìn)行閾值,以產(chǎn)生二元相關(guān)性苍苞。一種選擇是只考慮大于4的評(píng)級(jí)固翰。由于人工閾值的存在,這在評(píng)估度量中引入了偏差柒啤。此外倦挂,我們正在丟棄那些精細(xì)的信息。這個(gè)信息是在4星和5星之間的差異評(píng)級(jí)担巩,以及在不相關(guān)的項(xiàng)目的信息方援。1星評(píng)級(jí)真的和3星評(píng)級(jí)一樣嗎?為了解決這些問(wèn)題涛癌,recsys社區(qū)提出了另一個(gè)更近期的度量標(biāo)準(zhǔn)犯戏。這個(gè)度量考慮了評(píng)級(jí)中包含的細(xì)粒度信息送火。讓我們看一看NDCG度量。
3:NDCG
優(yōu)點(diǎn):NDCG的主要優(yōu)勢(shì)是它考慮到了分等級(jí)的相關(guān)性值先匪。當(dāng)它們?cè)跀?shù)據(jù)集中可用時(shí)种吸,NDCG是一個(gè)很好的選擇鸳址。
? ? ? ? ? ?與MAP度量相比吃型,它在評(píng)估排名項(xiàng)目的位置方面做得很好。它適用于二元的相關(guān)/非相關(guān)場(chǎng)景尸昧。
? ? ? ? ? ?平滑的對(duì)數(shù)折現(xiàn)因子有一個(gè)很好的理論基礎(chǔ)岸裙,該工作的作者表明猖败,對(duì)于每一對(duì)顯著不同的排名推薦系統(tǒng),NDCG度量始終能夠確定更好的一個(gè)降允。
缺點(diǎn):NDCG在部分反饋方面有一些問(wèn)題恩闻。當(dāng)我們有不完整的評(píng)級(jí)時(shí),就會(huì)發(fā)生這種情況剧董。這是大多數(shù)推薦系統(tǒng)的情況幢尚。如果我們有完整的評(píng)級(jí),就沒(méi)有真正的任務(wù)去實(shí)現(xiàn)翅楼!在這種情況下尉剩,recsys系統(tǒng)所有者需要決定如何歸罪于缺失的評(píng)級(jí)。將缺少的值設(shè)置為0將把它們標(biāo)記為不相關(guān)的項(xiàng)犁嗅。其他計(jì)算值(如用戶的平均/中值)也可以幫助解決這個(gè)缺點(diǎn)边涕。
? ? ? ? ? ?接下來(lái)晤碘,用戶需要手動(dòng)處理IDCG等于0的情況褂微。當(dāng)用戶沒(méi)有相關(guān)文檔時(shí),就會(huì)發(fā)生這種情況园爷。這里的一個(gè)策略是也將NDCG設(shè)置為0宠蚂。
? ? ? ? ? ?另一個(gè)問(wèn)題是處理NDCG@K。recsys系統(tǒng)返回的排序列表的大小可以小于k童社。為了處理這個(gè)問(wèn)題求厕,我們可以考慮固定大小的結(jié)果集,并用最小分?jǐn)?shù)填充較小的集合扰楼。
參考資料:
《搜索引擎-信息檢索實(shí)踐》?|? W.Bruce Croft? ?Donald Metzler? ?Trevor Strohman