一囤耳、簡介
項目推薦任務需要根據(jù)上下文對大型項目目錄進行排序启泣,使用取決于相關項目位置的排名度量指標來評估項目推薦算法。為了加快度量的計算思杯,最近的工作經(jīng)常使用抽樣的度量,其中僅對較小的一組隨機項和相關項進行排名挠进。該論文對抽樣指標進行了更詳細的調(diào)查智蝠,結(jié)果表明它們與確切指標的性能不一致。另外奈梳,實驗結(jié)果表明抽樣規(guī)模越小杈湾,指標之間的差異就越小,而且對于非常小的抽樣規(guī)模攘须,所有指標都會塌陷為AUC指標漆撞。所以該論文提出了一種改進的抽樣評價指標來提高評價質(zhì)量。
二、主要評價指標
該論文主要研究的評價指標包括:AUC浮驳、Prec悍汛、Recall、AP以及NDCG至会。在之前的學習中已經(jīng)詳細了解了這些評價指標离咐,具體內(nèi)容可參考原文鏈接。目前大部分文獻采用的簡化過后的指標奉件,假設只有一個正樣本宵蛀,即,然后基于這個正樣本采樣若干個負樣本县貌,以此來進行排序术陶,看最終該正樣本排在了什么位置。各個指標可簡化為:
三煤痕、期望指標
用替換重復抽樣過程m次梧宫,并計算某項排名較高的頻率,相當于二項分布摆碉。換句話說塘匣,從抽樣過程中獲得的排名服從二項分布
。如果沒有成功獲得更高排名的項目巷帝,則排名保持為1馆铁,如果所有m個樣本均成功,則排名為m +1锅睛。在此分布下埠巨,指標的期望值為:
該論文將上式應用于特定指標,分析了抽樣指標现拒。
AUC是排名的線性函數(shù)辣垒,則通過期望的線性和遵循二項分布的事實,可以得到:
這種分析適用于任何抽樣分布替久,包括超幾何分布。
對于采樣平均精度的期望值宪萄,分為兩種情況:如果瞧预,那么
屎债,并且采樣的度量總是等于1仅政。如果
,則
且
四、修正指標
排序的無偏估計量
第一種方法是基于一個簡單的觀察躯喇,通常使用的抽樣度量是將精確度量M應用于觀察到的排序辫封,即
。但
是真實秩
的一個很差的估計廉丽,總是低估它倦微。相反,可以不在觀察到的等級
上而是在
的無偏估計量上測量度量雅倒。如果我們讓
璃诀,那么p的無偏估計量由
給出弧可,因此
的無偏估計量由
給出蔑匣。則得出以下正確的度量標準:
由于排序估計在
中是實數(shù),而原來的度量M只定義在自然數(shù)上棕诵,可以對排序估計進行四舍五入裁良,也可以使用線性插值等方法對M進行擴展。
最小偏差估計量
上面的修正使用的是排序的無偏估計量校套,但當M是非線性時价脾,是有偏的〉殉祝可能尋求優(yōu)化的一個準則是
的平均偏差侨把,也就是
其中
偏差—方差權衡
最小偏差估計量的一個潛在問題是,它可能有高方差蠢正,為了緩解這個問題骇笔,可以通過引入方差項來對上面的問題進行正則化:
五嚣崭、結(jié)論
該論文主要的創(chuàng)新點就是提出了三種方法修正指標笨触,最后通過實驗驗證了修正后的指標得出的評價結(jié)果,與在全量測試樣本上的評價結(jié)果是差不多相等的雹舀。