KDD2020最佳論文學習:On Sampled Metrics for Item Recommendation

一囤耳、簡介

項目推薦任務需要根據(jù)上下文對大型項目目錄進行排序启泣,使用取決于相關項目位置的排名度量指標來評估項目推薦算法。為了加快度量的計算思杯,最近的工作經(jīng)常使用抽樣的度量,其中僅對較小的一組隨機項和相關項進行排名挠进。該論文對抽樣指標進行了更詳細的調(diào)查智蝠,結(jié)果表明它們與確切指標的性能不一致。另外奈梳,實驗結(jié)果表明抽樣規(guī)模越小杈湾,指標之間的差異就越小,而且對于非常小的抽樣規(guī)模攘须,所有指標都會塌陷為AUC指標漆撞。所以該論文提出了一種改進的抽樣評價指標來提高評價質(zhì)量。

二、主要評價指標

該論文主要研究的評價指標包括:AUC浮驳、Prec悍汛、Recall、AP以及NDCG至会。在之前的學習中已經(jīng)詳細了解了這些評價指標离咐,具體內(nèi)容可參考原文鏈接。目前大部分文獻采用的簡化過后的指標奉件,假設只有一個正樣本宵蛀,即|R|=1,然后基于這個正樣本采樣若干個負樣本县貌,以此來進行排序术陶,看最終該正樣本排在了什么位置。各個指標可簡化為:AUC(r)_n=\frac{n-r}{n-1} Prec(r)_k=\delta(r\leq k)\frac{1}{k} Recall(r)_k=\delta(r\leq k) AP(r)_k=\delta(r\leq k)\frac{1}{ r } NDCG(r)_k=\delta(r\leq k)\frac{1}{log_2( r+1)}

三煤痕、期望指標

用替換重復抽樣過程m次梧宫,并計算某項排名較高的頻率,相當于二項分布摆碉。換句話說塘匣,從抽樣過程中獲得的排名\widetilde{r}服從二項分布B(m,\frac{r-1}{n-1})+1。如果沒有成功獲得更高排名的項目巷帝,則排名保持為1馆铁,如果所有m個樣本均成功,則排名為m +1锅睛。在此分布下埠巨,指標的期望值為:E[M(\widetilde r)]=\sum_{i=1}^{m+1}{p(\widetilde r=i)M(i)} 該論文將上式應用于特定指標,分析了抽樣指標现拒。

AUC是排名的線性函數(shù)辣垒,則通過期望的線性和\widetilde{r}遵循二項分布的事實,可以得到:

AUC
這意味著通過抽樣產(chǎn)生的AUC測量是精確AUC的無偏估計印蔬。因為AUC也可以定義為一個隨機的相關項目排在一個隨機的不相關項目之上的期望勋桶。因此,AUC是抽樣下的一致指標侥猬。這一結(jié)果也適用于任何抽樣分布例驹,比如超幾何分布的抽樣-即不替換的均勻抽樣愈诚。

對于精確率和召回率:
Recall

這種分析適用于任何抽樣分布替久,包括超幾何分布。

對于采樣平均精度的期望值宪萄,分為兩種情況:如果r=1瞧预,那么\widetilde{r}=1屎债,并且采樣的度量總是等于1仅政。如果r>1,則p(j<r)>0

AP
該部分驗證了除過AUC之外的盆驹,抽樣指標與確切指標的性能不一致圆丹。

四、修正指標

排序的無偏估計量
第一種方法是基于一個簡單的觀察躯喇,通常使用的抽樣度量是將精確度量M應用于觀察到的排序\widetilde{r}辫封,即\hat{M}(\widetilde{r}) = M(\widetilde{r})。但\widetilde{r}是真實秩r的一個很差的估計廉丽,總是低估它倦微。相反,可以不在觀察到的等級\widetilde{r}上而是在r的無偏估計量上測量度量雅倒。如果我們讓p=\frac{r-1}{n-1}璃诀,那么p的無偏估計量由\frac{\widetilde{r}-1}{m}給出弧可,因此r=1+(n-1)p的無偏估計量由\hat{r}=1+\frac{(n-1)(\widetilde{r}-1)}{m}給出蔑匣。則得出以下正確的度量標準:\hat{M}(\widetilde{r})=M(1+\frac{(n-1)(\widetilde{r}-1)}{m}) 由于排序估計在[1,n]中是實數(shù),而原來的度量M只定義在自然數(shù)上棕诵,可以對排序估計進行四舍五入裁良,也可以使用線性插值等方法對M進行擴展。

最小偏差估計量
上面的修正使用的是排序的無偏估計量校套,但當M是非線性時价脾,\hat{M}(\widetilde{r}) = M(\widetilde{r})是有偏的〉殉祝可能尋求優(yōu)化的一個準則是\hat{M}(\widetilde{r})的平均偏差侨把,也就是


其中p(r)是排序分布的先驗。因此妹孙,我們尋求一個向量\hat{M}秋柄,使以下問題最小化:

偏差—方差權衡
最小偏差估計量的一個潛在問題是,它可能有高方差蠢正,為了緩解這個問題骇笔,可以通過引入方差項來對上面的問題進行正則化:
這是一個正則化的最小二乘問題。

五嚣崭、結(jié)論

該論文主要的創(chuàng)新點就是提出了三種方法修正指標笨触,最后通過實驗驗證了修正后的指標得出的評價結(jié)果,與在全量測試樣本上的評價結(jié)果是差不多相等的雹舀。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末芦劣,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子说榆,更是在濱河造成了極大的恐慌持寄,老刑警劉巖源梭,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異稍味,居然都是意外死亡废麻,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進店門模庐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來烛愧,“玉大人,你說我怎么就攤上這事掂碱×耍” “怎么了?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵疼燥,是天一觀的道長沧卢。 經(jīng)常有香客問我,道長醉者,這世上最難降的妖魔是什么但狭? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮撬即,結(jié)果婚禮上立磁,老公的妹妹穿的比我還像新娘。我一直安慰自己剥槐,他們只是感情好唱歧,可當我...
    茶點故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著粒竖,像睡著了一般颅崩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蕊苗,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天沿后,我揣著相機與錄音,去河邊找鬼岁歉。 笑死得运,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的锅移。 我是一名探鬼主播熔掺,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼非剃!你這毒婦竟也來了置逻?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤备绽,失蹤者是張志新(化名)和其女友劉穎券坞,沒想到半個月后鬓催,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡恨锚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年宇驾,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片猴伶。...
    茶點故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡课舍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出他挎,到底是詐尸還是另有隱情筝尾,我是刑警寧澤,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布办桨,位于F島的核電站筹淫,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏呢撞。R本人自食惡果不足惜损姜,卻給世界環(huán)境...
    茶點故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望狸相。 院中可真熱鬧薛匪,春花似錦捐川、人聲如沸脓鹃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瘸右。三九已至,卻和暖如春岩齿,著一層夾襖步出監(jiān)牢的瞬間太颤,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工盹沈, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留龄章,地道東北人。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓乞封,卻偏偏與公主長得像做裙,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子肃晚,可洞房花燭夜當晚...
    茶點故事閱讀 45,573評論 2 359