信息檢索評(píng)價(jià)指標(biāo)可以對(duì)一個(gè)檢索系統(tǒng)的性能進(jìn)行評(píng)價(jià),在信息檢索的研究領(lǐng)域中卿泽,有很多的排名質(zhì)量評(píng)價(jià)指標(biāo)莺债。例如 MAP,NDCG签夭,MRR齐邦,ERR 等,其中 NDCG 和 ERR 等指標(biāo)可以處理不同的相關(guān)性等級(jí) (文檔之間的相關(guān)性分等級(jí)第租,0,1,2,3 等)侄旬;而 MAP 和 MRR 只能處理相關(guān)和不相關(guān)兩種情況。
1.Precision煌妈、Recall、F1
Precision 是準(zhǔn)確率,Recall 是召回率璧诵,F(xiàn)1 是準(zhǔn)確率和召回率的調(diào)和平均汰蜘,這些都是分類問題中常見的指標(biāo)。在信息檢索中之宿,適用于文檔只分相關(guān)和不相關(guān)的情況族操。
計(jì)算公式如下
2.Average Precision (AP)
(AP) Average Precision 指平均準(zhǔn)確率色难,是在不同的召回率上的準(zhǔn)確率求平均。假設(shè)我們的檢索系統(tǒng)找出了下面 10 篇文章等缀,最上面的是系統(tǒng)認(rèn)為最相關(guān)的文章枷莉,最下面的是系統(tǒng)認(rèn)為最不相關(guān)的文章。
然后切換閾值尺迂,使每次只采用前 k 個(gè)文章作為篩選結(jié)果笤妙,可以得到不同的召回率和準(zhǔn)確率,如下圖所示噪裕,k 從 1 到 10蹲盘。
這時(shí)對(duì)準(zhǔn)確率求平均就是 AP 值。
除了上述方法計(jì)算 AP 值外膳音,還可以取不同的召回率值召衔,例如從 0, 0.1, 0.2, ..., 1 的召回率,然后計(jì)算在這種召回率下準(zhǔn)確率的平均值祭陷。
(MAP) Mean Average Precision 是采用不同的查詢苍凛,分別計(jì)算得到 AP 值,然后計(jì)算這些 AP 值的平均颗胡。
3.Cumulative Gain (CG)
(CG) Cumulative Gain 累計(jì)效益毫深,對(duì)于所有的文檔,都有一個(gè)對(duì)應(yīng)的相關(guān)度 g毒姨,如 0, 1, 2, 3, 4哑蔫,相關(guān)度越高表示文章與查詢?cè)较嚓P(guān)。假設(shè)一共檢索得到 T 個(gè)文檔弧呐,CG 計(jì)算的就是這 T 個(gè)文檔的相關(guān)度之和闸迷。
(DCG) Discounted Cumulative Gain CG 計(jì)算的時(shí)候只是簡(jiǎn)單的把 T 個(gè)文檔的相關(guān)度相加,并沒有考慮文檔的排名順序俘枫。
例如文檔 A 相關(guān)度為 4腥沽,文檔 B 相關(guān)度為 3,文檔 C 相關(guān)度為 0鸠蚪。
兩個(gè)檢索系統(tǒng)返回的文檔順序分別是 (A,B,C) 和 (C,B,A)今阳,則這兩個(gè)系統(tǒng)計(jì)算得到的 CG 值都是一樣的师溅,但是明顯第一個(gè)系統(tǒng)返回的結(jié)果更加合理。
DCG 在 CG 的基礎(chǔ)上加上了排名位置信息作為分母盾舌,排名越靠后的文章對(duì)于指標(biāo)值的影響越小墓臭,DCG 有兩種計(jì)算公式。
(IDCG) Ideal DCG 理想狀態(tài)下的 DCG 值妖谴,把檢索到的 T 個(gè)文檔按照相關(guān)度從高到低排列 (即最理想的排列順序)窿锉,然后在這個(gè)順序下計(jì)算 DCG 值。
(NDCG) Normalized DCG 歸一化的 DCG 值膝舅,不同的查詢返回的文檔個(gè)數(shù) T 通常是不同的嗡载,所以不能直接使用 DCG 進(jìn)行比較,也不能直接對(duì)不同查詢的 DCG 求均值仍稀。通過 NDCG 進(jìn)行歸一化之后洼滚,得到的值在 0-1 之間,此時(shí)可用于多個(gè)查詢的情況琳轿。
4.Reciprocal Rank (RR)
(RR) Reciprocal Rank 排名的倒數(shù)判沟,文檔在檢索結(jié)果中有一個(gè)排名,RR 計(jì)算的是第一個(gè)相關(guān)的文檔在檢索結(jié)果中的排名的倒數(shù)崭篡。例如對(duì)于查詢 i 來說挪哄,第一個(gè)相關(guān)的文檔排名是 rank(i),則 RR 如下琉闪。
(MRR) Mean RR 多個(gè)查詢結(jié)果的 RR 值求均值迹炼,如下,N 為查詢次數(shù)颠毙。
(ERR) Expected RR 假設(shè)用戶會(huì)按照順序查閱檢索到的文檔斯入,可以計(jì)算用戶點(diǎn)擊位置 r 文檔的概率 Pr,此概率是一個(gè)關(guān)于文檔相關(guān)度等級(jí) g 的函數(shù)蛀蜜,如下刻两。
從上式可以看到,Ri 表示用戶對(duì)文檔 i 感興趣的概率滴某。計(jì)算 Pr磅摹,則要知道位置 r 之前的文檔 i 用戶不感興趣的概率 (1-Ri)。
ERR 是對(duì)每個(gè)位置 r 的 Pr 值加權(quán)平均霎奢,和 NDCG 類似户誓,ERR 也考慮了位置的影響,即位置越靠后權(quán)重越低幕侠。如下所示帝美。
5.參考文獻(xiàn)
- 《From RankNet to LambdaRank to LambdaMART: An Overview》
- 信息檢索中的各項(xiàng)評(píng)價(jià)指標(biāo)
- 信息檢索評(píng)價(jià)指標(biāo)NDCG、a-NDCG