信息檢索評(píng)價(jià)指標(biāo)

信息檢索評(píng)價(jià)指標(biāo)可以對(duì)一個(gè)檢索系統(tǒng)的性能進(jìn)行評(píng)價(jià),在信息檢索的研究領(lǐng)域中卿泽,有很多的排名質(zhì)量評(píng)價(jià)指標(biāo)莺债。例如 MAP,NDCG签夭,MRR齐邦,ERR 等,其中 NDCG 和 ERR 等指標(biāo)可以處理不同的相關(guān)性等級(jí) (文檔之間的相關(guān)性分等級(jí)第租,0,1,2,3 等)侄旬;而 MAP 和 MRR 只能處理相關(guān)和不相關(guān)兩種情況。

1.Precision煌妈、Recall、F1

Precision 是準(zhǔn)確率,Recall 是召回率璧诵,F(xiàn)1 是準(zhǔn)確率和召回率的調(diào)和平均汰蜘,這些都是分類問題中常見的指標(biāo)。在信息檢索中之宿,適用于文檔只分相關(guān)和不相關(guān)的情況族操。

計(jì)算公式如下

Precision、Recall比被、F1

2.Average Precision (AP)

(AP) Average Precision 指平均準(zhǔn)確率色难,是在不同的召回率上的準(zhǔn)確率求平均。假設(shè)我們的檢索系統(tǒng)找出了下面 10 篇文章等缀,最上面的是系統(tǒng)認(rèn)為最相關(guān)的文章枷莉,最下面的是系統(tǒng)認(rèn)為最不相關(guān)的文章。

然后切換閾值尺迂,使每次只采用前 k 個(gè)文章作為篩選結(jié)果笤妙,可以得到不同的召回率和準(zhǔn)確率,如下圖所示噪裕,k 從 1 到 10蹲盘。

top k 召回率和準(zhǔn)確率

這時(shí)對(duì)準(zhǔn)確率求平均就是 AP 值。

AP 值

除了上述方法計(jì)算 AP 值外膳音,還可以取不同的召回率值召衔,例如從 0, 0.1, 0.2, ..., 1 的召回率,然后計(jì)算在這種召回率下準(zhǔn)確率的平均值祭陷。

(MAP) Mean Average Precision 是采用不同的查詢苍凛,分別計(jì)算得到 AP 值,然后計(jì)算這些 AP 值的平均颗胡。

MAP 值

3.Cumulative Gain (CG)

(CG) Cumulative Gain 累計(jì)效益毫深,對(duì)于所有的文檔,都有一個(gè)對(duì)應(yīng)的相關(guān)度 g毒姨,如 0, 1, 2, 3, 4哑蔫,相關(guān)度越高表示文章與查詢?cè)较嚓P(guān)。假設(shè)一共檢索得到 T 個(gè)文檔弧呐,CG 計(jì)算的就是這 T 個(gè)文檔的相關(guān)度之和闸迷。

CG 計(jì)算公式

(DCG) Discounted Cumulative Gain CG 計(jì)算的時(shí)候只是簡(jiǎn)單的把 T 個(gè)文檔的相關(guān)度相加,并沒有考慮文檔的排名順序俘枫。

例如文檔 A 相關(guān)度為 4腥沽,文檔 B 相關(guān)度為 3,文檔 C 相關(guān)度為 0鸠蚪。

兩個(gè)檢索系統(tǒng)返回的文檔順序分別是 (A,B,C) 和 (C,B,A)今阳,則這兩個(gè)系統(tǒng)計(jì)算得到的 CG 值都是一樣的师溅,但是明顯第一個(gè)系統(tǒng)返回的結(jié)果更加合理。

DCG 在 CG 的基礎(chǔ)上加上了排名位置信息作為分母盾舌,排名越靠后的文章對(duì)于指標(biāo)值的影響越小墓臭,DCG 有兩種計(jì)算公式。

DCG 計(jì)算公式

(IDCG) Ideal DCG 理想狀態(tài)下的 DCG 值妖谴,把檢索到的 T 個(gè)文檔按照相關(guān)度從高到低排列 (即最理想的排列順序)窿锉,然后在這個(gè)順序下計(jì)算 DCG 值。

(NDCG) Normalized DCG 歸一化的 DCG 值膝舅,不同的查詢返回的文檔個(gè)數(shù) T 通常是不同的嗡载,所以不能直接使用 DCG 進(jìn)行比較,也不能直接對(duì)不同查詢的 DCG 求均值仍稀。通過 NDCG 進(jìn)行歸一化之后洼滚,得到的值在 0-1 之間,此時(shí)可用于多個(gè)查詢的情況琳轿。

NDCG 計(jì)算公式

4.Reciprocal Rank (RR)

(RR) Reciprocal Rank 排名的倒數(shù)判沟,文檔在檢索結(jié)果中有一個(gè)排名,RR 計(jì)算的是第一個(gè)相關(guān)的文檔在檢索結(jié)果中的排名的倒數(shù)崭篡。例如對(duì)于查詢 i 來說挪哄,第一個(gè)相關(guān)的文檔排名是 rank(i),則 RR 如下琉闪。

RR 計(jì)算公式

(MRR) Mean RR 多個(gè)查詢結(jié)果的 RR 值求均值迹炼,如下,N 為查詢次數(shù)颠毙。

MRR 計(jì)算公式

(ERR) Expected RR 假設(shè)用戶會(huì)按照順序查閱檢索到的文檔斯入,可以計(jì)算用戶點(diǎn)擊位置 r 文檔的概率 Pr,此概率是一個(gè)關(guān)于文檔相關(guān)度等級(jí) g 的函數(shù)蛀蜜,如下刻两。

從上式可以看到,Ri 表示用戶對(duì)文檔 i 感興趣的概率滴某。計(jì)算 Pr磅摹,則要知道位置 r 之前的文檔 i 用戶不感興趣的概率 (1-Ri)。

ERR 是對(duì)每個(gè)位置 r 的 Pr 值加權(quán)平均霎奢,和 NDCG 類似户誓,ERR 也考慮了位置的影響,即位置越靠后權(quán)重越低幕侠。如下所示帝美。

ERR 計(jì)算公式

5.參考文獻(xiàn)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末晤硕,一起剝皮案震驚了整個(gè)濱河市悼潭,隨后出現(xiàn)的幾起案子庇忌,更是在濱河造成了極大的恐慌,老刑警劉巖女责,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件漆枚,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡抵知,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門软族,熙熙樓的掌柜王于貴愁眉苦臉地迎上來刷喜,“玉大人,你說我怎么就攤上這事立砸∫创” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵颗祝,是天一觀的道長(zhǎng)浊闪。 經(jīng)常有香客問我,道長(zhǎng)螺戳,這世上最難降的妖魔是什么搁宾? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮倔幼,結(jié)果婚禮上盖腿,老公的妹妹穿的比我還像新娘。我一直安慰自己损同,他們只是感情好翩腐,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著膏燃,像睡著了一般茂卦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上组哩,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天等龙,我揣著相機(jī)與錄音,去河邊找鬼禁炒。 笑死而咆,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的幕袱。 我是一名探鬼主播暴备,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼们豌!你這毒婦竟也來了涯捻?” 一聲冷哼從身側(cè)響起浅妆,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎障癌,沒想到半個(gè)月后凌外,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡涛浙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年康辑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片轿亮。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡疮薇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出我注,到底是詐尸還是另有隱情按咒,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布但骨,位于F島的核電站励七,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏奔缠。R本人自食惡果不足惜掠抬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望添坊。 院中可真熱鬧剿另,春花似錦、人聲如沸贬蛙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)阳准。三九已至氛堕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間野蝇,已是汗流浹背讼稚。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留绕沈,地道東北人锐想。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像乍狐,于是被迫代替她去往敵國(guó)和親赠摇。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容