Image Caption 常用評(píng)價(jià)指標(biāo)

BLEU、Meteor羊苟、ROUGE胶惰、CIDEr 和 SPICE鹉戚。前兩個(gè)是評(píng)測(cè)機(jī)器翻譯的垫桂,第三個(gè)是評(píng)測(cè)自動(dòng)摘要的师幕,最后兩個(gè)評(píng)價(jià) caption 的。

  1. Perplexity

    Perplexity

    其中诬滩,L是句子的長(zhǎng)度霹粥,PPL(w_{1:L}|I) 就是根據(jù)圖像 I 給出的描述句子 w_{1:L} 的 perplexity。而P(w_n|w_{1:n-1},I) 是根據(jù)圖像 I 和前面的單詞序列 w_{1:n-1} 生成下一個(gè)單詞 w_n 的概率疼鸟。
    一句話:Perplexity 得分越低越好后控。

  2. BLEU
    Bilingual Evaluation Understudy,雙語(yǔ)互評(píng)輔助工具空镜。 用于分析候選譯文(待評(píng)價(jià)的譯文)和參考譯文中 N 元組共同出現(xiàn)的程度浩淘,IBM 于2002年提出的。
    BLEU的優(yōu)點(diǎn)是它考慮的粒度是 n-gram 而不是詞姑裂,考慮了更長(zhǎng)的匹配信息馋袜;BLEU的缺點(diǎn)是不管什么樣的 n-gram 被匹配上了,都會(huì)被同等對(duì)待舶斧。比如說(shuō)動(dòng)詞匹配上的重要性從直覺(jué)上講應(yīng)該是大于冠詞的。BLEU是做不到百分百的準(zhǔn)確的察皇,它只能做到個(gè)大概判斷茴厉,它的目標(biāo)也只是給出一個(gè)快且不差自動(dòng)評(píng)估解決方案。
    優(yōu)點(diǎn)很明顯:方便什荣、快速矾缓、結(jié)果有參考價(jià)值 。
    缺點(diǎn)也不少稻爬,主要有: 1. 不考慮語(yǔ)言表達(dá)(語(yǔ)法)上的準(zhǔn)確性嗜闻; 2. 測(cè)評(píng)精度會(huì)受常用詞的干擾; 3. 短譯句的測(cè)評(píng)精度有時(shí)會(huì)較高(長(zhǎng)度懲罰)桅锄; 4. 沒(méi)有考慮同義詞或相似表達(dá)的情況琉雳,可能會(huì)導(dǎo)致合理翻譯被否定;

    各階N-gram的精度
    Hk(Ci) 表示W(wǎng)k翻譯選譯文Ci中出現(xiàn)的次數(shù)友瘤,
    Hk(Sij) 表示W(wǎng)k在標(biāo)準(zhǔn)答案Sij中出現(xiàn)的次數(shù)翠肘,
    maxi∈mhk(sij)表示某n-gram在多條標(biāo)準(zhǔn)答案中出現(xiàn)最多的次數(shù),
    ∑i∑kmin(hk(ci),maxj∈mhk(sij))表示取n-gram在翻譯譯文和標(biāo)準(zhǔn)答案中出現(xiàn)的最小次數(shù)辫秧。
    由于各N-gram統(tǒng)計(jì)量的精度隨著階數(shù)的升高而呈指數(shù)形式遞減束倍,所以為了平衡各階統(tǒng)計(jì)量的作用,對(duì)其采用幾何平均形式求平均值然后加權(quán),再乘以長(zhǎng)度懲罰因子绪妹,得到最后的評(píng)價(jià)公式:
    Bleu

    懲罰因子

    參考文獻(xiàn):Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
    一句話:基于準(zhǔn)確率甥桂,BLEU 得分越高越好。

  3. METEOR
    METEOR 是基于BLEU進(jìn)行了一些改進(jìn)邮旷,其目的是解決一些 BLEU 標(biāo)準(zhǔn)中固有的缺陷 黄选。使用 WordNet 計(jì)算特定的序列匹配,同義詞廊移,詞根和詞綴糕簿,釋義之間的匹配關(guān)系,改善了BLEU的效果狡孔,使其跟人工判別共更強(qiáng)的相關(guān)性懂诗。
    METEOR 也包括其他指標(biāo)沒(méi)有發(fā)現(xiàn)一些其他功能,如同義詞匹配等 苗膝。

    Meteor

    參考文獻(xiàn):Banerjee, S., & Lavie, A. (2005). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization (pp. 65-72).
    一句話:基于準(zhǔn)確率和召回率殃恒,METEOR 得分越高越好。

  4. ROUGE
    ROUGE 是出于召回率來(lái)計(jì)算辱揭,所以是自動(dòng)摘要任務(wù)的評(píng)價(jià)標(biāo)準(zhǔn)离唐。其中有3個(gè)評(píng)價(jià)標(biāo)準(zhǔn),分別是 ROUGE-N问窃,ROUGE-L 和 ROUGE-S.

    ROUGE

    參考文獻(xiàn):Lin, C. Y. (2004). Rouge: A package for automatic evaluation of summaries. Text Summarization Branches Out.
    一句話:ROUGE 得分越高越好亥鬓。

  5. CIDEr
    CIDEr 是專門設(shè)計(jì)出來(lái)用于圖像標(biāo)注問(wèn)題的。這個(gè)指標(biāo)將每個(gè)句子都看作“文檔”域庇,將其表示成 Term Frequency Inverse Document Frequency(tf-idf)向量的形式嵌戈,通過(guò)對(duì)每個(gè)n元組進(jìn)行(TF-IDF) 權(quán)重計(jì)算,計(jì)算參考 caption 與模型生成的 caption 的余弦相似度听皿,來(lái)衡量圖像標(biāo)注的一致性的熟呛。
    從直觀上來(lái)說(shuō),如果一些n元組頻繁地出現(xiàn)在描述圖像的參考標(biāo)注中尉姨,TF對(duì)于這些n元組將給出更高的權(quán)重庵朝,而IDF則降低那些在所有描述語(yǔ)句中都常常出現(xiàn)的n元組的權(quán)重。也就是說(shuō)又厉,IDF提供了一種測(cè)量單詞顯著性的方法九府,這就是將那些容易常常出現(xiàn),但是對(duì)于視覺(jué)內(nèi)容信息沒(méi)有多大幫助的單詞的重要性打折馋没。
    考慮一張圖片是Ii€I(I:全部測(cè)試集圖片的集合)昔逗,對(duì)于一個(gè)n-gram Wk和參考caption 8ij,tf-idf計(jì)算方式是

    tf-idf
    式中的 Ω是全部 n-gram 構(gòu)成的詞表篷朵」磁可以看出 idf 的分母部分代表的是Wk出現(xiàn)于參考caption的圖片個(gè)數(shù)婆排。
    那么,CIDEr的值可以用余弦相似度的平均值來(lái)計(jì)算:
    CIDEr
    類似于BLEU的做法:
    CIDEr
    這個(gè)指標(biāo)的motivation之一是剛才提到的BLEU的一個(gè)缺點(diǎn)笔链,就是對(duì)所有匹配上的詞都同等對(duì)待段只,而實(shí)際上有些詞應(yīng)該更加重要。
    CIDEr-D 是修改版本鉴扫,為的是讓 CIDEr 對(duì)于 gaming 問(wèn)題更加魯棒赞枕。什么是 Gaming 問(wèn)題?它是一種現(xiàn)象坪创,就是一個(gè)句子經(jīng)過(guò)人工判斷得分很低炕婶,但是在自動(dòng)計(jì)算標(biāo)準(zhǔn)中卻得分很高的情況。為了避免這種情況莱预,CIDEr-D 增加了截?cái)啵╟lipping)和基于長(zhǎng)度的高斯懲罰柠掂。
    參考文獻(xiàn):Vedantam, R., Lawrence Zitnick, C., & Parikh, D. (2015). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4566-4575).
    一句話:CIDEr 得分越高越好。

  6. SPICE
    SPICE 也是專門設(shè)計(jì)出來(lái)用于 image caption 問(wèn)題的依沮。全稱是 Semantic Propositional Image Caption Evaluation涯贞。前面四個(gè)方法都是基于 n-gram 計(jì)算的,所以 SPICE 設(shè)計(jì)出來(lái)解決這個(gè)問(wèn)題危喉。
    SPICE 使用基于圖的語(yǔ)義表示來(lái)編碼 caption 中的 objects, attributes 和 relationships宋渔。它先將待評(píng)價(jià) caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于規(guī)則的方法把 dependency tree 映射成 scene graphs辜限。最后計(jì)算待評(píng)價(jià)的 caption 中 objects, attributes 和 relationships 的 F-score 值皇拣。
    參考文獻(xiàn):Anderson, P., Fernando, B., Johnson, M., & Gould, S. (2016, October). Spice: Semantic propositional image caption evaluation. In European Conference on Computer Vision (pp. 382-398). Springer, Cham.
    一句話:SPICE 得分越高越好。

    參考 captions 它的 scene graph

    待評(píng)價(jià) caption 和它的 dependency tree及scene graph

    計(jì)算 F-score 的 objects, attributes and relationships

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末薄嫡,一起剝皮案震驚了整個(gè)濱河市审磁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌岂座,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杭措,死亡現(xiàn)場(chǎng)離奇詭異费什,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)手素,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門鸳址,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人泉懦,你說(shuō)我怎么就攤上這事稿黍。” “怎么了崩哩?”我有些...
    開(kāi)封第一講書人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵巡球,是天一觀的道長(zhǎng)言沐。 經(jīng)常有香客問(wèn)我,道長(zhǎng)酣栈,這世上最難降的妖魔是什么险胰? 我笑而不...
    開(kāi)封第一講書人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮矿筝,結(jié)果婚禮上起便,老公的妹妹穿的比我還像新娘。我一直安慰自己窖维,他們只是感情好榆综,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著铸史,像睡著了一般鼻疮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上沛贪,一...
    開(kāi)封第一講書人閱讀 51,258評(píng)論 1 300
  • 那天陋守,我揣著相機(jī)與錄音,去河邊找鬼利赋。 笑死水评,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的媚送。 我是一名探鬼主播中燥,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼塘偎!你這毒婦竟也來(lái)了疗涉?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤吟秩,失蹤者是張志新(化名)和其女友劉穎咱扣,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體涵防,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡闹伪,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了壮池。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片偏瓤。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖椰憋,靈堂內(nèi)的尸體忽然破棺而出厅克,到底是詐尸還是另有隱情,我是刑警寧澤橙依,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布证舟,位于F島的核電站硕旗,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏褪储。R本人自食惡果不足惜卵渴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望鲤竹。 院中可真熱鬧浪读,春花似錦、人聲如沸辛藻。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)吱肌。三九已至痘拆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間氮墨,已是汗流浹背纺蛆。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留规揪,地道東北人桥氏。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像猛铅,于是被迫代替她去往敵國(guó)和親字支。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容