BLEU、Meteor羊苟、ROUGE胶惰、CIDEr 和 SPICE鹉戚。前兩個(gè)是評(píng)測(cè)機(jī)器翻譯的垫桂,第三個(gè)是評(píng)測(cè)自動(dòng)摘要的师幕,最后兩個(gè)評(píng)價(jià) caption 的。
-
Perplexity
其中诬滩,L是句子的長(zhǎng)度霹粥,PPL(w_{1:L}|I) 就是根據(jù)圖像 I 給出的描述句子 w_{1:L} 的 perplexity。而P(w_n|w_{1:n-1},I) 是根據(jù)圖像 I 和前面的單詞序列 w_{1:n-1} 生成下一個(gè)單詞 w_n 的概率疼鸟。
一句話:Perplexity 得分越低越好后控。 -
BLEU
Bilingual Evaluation Understudy,雙語(yǔ)互評(píng)輔助工具空镜。 用于分析候選譯文(待評(píng)價(jià)的譯文)和參考譯文中 N 元組共同出現(xiàn)的程度浩淘,IBM 于2002年提出的。
BLEU的優(yōu)點(diǎn)是它考慮的粒度是 n-gram 而不是詞姑裂,考慮了更長(zhǎng)的匹配信息馋袜;BLEU的缺點(diǎn)是不管什么樣的 n-gram 被匹配上了,都會(huì)被同等對(duì)待舶斧。比如說(shuō)動(dòng)詞匹配上的重要性從直覺(jué)上講應(yīng)該是大于冠詞的。BLEU是做不到百分百的準(zhǔn)確的察皇,它只能做到個(gè)大概判斷茴厉,它的目標(biāo)也只是給出一個(gè)快且不差自動(dòng)評(píng)估解決方案。
優(yōu)點(diǎn)很明顯:方便什荣、快速矾缓、結(jié)果有參考價(jià)值 。
缺點(diǎn)也不少稻爬,主要有: 1. 不考慮語(yǔ)言表達(dá)(語(yǔ)法)上的準(zhǔn)確性嗜闻; 2. 測(cè)評(píng)精度會(huì)受常用詞的干擾; 3. 短譯句的測(cè)評(píng)精度有時(shí)會(huì)較高(長(zhǎng)度懲罰)桅锄; 4. 沒(méi)有考慮同義詞或相似表達(dá)的情況琉雳,可能會(huì)導(dǎo)致合理翻譯被否定;
Hk(Sij) 表示W(wǎng)k在標(biāo)準(zhǔn)答案Sij中出現(xiàn)的次數(shù)翠肘,
maxi∈mhk(sij)表示某n-gram在多條標(biāo)準(zhǔn)答案中出現(xiàn)最多的次數(shù),
∑i∑kmin(hk(ci),maxj∈mhk(sij))表示取n-gram在翻譯譯文和標(biāo)準(zhǔn)答案中出現(xiàn)的最小次數(shù)辫秧。
由于各N-gram統(tǒng)計(jì)量的精度隨著階數(shù)的升高而呈指數(shù)形式遞減束倍,所以為了平衡各階統(tǒng)計(jì)量的作用,對(duì)其采用幾何平均形式求平均值然后加權(quán),再乘以長(zhǎng)度懲罰因子绪妹,得到最后的評(píng)價(jià)公式:
參考文獻(xiàn):Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
一句話:基于準(zhǔn)確率甥桂,BLEU 得分越高越好。 -
METEOR
METEOR 是基于BLEU進(jìn)行了一些改進(jìn)邮旷,其目的是解決一些 BLEU 標(biāo)準(zhǔn)中固有的缺陷 黄选。使用 WordNet 計(jì)算特定的序列匹配,同義詞廊移,詞根和詞綴糕簿,釋義之間的匹配關(guān)系,改善了BLEU的效果狡孔,使其跟人工判別共更強(qiáng)的相關(guān)性懂诗。
METEOR 也包括其他指標(biāo)沒(méi)有發(fā)現(xiàn)一些其他功能,如同義詞匹配等 苗膝。
參考文獻(xiàn):Banerjee, S., & Lavie, A. (2005). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization (pp. 65-72).
一句話:基于準(zhǔn)確率和召回率殃恒,METEOR 得分越高越好。 -
ROUGE
ROUGE 是出于召回率來(lái)計(jì)算辱揭,所以是自動(dòng)摘要任務(wù)的評(píng)價(jià)標(biāo)準(zhǔn)离唐。其中有3個(gè)評(píng)價(jià)標(biāo)準(zhǔn),分別是 ROUGE-N问窃,ROUGE-L 和 ROUGE-S.
參考文獻(xiàn):Lin, C. Y. (2004). Rouge: A package for automatic evaluation of summaries. Text Summarization Branches Out.
一句話:ROUGE 得分越高越好亥鬓。 -
CIDEr
CIDEr 是專門設(shè)計(jì)出來(lái)用于圖像標(biāo)注問(wèn)題的。這個(gè)指標(biāo)將每個(gè)句子都看作“文檔”域庇,將其表示成 Term Frequency Inverse Document Frequency(tf-idf)向量的形式嵌戈,通過(guò)對(duì)每個(gè)n元組進(jìn)行(TF-IDF) 權(quán)重計(jì)算,計(jì)算參考 caption 與模型生成的 caption 的余弦相似度听皿,來(lái)衡量圖像標(biāo)注的一致性的熟呛。
從直觀上來(lái)說(shuō),如果一些n元組頻繁地出現(xiàn)在描述圖像的參考標(biāo)注中尉姨,TF對(duì)于這些n元組將給出更高的權(quán)重庵朝,而IDF則降低那些在所有描述語(yǔ)句中都常常出現(xiàn)的n元組的權(quán)重。也就是說(shuō)又厉,IDF提供了一種測(cè)量單詞顯著性的方法九府,這就是將那些容易常常出現(xiàn),但是對(duì)于視覺(jué)內(nèi)容信息沒(méi)有多大幫助的單詞的重要性打折馋没。
考慮一張圖片是Ii€I(I:全部測(cè)試集圖片的集合)昔逗,對(duì)于一個(gè)n-gram Wk和參考caption 8ij,tf-idf計(jì)算方式是
那么,CIDEr的值可以用余弦相似度的平均值來(lái)計(jì)算:
CIDEr-D 是修改版本鉴扫,為的是讓 CIDEr 對(duì)于 gaming 問(wèn)題更加魯棒赞枕。什么是 Gaming 問(wèn)題?它是一種現(xiàn)象坪创,就是一個(gè)句子經(jīng)過(guò)人工判斷得分很低炕婶,但是在自動(dòng)計(jì)算標(biāo)準(zhǔn)中卻得分很高的情況。為了避免這種情況莱预,CIDEr-D 增加了截?cái)啵╟lipping)和基于長(zhǎng)度的高斯懲罰柠掂。
參考文獻(xiàn):Vedantam, R., Lawrence Zitnick, C., & Parikh, D. (2015). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4566-4575).
一句話:CIDEr 得分越高越好。 -
SPICE
SPICE 也是專門設(shè)計(jì)出來(lái)用于 image caption 問(wèn)題的依沮。全稱是 Semantic Propositional Image Caption Evaluation涯贞。前面四個(gè)方法都是基于 n-gram 計(jì)算的,所以 SPICE 設(shè)計(jì)出來(lái)解決這個(gè)問(wèn)題危喉。
SPICE 使用基于圖的語(yǔ)義表示來(lái)編碼 caption 中的 objects, attributes 和 relationships宋渔。它先將待評(píng)價(jià) caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于規(guī)則的方法把 dependency tree 映射成 scene graphs辜限。最后計(jì)算待評(píng)價(jià)的 caption 中 objects, attributes 和 relationships 的 F-score 值皇拣。
參考文獻(xiàn):Anderson, P., Fernando, B., Johnson, M., & Gould, S. (2016, October). Spice: Semantic propositional image caption evaluation. In European Conference on Computer Vision (pp. 382-398). Springer, Cham.
一句話:SPICE 得分越高越好。