基于排序的評(píng)價(jià)指標(biāo)
TODO
2 基于分類(lèi)的評(píng)價(jià)指標(biāo)
2.1 document-pivoted binary
針對(duì)每個(gè)document來(lái)畫(huà)混淆矩陣躺盛。
針對(duì)document來(lái)畫(huà): 若預(yù)測(cè)集合為PS,真實(shí)集合為GS攒盈,所有的label的集合為L(zhǎng)S氢妈,則:
- TP為預(yù)測(cè)為真(在PS中)的且預(yù)測(cè)正確(在GS中)的標(biāo)簽個(gè)數(shù)
- FP為預(yù)測(cè)為真(在PS中)但是預(yù)測(cè)錯(cuò)誤(不在GS)的標(biāo)簽個(gè)數(shù)
- FN為預(yù)測(cè)為假(不在PS中)但是預(yù)測(cè)錯(cuò)誤(在GS中)的標(biāo)簽個(gè)數(shù)
則對(duì)單文檔眼坏,precision(預(yù)測(cè)中正確的個(gè)數(shù))即
recall為(找出的正確的標(biāo)簽占總的gold的比例)
之后可以使用Macro或者用Micro的對(duì)所有文檔進(jìn)行混合。Macro-averaging就是先算F1值地粪,再進(jìn)行平均取募。
換一個(gè)思路, 若label空間維度為N蟆技,將對(duì)單文檔的評(píng)價(jià)看作是對(duì)N個(gè)instance進(jìn)行二元分類(lèi)玩敏,此時(shí)混淆矩陣的計(jì)算的TP,F(xiàn)P质礼,F(xiàn)N與之計(jì)算結(jié)果完全一致旺聚。也就是說(shuō)Macro-F1對(duì)每個(gè)文檔是權(quán)值相同的。
若是將所有M個(gè)樣本看作是M*N個(gè)instance的二分類(lèi)眶蕉,整體畫(huà)混淆矩陣砰粹,計(jì)算的結(jié)果就是documnet-pivoted binary的Micro-F1 score。(Micro-F1是先把混淆矩陣對(duì)應(yīng)位置元素加起來(lái)再計(jì)算F1造挽,此時(shí)擁有標(biāo)簽更多的文檔容易占據(jù)更多的權(quán)重)
2.2 label-pivoted binary
針對(duì)每個(gè)label來(lái)畫(huà)混淆矩陣碱璃。
抽取標(biāo)簽為的樣本計(jì)算混淆矩陣。其中饭入,gold為在所有M個(gè)樣本中gold標(biāo)簽集中出現(xiàn)
的樣本集合厘贼,predict為在M個(gè)樣本中predict標(biāo)簽集中出現(xiàn)
的樣本集合。
仿照上述圣拄,依此兩個(gè)集合計(jì)算混淆矩陣的值嘴秸。