簡介
? ? 命名實(shí)體識別評測方式分為兩種贤惯,一是通用的基于token標(biāo)簽進(jìn)行直接評測,二是考慮實(shí)體邊界+實(shí)體類型的評測粥喜。
標(biāo)簽評測
不考慮實(shí)體類型與實(shí)體邊界畏腕,直接進(jìn)行評測缴川。
實(shí)體邊界+實(shí)體類型
A、完全匹配
1描馅、實(shí)體邊界與實(shí)體類型都匹配正確把夸;
2、預(yù)測出的實(shí)體在測試集中不存在铭污;
3恋日、測試集中的實(shí)體,沒有被預(yù)測出來嘹狞;
B岂膳、部分匹配(重疊)
4、實(shí)體邊界正確刁绒,類型不正確闷营;
5烤黍、邊界錯誤(邊界重疊)知市;
6、邊界錯誤速蕊,實(shí)體類型也錯誤
評估指標(biāo)
1嫂丙、CoNLL-2003: Computational Natural Language Learning
- 僅考慮1、2规哲、3方案跟啤;
-?完全匹配:精度、召回率唉锌、F1
-?參考 Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition:https://www.aclweb.org/anthology/W03-0419/
2隅肥、Automatic Content Extraction (ACE)
-?包括加權(quán)方案
-?參考 Automatic Content Extraction 2008 Evaluation Plan (ACE08):
https://pubweb.eng.utah.edu/~cs6961/papers/ACE-2008-description.pdf
- 參考 The Automatic Content Extraction (ACE) Program: Tasks, Data, and Evaluation:
https://pdfs.semanticscholar.org/0617/dd6924df7a3491c299772b70e90507b195dc.pdf
3、Message Understanding Conference (MUC)
-?同事考慮實(shí)體邊界和實(shí)體類型
- Correct (COR):?匹配成功袄简;
- Incorrect(INC):匹配失斝确拧;
- Partial(PAR):預(yù)測的實(shí)體邊界與測試集重疊绿语,但不完全相同秃症;
- Missing(MIS):測試集實(shí)體邊界沒有被預(yù)測識別出來候址;
- Spurius(SPU):預(yù)測出的實(shí)體邊界在測試集中不存在;
-?參考:MUC-5 EVALUATION METRICS:https://www.aclweb.org/anthology/M93-1007/
-?Python參考代碼:https://github.com/jantrienes/nereval
4种柑、SemEval‘13
-?嚴(yán)格(strict):完全匹配岗仑,需要實(shí)體邊界與實(shí)體類型都正確;
-?精確邊界匹配(exact):無論實(shí)體邊界如何聚请,預(yù)測的實(shí)體邊界都是正確的荠雕;
-?部分邊界匹配(partial):忽略實(shí)體邊界,有實(shí)體邊界重疊即可驶赏;
-?類型匹配:預(yù)測的實(shí)體與測試集實(shí)體需要一定的重疊舞虱;
示例:
? ?1、測試集標(biāo)簽個數(shù)統(tǒng)計(golden):
2母市、預(yù)測結(jié)果標(biāo)簽個數(shù)統(tǒng)計(predict):
3矾兜、精確匹配(exact):
3、部分匹配(partial):
4患久、F1:
參考資料:
1椅寺、實(shí)體邊界+實(shí)體類型:
https://ychai.uk/notes/2018/11/21/NLP/NER/Evaluation-metrics-of-Name-Entity-Recognition-systems/
2、scikit-learn標(biāo)簽評測(多分類評測方法):
https://devdocs.io/scikit_learn/modules/generated/sklearn.metrics.classification_report
3蒋失、conlleval參考代碼:
https://github.com/sighsmile/conlleval
4返帕、NER MUC evaluation參考代碼:
https://github.com/cyk1337/NER-evaluation/
? ??