考慮噪音標注以及不全標注信息的情況下來構(gòu)造信息抽取系統(tǒng)嚼沿。當給定實體類別,實體的一個列表头滔,還有大量未標注語料時嗅回,我們?nèi)绾卧O(shè)計改進算法來構(gòu)建一個信息抽取系統(tǒng)。這個假設(shè)是非常符合工業(yè)界實際需求的缠局,抽取的目標繁雜则奥,而只要相關(guān)的部分實體列表和待抽取的語料,如何投入很少的人力來構(gòu)建系統(tǒng)是一個非常以挑戰(zhàn)且有意義的研究方向狭园。
baseline來自論文 Better Modeling of Incomplete Annotations for Named Entity Recognition pdf
介紹
現(xiàn)有的三種假設(shè)读处,A1為隨機刪除一些字(可能剩下部分實體),A2為刪除隨機的實體唱矛,A3為把刪除的實體和“O”都標記成隱變量罚舱。
(a)是完全標注,(b)是把刪除的實體標注為“O”绎谦,(c)是除了確定的實體管闷,其他的字在所有l(wèi)abel上的可能性相等,(d)是除了確定的字窃肠,其他字在label上的值包个,接近真實label的值更大。
方法
D表示label集合冤留。原始的CRF公式為:
y^(i)_p表示不完全標注的一種可能label碧囊。
如果所有可能的label概率是相同的,就等價于公式(2)
所以現(xiàn)在的關(guān)鍵是怎么估算這個q纤怒,論文里用的方法是k-fold交叉驗證來定義q分布糯而。
hard方法是:
0.把訓練集隨機分成兩個部分,用來做k-fold
1.使用訓練集0訓練初始化(可以用bert參數(shù)初始化)的模型0
2.使用訓練集1訓練初始化模型1
3.使用訓練好的模型0更新訓練集1
4.使用訓練好的模型1更新訓練集0
5.使用更新好的訓練集0和1合在一起訓練初始化模型final
再重復1-6泊窘,重復這些次數(shù)每次模型都是重新初始化熄驼,只有數(shù)據(jù)在迭代變化。理想狀態(tài)是烘豹,開始訓練集只標注了0.5的實體瓜贾,慢慢學到規(guī)律,更新自己携悯,標注出更多的實體祭芦,用來訓練。
實驗
結(jié)論蚌卤,效果不錯(作者代碼里只有hard的實現(xiàn))