ner論文筆記:Better Modeling of Incomplete Annotations for Named Entity Recognition

NLPCC2020的任務(wù)三

考慮噪音標注以及不全標注信息的情況下來構(gòu)造信息抽取系統(tǒng)嚼沿。當給定實體類別,實體的一個列表头滔,還有大量未標注語料時嗅回,我們?nèi)绾卧O(shè)計改進算法來構(gòu)建一個信息抽取系統(tǒng)。這個假設(shè)是非常符合工業(yè)界實際需求的缠局,抽取的目標繁雜则奥,而只要相關(guān)的部分實體列表和待抽取的語料,如何投入很少的人力來構(gòu)建系統(tǒng)是一個非常以挑戰(zhàn)且有意義的研究方向狭园。

baseline來自論文 Better Modeling of Incomplete Annotations for Named Entity Recognition pdf

介紹

現(xiàn)有的三種假設(shè)读处,A1為隨機刪除一些字(可能剩下部分實體),A2為刪除隨機的實體唱矛,A3為把刪除的實體和“O”都標記成隱變量罚舱。


(a)是完全標注,(b)是把刪除的實體標注為“O”绎谦,(c)是除了確定的實體管闷,其他的字在所有l(wèi)abel上的可能性相等,(d)是除了確定的字窃肠,其他字在label上的值包个,接近真實label的值更大。


方法

D表示label集合冤留。原始的CRF公式為:


y^(i)_p表示不完全標注的一種可能label碧囊。

如果所有可能的label概率是相同的,就等價于公式(2)

所以現(xiàn)在的關(guān)鍵是怎么估算這個q纤怒,論文里用的方法是k-fold交叉驗證來定義q分布糯而。

hard方法是:

0.把訓練集隨機分成兩個部分,用來做k-fold
1.使用訓練集0訓練初始化(可以用bert參數(shù)初始化)的模型0
2.使用訓練集1訓練初始化模型1
3.使用訓練好的模型0更新訓練集1
4.使用訓練好的模型1更新訓練集0
5.使用更新好的訓練集0和1合在一起訓練初始化模型final

再重復1-6泊窘,重復這些次數(shù)每次模型都是重新初始化熄驼,只有數(shù)據(jù)在迭代變化。理想狀態(tài)是烘豹,開始訓練集只標注了0.5的實體瓜贾,慢慢學到規(guī)律,更新自己携悯,標注出更多的實體祭芦,用來訓練。


實驗

結(jié)論蚌卤,效果不錯(作者代碼里只有hard的實現(xiàn))

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末实束,一起剝皮案震驚了整個濱河市奥秆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌咸灿,老刑警劉巖构订,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異避矢,居然都是意外死亡悼瘾,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門审胸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來亥宿,“玉大人,你說我怎么就攤上這事砂沛√潭螅” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵碍庵,是天一觀的道長映企。 經(jīng)常有香客問我,道長静浴,這世上最難降的妖魔是什么堰氓? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮苹享,結(jié)果婚禮上双絮,老公的妹妹穿的比我還像新娘。我一直安慰自己得问,他們只是感情好囤攀,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著椭赋,像睡著了一般抚岗。 火紅的嫁衣襯著肌膚如雪或杠。 梳的紋絲不亂的頭發(fā)上哪怔,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機與錄音向抢,去河邊找鬼认境。 笑死,一個胖子當著我的面吹牛挟鸠,可吹牛的內(nèi)容都是我干的叉信。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼艘希,長吁一口氣:“原來是場噩夢啊……” “哼硼身!你這毒婦竟也來了耍缴?” 一聲冷哼從身側(cè)響起罢洲,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后番官,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡芍耘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年杰扫,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吩屹。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡跪另,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出煤搜,到底是詐尸還是另有隱情免绿,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布擦盾,位于F島的核電站针姿,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏厌衙。R本人自食惡果不足惜距淫,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望婶希。 院中可真熱鬧榕暇,春花似錦、人聲如沸喻杈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽筒饰。三九已至缴啡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間瓷们,已是汗流浹背业栅。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留谬晕,地道東北人碘裕。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像攒钳,于是被迫代替她去往敵國和親帮孔。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355