命名實體泛讀系列(一)—— Named Entity Recognition using Positive-Unlabeled Learning論文筆記

一、寫在前面的話

命名實體識別(NER)是許多自然語言處理任務(wù)的基本組成部分植榕。該領(lǐng)域現(xiàn)有的監(jiān)督方法往往需要大量的標記數(shù)據(jù)幻馁,而這通常非常昂貴且耗時渣锦。在這篇論文中顽决,作者探索了僅使用未標記數(shù)據(jù)和收集的與數(shù)據(jù)集相關(guān)的實體字典的半監(jiān)督的命名實體方法砍的。文中將任務(wù)定義為一個正未標記(PU, Positive-Unlabeled)學(xué)習(xí)問題(簡單理解就是存在一定的正標簽但數(shù)據(jù)集未進行標記的任務(wù))汛聚,并據(jù)此提出了一種新的PU學(xué)習(xí)算法來執(zhí)行該任務(wù)仓坞。該論文證明了該算法可以像有完全標記的數(shù)據(jù)一樣,無約束地顷扩、一致地估計任務(wù)損失火邓。該方法的一個關(guān)鍵創(chuàng)新在于它不要求詞典標記句子中的每個實體,甚至不要求詞典覆蓋實體烂叔,大大降低了對詞典質(zhì)量的要求谨胞,是非常有意義的命名實體算法。


二蒜鸡、論文模型

該模型首先使用最大匹配算法進行數(shù)據(jù)標注(這里直接對詞進行正負類的標定胯努,而不是BIO等形式),再通過拼接字符級別詞嵌入逢防、詞級別詞嵌入和人工設(shè)計的特征叶沛,構(gòu)建BiLSTM模型并對文本的詞進行預(yù)測,最后使用AdaSampling的方法進行詞典擴充胞四。

1. 數(shù)據(jù)標注

由于詞典并能包含一句話中的所有實體恬汁,故作者使用二分類對每個詞進行標記,通過最大匹配算法使得實體單詞被標記為正類辜伟,非實體單詞被標記為負類氓侧。

2. 模型構(gòu)建

作者主要使用三種詞向量:

  • 字符級別詞向量

  • 正常的詞向量,使用的是GloVe的詞嵌入方法

  • 人工特征向量(這是一個0|1向量导狡,即滿足任一條件即置為1):allCaps(是否全部為大寫)约巷、upperInitial(首字母大寫)、lowercase(是否為小寫)旱捧、mixedCaps和noinfo独郎。

將三種詞向量拼接輸入BiLSTM中:

最后經(jīng)過sigmoid函數(shù)進行分類:

3. 損失函數(shù)

其中

作者在文中對PU學(xué)習(xí)這一特殊任務(wù)做了推導(dǎo),推出了無偏損失函數(shù)枚赡,具體過程可以參考作者github給出的更詳細的推導(dǎo)補充氓癌。

4. 標簽推理和詞典擴充

經(jīng)過訓(xùn)練的PU分類器可以用來進行標簽預(yù)測。因為每個實體類型有著不同的分類器贫橙,所以同一個實體單詞可能被分類為不同的正類贪婉。所以作者選取概率最大的正類作為該單詞的類別,同時其他類型分類器的預(yù)測歸零卢肃。解決正類沖突之后疲迂,作者使用最大匹配的原則對連續(xù)實體單詞進行分類,得到最終的實體單詞標簽預(yù)測莫湘,并且使用AdaSampling對詞典進行擴充尤蒿。此方法為不斷迭代PU學(xué)習(xí)算法,并把每一次標注出的結(jié)果加入到字典中幅垮,直到字典的大小不在變化腰池。


三、實驗結(jié)果

作者選取了幾個基線模型,分別是直接用詞典預(yù)測(Matching)示弓,使用完全標注數(shù)據(jù)演怎,BIOES和神經(jīng)網(wǎng)絡(luò)模型進行預(yù)測(BiLSTM),使用交叉熵作為損失函數(shù)的PU模型(uPU)避乏,沒有使用非負約束并且實行字典擴大的PU模型(buPU)爷耀,僅僅沒使用字典擴大的PU模型(bnPU),和完整PU模型(adaPU)拍皮。除此之外還對比了斯坦福NER的基于最大熵的馬爾可夫模型方法(MEMM)歹叮,斯坦福條件隨機場方法(CRF)還有基于神經(jīng)網(wǎng)絡(luò)的模型(BiLSTM+CRF)。具體結(jié)果如下:

可以看出铆帽,作者在文中提出的損失函數(shù)對PU學(xué)習(xí)有相當大的幫助咆耿,同時也證明論文提出的算法能在有限的詞典的基礎(chǔ)上做到相當不錯的結(jié)果,哪怕與監(jiān)督算法相比也并沒有遜色太多爹橱。

該論文算法相當具有實踐價值萨螺,在實際做命名實體任務(wù)時,我們經(jīng)常會遇到有一定的詞典愧驱,但是沒有專門標注的數(shù)據(jù)集這一棘手的問題慰技。該論文的算法為我們在遇到這種問題時提供了一個有效的方案。


參考

  1. https://blog.csdn.net/a609640147/article/details/91048682
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末组砚,一起剝皮案震驚了整個濱河市吻商,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌糟红,老刑警劉巖艾帐,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異盆偿,居然都是意外死亡柒爸,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進店門事扭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捎稚,“玉大人,你說我怎么就攤上這事句旱⊙粼澹” “怎么了晰奖?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵谈撒,是天一觀的道長。 經(jīng)常有香客問我匾南,道長啃匿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮溯乒,結(jié)果婚禮上夹厌,老公的妹妹穿的比我還像新娘。我一直安慰自己裆悄,他們只是感情好矛纹,可當我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著光稼,像睡著了一般或南。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上艾君,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天采够,我揣著相機與錄音,去河邊找鬼冰垄。 笑死蹬癌,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的虹茶。 我是一名探鬼主播逝薪,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蝴罪!你這毒婦竟也來了翼闽?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤洲炊,失蹤者是張志新(化名)和其女友劉穎感局,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體暂衡,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡询微,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了狂巢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撑毛。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖唧领,靈堂內(nèi)的尸體忽然破棺而出藻雌,到底是詐尸還是另有隱情,我是刑警寧澤斩个,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布胯杭,位于F島的核電站,受9級特大地震影響受啥,放射性物質(zhì)發(fā)生泄漏做个。R本人自食惡果不足惜鸽心,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望居暖。 院中可真熱鬧顽频,春花似錦、人聲如沸太闺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽省骂。三九已至莺奸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間冀宴,已是汗流浹背灭贷。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留略贮,地道東北人甚疟。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像逃延,于是被迫代替她去往敵國和親览妖。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容