命名實(shí)體識(shí)別: BiLSTM 之上的 CRF 層 - 2

回顧

上一篇文章 中, 我們了解到 CRF 能夠從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到有關(guān) Labels 序列的約束,進(jìn)而可以確保最終的實(shí)體標(biāo)注序列是合理有效的。

這些約束可以是:

  • 句子中首個(gè)單詞的 Label 應(yīng)該是 “B-“ or “O”, 而不會(huì)是 “I-“

  • “B-label1 I-label2 I-label3 I-…”,在這個(gè)模式中, label1, label2, label3 … 應(yīng)該是同一實(shí)體的 Label。譬如万细,“B-Person I-Person” 是合理有效的,但是 “B-Person I-Organization” 便是無(wú)效的。

  • “O I-label” 是無(wú)效的权烧。命名實(shí)體的第一個(gè)起始標(biāo)注應(yīng)該是 “B-“ 開(kāi)頭的,而不是 “I-“伤溉。換一句話說(shuō)般码,合理有效的模式應(yīng)該是 “O B-label”

  • ...

在讀完這篇文章后,你將會(huì)知道為什么 CRF 能夠?qū)W習(xí)到這些約束乱顾。

2. CRF Layer

在 CRF 層的 Loss Function 中板祝,我們有兩種 Score ,Emission Score 和 Transition Score 它們是 CRF 層的關(guān)鍵走净。

2.1 Emission Score

第一個(gè)便是 Emission Score 券时。這里的 Emission Scores 來(lái)自于 BiLSTM 層,如下圖所示伏伯,w_0 被標(biāo)記為 B-Person 的 score 是 1.5

為了方便理解橘洞,在這里給每個(gè) label 一個(gè)索引標(biāo)簽:

我們使用 x_{i,y_j} 表示 Emission Score,i 是 word 的 index说搅, y_j 是 label 的 index炸枣。譬如,依據(jù)上面的圖可以得到,x_{i=1,y_j=2} = x_{w1, B-Organization} = 0.1, 意思就是 w_1 被標(biāo)注為 B-Organization 的 score 為 0.1适肠。

2.2 Transition Score

對(duì)于 Transition Score 霍衫,我們使用 t_{y_jy_j} 表示。譬如侯养,t_{B-Persion, I-Person} = 0.9敦跌,意思就是標(biāo)簽 B-Persion 轉(zhuǎn)移到 I-Person 的 score 為 0.9。這樣的話沸毁,我們便擁有了一個(gè) 轉(zhuǎn)移矩陣峰髓,其中存儲(chǔ)著所有標(biāo)簽之間的 Transition Score。

為了使得轉(zhuǎn)移分?jǐn)?shù)矩陣更加具有魯棒性息尺,我們得添加一些標(biāo)簽携兵,START 和 END。START 表示句子的起始搂誉,并不是句子的第一個(gè) word徐紧;END 表示句子的結(jié)束。

這里就是一個(gè) transition matrix score 的例子炭懊,其中包含了我們額外添加的START 和 END 標(biāo)簽并级。

如上表所示,我們能夠發(fā)現(xiàn)這個(gè)狀態(tài)轉(zhuǎn)移舉證已經(jīng)學(xué)習(xí)到了某些約束了侮腹。

  • 句子中的第一個(gè)單詞的標(biāo)記應(yīng)該是以“B-“ 或者 “O”開(kāi)頭, 并不會(huì)是 “I-”形式的標(biāo)記嘲碧。(可以從表中發(fā)現(xiàn), “START” 到 “I-Person or I-Organization” 的轉(zhuǎn)移值非常的小父阻。)

  • 在“B-label1 I-label2 I-label3 I-…”這樣形式的標(biāo)注序列中愈涩, label1, label2, label3 … 應(yīng)該是同種實(shí)體的標(biāo)簽。比如加矛,“B-Person I-Person” 是合理有效的標(biāo)注序列履婉,而 “B-Person I-Organization” 則不是。(譬如, the score from “B-Organization” to “I-Person” is only 0.0003 which is much lower than the others.)

  • “O I-label” is invalid. The first label of one named entity should start with “B-“ not “I-“, in other words, the valid pattern should be “O B-label” (表中 t_{O, I-Person} 的值非常的小斟览。)

好了毁腿,這時(shí)候你腦子里該滿是黑人問(wèn)號(hào)了,這個(gè)矩陣從哪里來(lái)的苛茂?已烤?

確切的說(shuō),這個(gè)矩陣是 BiLSTM-CRF 模型的一個(gè)參數(shù)味悄。在你訓(xùn)練模型之前草戈,你可以隨機(jī)地初始化矩陣中所有的 transition score。在之后的訓(xùn)練過(guò)程中侍瑟,這些隨機(jī)初始化的 score 將會(huì)被自動(dòng)更新。換句話說(shuō),CRF 層可以自己學(xué)習(xí)到這些約束涨颜。我們并不需要手動(dòng)創(chuàng)建這樣一個(gè)矩陣费韭。這些分?jǐn)?shù)值會(huì)隨著訓(xùn)練的迭代次數(shù)的增加,變得越來(lái)越 “合理”庭瑰。

2.3 CRF loss function

CRF 的損失函數(shù)由 真實(shí)轉(zhuǎn)移路徑值 和 所有可能轉(zhuǎn)移路徑值兩部分組成星持。真實(shí)路徑表示在所有可能轉(zhuǎn)移路徑中具有最高 score 的路徑。

假如我們的數(shù)據(jù)集中有這樣一些標(biāo)記:

image.png

我們也有一個(gè)由 5 個(gè)單詞組成的句子弹灭,那么標(biāo)簽的可能轉(zhuǎn)移路徑有:

1.START B-Person B-Person B-Person B-Person B-Person END

2.START B-Person I-Person B-Person B-Person B-Person END

10.START B-Person I-Person O B-Organization O END

N.O O O O O O O

假定每一個(gè)可能的路徑有一個(gè)分?jǐn)?shù)值 P_i, 那么對(duì)于所有 N 條可能的路徑的總分?jǐn)?shù)值為 P_{total} = P_1 + P_2 + P_3 + ... + P_N = e^{S_1} + e^{S_2} + e^{S_3} + ... + e^{S_N}督暂,e 是數(shù)學(xué)常量 e。(在 2.4 節(jié)穷吮,我們會(huì)討論如何計(jì)算 S_i逻翁,你也可以將它直接作為該路徑的分?jǐn)?shù)值。)

假如這里的第十條路徑是真實(shí)的路徑捡鱼,換句話說(shuō)八回,第十條路徑是訓(xùn)練集提供的“黃金準(zhǔn)則”。那么驾诈, P_{10} 就應(yīng)該在所有的路徑分?jǐn)?shù)值之和中占據(jù)最大的比例缠诅。

下面給出方程便是我們一直討論的 Loss Function,在訓(xùn)練階段乍迄,BiLSTM-CRF 模型的參數(shù)值將會(huì)一直不停的被更新管引,來(lái)提高真實(shí)路徑的分?jǐn)?shù)值所占的比重。

Loss Function = P_{RealPath} / P_{1}+P_{2}+P_{3}+P_{4}+...+P_{N}

現(xiàn)在闯两,問(wèn)題來(lái)了:

  1. 如何定義一條路徑的分?jǐn)?shù)值褥伴?
  2. 如何計(jì)算所有路徑的總分?jǐn)?shù)值?
  3. 當(dāng)我們計(jì)算所有分?jǐn)?shù)值的時(shí)候生蚁,我們需要列出所有可能的路徑嗎噩翠?(提前透露一下答案:不需要!)

Real path score

今天就到這里吧~

參考文獻(xiàn)
[1] Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K. and Dyer, C., 2016. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360.
[2] https://createmomo.github.io/2017/09/23/CRF_Layer_on_the_Top_of_BiLSTM_2/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末邦投,一起剝皮案震驚了整個(gè)濱河市伤锚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌志衣,老刑警劉巖屯援,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異念脯,居然都是意外死亡狞洋,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門绿店,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)吉懊,“玉大人庐橙,你說(shuō)我怎么就攤上這事〗杷裕” “怎么了态鳖?”我有些...
    開(kāi)封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)恶导。 經(jīng)常有香客問(wèn)我浆竭,道長(zhǎng),這世上最難降的妖魔是什么惨寿? 我笑而不...
    開(kāi)封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任邦泄,我火速辦了婚禮,結(jié)果婚禮上裂垦,老公的妹妹穿的比我還像新娘顺囊。我一直安慰自己,他們只是感情好缸废,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布包蓝。 她就那樣靜靜地躺著,像睡著了一般企量。 火紅的嫁衣襯著肌膚如雪测萎。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天届巩,我揣著相機(jī)與錄音硅瞧,去河邊找鬼。 笑死恕汇,一個(gè)胖子當(dāng)著我的面吹牛腕唧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播瘾英,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼枣接,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了缺谴?” 一聲冷哼從身側(cè)響起但惶,我...
    開(kāi)封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎湿蛔,沒(méi)想到半個(gè)月后膀曾,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡阳啥,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年添谊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片察迟。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡斩狱,死狀恐怖耳高,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情喊废,我是刑警寧澤祝高,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布栗弟,位于F島的核電站污筷,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏乍赫。R本人自食惡果不足惜瓣蛀,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望雷厂。 院中可真熱鬧惋增,春花似錦、人聲如沸改鲫。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)像棘。三九已至稽亏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間缕题,已是汗流浹背截歉。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留烟零,地道東北人瘪松。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像锨阿,于是被迫代替她去往敵國(guó)和親宵睦。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容