命名實體識別NER實戰(zhàn)之基于bert（二）

上一篇介紹了基本的ner任務(wù)勒葱，這篇繼續(xù)介紹下CRF浪汪，最后使用Bert實現(xiàn)Ner任務(wù)。

1凛虽，CRF

????我們先看兩張簡圖死遭。

Bilstm

Bilstm+CRF

????圖一是Bilstm也就是上一篇介紹的模型，圖二就是BiLstm+CRF凯旋。對比兩圖不難發(fā)現(xiàn)呀潭，圖二在標(biāo)簽之間也存在著路徑連接，這便是CRF層至非。這里CRF的作用就是對各標(biāo)簽的之間的轉(zhuǎn)移概率進(jìn)行建模钠署，然后在所有的標(biāo)簽序列中，選取一條最優(yōu)結(jié)果(在概率圖中叫最優(yōu)路徑)荒椭，例如谐鼎，詞性標(biāo)注任務(wù)中，形容詞后面接名詞的概率比較大趣惠，所以模型更傾向于在形容詞后面選著一個名詞狸棍。

????而 BiLstm+CRF 網(wǎng)絡(luò) 就是將Bilstm的輸出，也就是每個單詞對應(yīng)標(biāo)簽的值(注意BiLstm的輸出建議不要使用sigmoid味悄、tanh或softmax做轉(zhuǎn)換)輸入到CRF中草戈。在CRF內(nèi)部，首先會隨機初始化一個[tag_size,tag_size]的矩陣A侍瑟，tag_size就是標(biāo)簽的個數(shù)唐片，所以A_ij就代表標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移概率。這個矩陣最后通過學(xué)習(xí)得到涨颜。

????有了這個矩陣我們就可以對一個標(biāo)簽序列計算一個分值费韭。
$S(X,y)=\sum_{i=1}^TA_{i_{t-1},i_t,y}+P_{i_t,y}$
這里X就是我們觀測到的語句，例如:劉媛被清華大學(xué)錄取咐低。y就是X的標(biāo)簽序列揽思。T代表我們句子的長度袜腥， $A_{i_{t-1},i_t,y}$ 就代表t-1時刻的標(biāo)簽轉(zhuǎn)移到t時刻標(biāo)簽的值见擦，從標(biāo)簽轉(zhuǎn)移矩陣A中獲得钉汗， $P_{i_t,y}$ 就是t時刻BiLstm的輸出值。so,就是這么簡單鲤屡，一個標(biāo)簽序列的分?jǐn)?shù)损痰，只需簡單的加法就可以得到。但是注意這里 $S(X,y)$ 是一個分值酒来，并不是一個概率值卢未。需要用下面的公式將分值轉(zhuǎn)換成概率。
$P(y|X)=\frac{e^{s(X,y)}}{\sum_{\hat{y}_\in Y}e^{s(X,\hat{y})}}$
這里 $\sum_{\hat{y}_\in Y}e^{s(X,\hat{y})}$ 就是當(dāng)前語句 $X$ 對應(yīng)的所有標(biāo)簽序列 $\hat{y}$ 的 $e^{s(X,y)}$ 之和堰汉。假設(shè) $X$ 包含10個單詞辽社，任務(wù)有3個標(biāo)簽， $3^{10}$ 種標(biāo)簽序列翘鸭。
接下來看下如何訓(xùn)練滴铅，對于語句 $X$ 都有答案序列 $y$ ，我們求出答案序列y的得分就乓，使用softmax得到其概率汉匙，最后使用最大似然估計來求解，也就是最小化下面的損失函數(shù)：
$-\log{P(y|X)}=-\log{(\frac{e^{s(X,y)}}{\sum_{\hat{y}_\in Y}e^{s(X,\hat{y})}})}$
簡化下公式：
$-\log{P(y|X)}=-(s(X,y)-{\log{(\sum_{\hat{y}_\in Y}e^{s(X,\hat{y})}})})$

這里 $s(X,y)$ 就是答案標(biāo)簽序列 $y$ 對應(yīng)的分值生蚁，這個很容易計算噩翠，麻煩的是 ${\log{(\sum_{\hat{y}_\in Y}e^{s(X,\hat{y})}})}$ 如何計算。其實這里不用太擔(dān)心邦投，因為我們只要求出了 $y_{t-1}$ 時刻的所有序列的值伤锚，就可以求出 $y_t$ 時刻所有序列的值。
下面是簡單說明下：
假設(shè)我們的 $X$ 只有兩個單詞尼摹，所以 $S(X,y)$ 可以拆解成 $S(X,y)=(A_{{0},1,y}+P_{1,y})+(A_{{1},2,y}+P_{2,y})$
我們用 $s_1$ 和 $s_2$ 來分別代表 $(A_{{0},1,y}+P_{1,y}),(A_{{1},2,y}+P_{2,y})$
所以 ${\log{(\sum_{\hat{y}_\in Y}e^{s(X,\hat{y})}})}={\log{(\sum_{\hat{y}_\in Y}\sum_{\hat{y}_\in Y}e^{s_1+s_2}})}$
而 $\sum_{\hat{y}_\in Y}e^{s_1}=e^{\log{(\sum_{\hat{y}_\in Y}e^{s_1}})}$
帶入原式就得到 ${\log{(\sum_{\hat{y}_\in Y}e^{{\log{(\sum_{\hat{y}_\in Y}e^{s_1}})}+s_2}})}$
而s1時刻所有序列的值正是 ${\log{(\sum_{\hat{y}_\in Y}e^{s_1}})}$
所以對于求 ${\log{(\sum_{\hat{y}_\in Y}e^{s(X,\hat{y})}})}$ 见芹，我們只需將每一時刻的序列總值求出即可。

上面就是在Bidirectional LSTM-CRF Models for Sequence Tagging這篇paper中提到的CRF方法蠢涝，但這并不是CRF的全部玄呛，想要全面的了解CRF需要概率圖模型的知識，這個后期會在做個詳細(xì)的介紹和二。

2,代碼篇

在tensorflow中使用CRF是很方便的一件事徘铝，因為tensorflow已經(jīng)全部封裝好了，一個方法即可調(diào)用惯吕。


            log_likelihood, trans = tf.contrib.crf.crf_log_likelihood(
                inputs=logits, # logits 就是Bilstm的輸出惕它，每個token對應(yīng)的標(biāo)簽值，[batch_size,seq_len,tag_num]
                tag_indices=self.labels,# 每個token對應(yīng)的真實標(biāo)簽
                sequence_lengths=self.lengths)# 每個樣本的句子長度

方法返回的log_likelihood就是對應(yīng)的loss值废登，trans 就是標(biāo)簽的轉(zhuǎn)移矩陣淹魄。
建立train_op的時候，注意梯度下降的時候需要tf.reduce_mean(-log_likelihood)

train_op = tf.train.AdamOptimizer(learning_rate).minimize(tf.reduce_mean(-log_likelihood))

預(yù)測階段

預(yù)測的時候就是在所有的標(biāo)簽序列中堡距，找出分值最大的那個甲锡。這里要用到Viterbi算法兆蕉，tensorflow同樣也做好了封裝。


 decode_tags, best_score= tf.contrib.crf.crf_decode(potentials=logits, transition_params=trans, sequence_length=self.lengths)

輸入：

logits : 就是Bilstm的輸出缤沦，也就是每個詞對于每個標(biāo)簽的分?jǐn)?shù)虎韵。
transition_params : CRF訓(xùn)練出的標(biāo)簽轉(zhuǎn)移概率矩陣。
sequence_length：預(yù)測樣本的句子長度缸废。

decode_tags:預(yù)測的最優(yōu)標(biāo)簽序列包蓝。

best_score：預(yù)測的最優(yōu)標(biāo)簽序列對應(yīng)的分值。

3 Bert-Bilstm-CRF

在BERT使用詳解(實戰(zhàn))介紹了Bert的使用方法企量，可以去看下测萎。對于Bert-Bilstm-CRF 其實可以把Bert的輸出看做是詞向量，所以只需把原來詞向量的部分用bert替換即可届巩。

源碼已經(jīng)提交至GIT

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末绳泉，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子姆泻，更是在濱河造成了極大的恐慌零酪，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件拇勃，死亡現(xiàn)場離奇詭異四苇，居然都是意外死亡，警方通過查閱死者的電腦和手機方咆，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門月腋，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人瓣赂，你說我怎么就攤上這事榆骚。” “怎么了煌集？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵妓肢，是天一觀的道長。經(jīng)常有香客問我苫纤，道長碉钠，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任卷拘，我火速辦了婚禮喊废，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘栗弟。我一直安慰自己污筷，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布乍赫。她就那樣靜靜地躺著瓣蛀，像睡著了一般斤寂。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上揪惦，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天，我揣著相機與錄音瞻讽，去河邊找鬼圆恤。笑死盗痒，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的纫塌。我是一名探鬼主播，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼讲弄，長吁一口氣：“原來是場噩夢啊……” “哼措左！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起避除，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤怎披，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后瓶摆，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凉逛，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年群井，在試婚紗的時候發(fā)現(xiàn)自己被綠了状飞。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡书斜，死狀恐怖诬辈，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情荐吉，我是刑警寧澤焙糟，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站样屠，受9級特大地震影響酬荞，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瞧哟，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一混巧、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧勤揩，春花似錦咧党、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案傍衡，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽深员。三九已至，卻和暖如春蛙埂，著一層夾襖步出監(jiān)牢的瞬間倦畅，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工绣的，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留叠赐，地道東北人。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓屡江，卻偏偏與公主長得像芭概，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子惩嘉，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,577評論 2贊 353

命名實體識別NER實戰(zhàn)之基于bert（二）

1凛虽，CRF

2,代碼篇

預(yù)測階段

3 Bert-Bilstm-CRF

推薦閱讀更多精彩內(nèi)容