[自然語言處理-入門]五揩局、序列標(biāo)注基礎(chǔ)(2)

Markdown編輯器修好了毫玖,重發(fā)一下。

學(xué)習(xí)路線參考:

https://blog.51cto.com/u_15298598/3121189

https://github.com/Ailln/nlp-roadmap

https://juejin.cn/post/7113066539053482021

https://zhuanlan.zhihu.com/p/100567371

https://cloud.tencent.com/developer/article/1884740

本節(jié)學(xué)習(xí)使用工具&閱讀文章:

https://zhuanlan.zhihu.com/p/156914795

https://spaces.ac.cn/archives/7213

https://zhuanlan.zhihu.com/p/97829287

https://www.zhihu.com/question/62399257

https://zhuanlan.zhihu.com/p/47802053

https://zhuanlan.zhihu.com/p/150103958?from_voters_page=true

  1. 命名實(shí)體標(biāo)注

    命名實(shí)體識(shí)別是指識(shí)別中文文本中實(shí)體的邊界和類別凌盯。命名實(shí)體識(shí)別是文本處理中的基礎(chǔ)技術(shù)付枫,廣泛應(yīng)用在自然語言處理居凶、推薦系統(tǒng)思币、知識(shí)圖譜等領(lǐng)域携龟,比如推薦系統(tǒng)中的基于實(shí)體的用戶畫像妆偏、基于實(shí)體召回等建炫。

    1. 命名實(shí)體分類

      • 3大類:實(shí)體類徐勃、時(shí)間類窒百、數(shù)字類
      • 7小類:人名熟丸、地名症杏、組織機(jī)構(gòu)名装获、時(shí)間、日期厉颤、貨幣量穴豫、百分?jǐn)?shù)
    2. 命名實(shí)體識(shí)別思想

      通常先進(jìn)行實(shí)體標(biāo)注,然后識(shí)別單個(gè)實(shí)體逼友,最后再識(shí)別復(fù)合實(shí)體精肃。

    3. 實(shí)體標(biāo)注方法

      1. IOB標(biāo)注法:I表示內(nèi)部,O表示外部帜乞,B表示開始
      2. BIOES標(biāo)注法:B表示開始司抱,I表示內(nèi)部,O表示外部挖函,E表示結(jié)束状植,S表示這個(gè)詞是單獨(dú)形成一個(gè)命名實(shí)體
  1. 命名實(shí)體識(shí)別方法

    • 基于規(guī)則的方法:依賴詞典浊竟、模板、正則表達(dá)式等匹配方法津畸。
    • 基于機(jī)器學(xué)習(xí)方法:HMM振定、MEMM、ME肉拓、SVM后频、CRF,關(guān)注概率暖途。
    • 基于深度學(xué)習(xí)方法:BiLSTM-CNN-CRF卑惜、BERT-BiLSTM-CRF,關(guān)注整體驻售。

    基于機(jī)器學(xué)習(xí)方法的主要方法對(duì)比如下:

    模型 優(yōu)點(diǎn) 缺點(diǎn)
    ME最大熵 通用性好 訓(xùn)練效率低
    MEMM最大熵馬爾科夫模型 充分利用特征 局部最優(yōu)
    HMM隱馬爾可夫模型 訓(xùn)練快 局部最優(yōu)
    SVM支持向量機(jī) 理論完備 訓(xùn)練效率低
    CRF條件隨機(jī)場 特征靈活露久、全局最優(yōu) 依賴特征模版
  2. MEMM

    回顧C(jī)RF,其對(duì)概率分布P(Y|X)=P(y_1,y_2,……,y_n|X)建模欺栗。MEMM同樣也是對(duì)該概率分布建模毫痕,其先對(duì)原概率分布進(jìn)行分解,為:P(y_1,y_2,……,y_n|X)=P(y_1|X)P(y_2|X,y_1)……P(y_n|X,y_1,y_2,……,y_{n-1})

    再假設(shè)標(biāo)簽依賴只發(fā)生在相鄰位置迟几,所以:P(y_1,y_2,……,y_n|X)=P(y_1|X)P(y_2|X,y_1)……P(y_n|X,y_{n-1})

    再仿照線性鏈CRF的設(shè)計(jì)消请,可以設(shè)P(y_1|X)={1\over Z_1(X)}exp(f(y_1|X)), P(y_k|X,y_{k-1})={1\over Z_k(X)}exp(g(y_{k-1},y_k)+f(y_k;X))

    至此,這就得到了MEMM了类腮。由于MEMM已經(jīng)將整體的概率分布分解為逐步的分布之積了臊泰,所以算loss只需要把每一步的交叉熵求和。

    對(duì)比MEMM和CRF蚜枢,二者的區(qū)別僅在于分母(歸一化因子Z(X))的計(jì)算方式不同缸逃,CRF的我們稱之為是全局歸一化的,而MEMM的我們稱之為是局部歸一化的祟偷。全局歸一化模型效果通常好些察滑,但實(shí)現(xiàn)通常相對(duì)困難一些;局部歸一化模型效果通常不超過全局歸一化模型修肠,但勝在易于實(shí)現(xiàn),并與易于拓展户盯。

    MEMM除了訓(xùn)練速度快之外嵌施,性能并不優(yōu)于CRF。

  1. LSTM-CRF

    序列標(biāo)注問題本質(zhì)上是分類問題莽鸭,因?yàn)槠渚哂行蛄刑卣髀鹕耍訪STM就很合適進(jìn)行序列標(biāo)注。

    我們可以直接利用LSTM進(jìn)行序列標(biāo)注硫眨。但是這樣的做法有一個(gè)問題:每個(gè)時(shí)刻的輸出沒有考慮上一時(shí)刻的輸出足淆。我們?cè)诶肔STM進(jìn)行序列建模的時(shí)候只考慮了輸入序列的信息,即單詞信息,但是沒有考慮標(biāo)簽信息巧号,即輸出標(biāo)簽信息族奢。

    這樣會(huì)導(dǎo)致一個(gè)問題,以“我 喜歡 跑步”為例丹鸿,LSTM輸出“喜歡”的標(biāo)簽是“動(dòng)詞”越走,而“跑步”的標(biāo)簽可能也是“動(dòng)詞”。但是實(shí)際上靠欢,“名詞”標(biāo)簽更為合適廊敌,因?yàn)椤芭懿健边@里是一項(xiàng)運(yùn)動(dòng)。也就是“動(dòng)詞”+“名詞”這個(gè)規(guī)則并沒有被LSTM模型捕捉到门怪。也就是說這樣使用LSTM無法對(duì)標(biāo)簽轉(zhuǎn)移關(guān)系進(jìn)行建模骡澈。

    而標(biāo)簽轉(zhuǎn)移關(guān)系對(duì)序列標(biāo)注任務(wù)來說是很重要的,所以就在LSTM的基礎(chǔ)上引入一個(gè)標(biāo)簽轉(zhuǎn)移矩陣對(duì)標(biāo)簽轉(zhuǎn)移關(guān)系進(jìn)行建模掷空。

    CRF有兩類特征函數(shù)肋殴,一類是針對(duì)觀測序列與狀態(tài)的對(duì)應(yīng)關(guān)系,一類是針對(duì)狀態(tài)間關(guān)系拣帽。在LSTM+CRF模型中疼电,前一類特征函數(shù)的輸出由LSTM的輸出替代,后一類特征函數(shù)就變成了標(biāo)簽轉(zhuǎn)移矩陣减拭。

    可以將LSTM的輸出矩陣看作是一個(gè)打分矩陣蔽豺,將其輸出作為CRF的發(fā)射概率;再由CRF自己學(xué)習(xí)轉(zhuǎn)移概率拧粪,即構(gòu)成了LSTM-CRF體系修陡。

  1. BiLSTM

    利用LSTM對(duì)句子進(jìn)行建模存在一個(gè)問題:無法編碼從后到前的信息。在更細(xì)粒度的分類時(shí)可霎,如對(duì)于強(qiáng)程度的褒義魄鸦、弱程度的褒義、中性癣朗、弱程度的貶義拾因、強(qiáng)程度的貶義的五分類任務(wù)需要注意情感詞、程度詞旷余、否定詞之間的交互绢记。舉一個(gè)例子,“這個(gè)餐廳臟得不行正卧,沒有隔壁好”蠢熄,這里的“不行”是對(duì)“臟”的程度的一種修飾,通過BiLSTM可以更好的捕捉雙向的語義依賴炉旷。

    BiLSTM就是雙向的LSTM签孔,同時(shí)具備前向的LSTM和后向的LSTM叉讥。

    BiLSTM訓(xùn)練過程

    例如“我愛中國”這句話,前向LSTM依次輸入我 愛 中國得到三個(gè)向量\{h_{L0},h_{L1},h_{L2}\}饥追,后向LSTM依次輸入中國 愛 我得到三個(gè)向量\{h_{R0},h_{R1},h_{R2}\}图仓。最后將前向和后向?qū)?yīng)的隱向量進(jìn)行拼接即可得到最終的結(jié)果。

    隱向量拼接
  1. BiLSTM-CRF

    同LSTM-CRF一樣判耕,相比LSTM-CRF透绩,BiLSTM更能識(shí)別上下文信息。

  1. BiLSTM-CNNS-CRF

    出自ACL2016《End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF》特點(diǎn)是END2END壁熄,不需要手工進(jìn)行特征設(shè)計(jì)帚豪,不需要任何特征工程,這說明不需要手工的特征也能有好的性能草丧。

    BiLSTM-CNNS-CRF

流程:

  1. 卷積神經(jīng)網(wǎng)絡(luò):提取單詞字符級(jí)表示
  2. BiLSTM:單向LSTM只能獲取過去信息狸臣,無法獲取未來信息,所以雙向LSTM的基本思想是將每個(gè)序列向前和向后呈現(xiàn)到兩個(gè)單獨(dú)的隱藏狀態(tài)昌执,以分別捕獲過去和未來的信息烛亦。 然后將兩個(gè)隱藏狀態(tài)連接起來形成最終的輸出。
  3. CRF:使用條件隨機(jī)場 (CRF)聯(lián)合建模標(biāo)簽序列懂拾,而不是獨(dú)立解碼每個(gè)標(biāo)簽煤禽。

后面部分與BiLSTM-CRF是相同的,只是在前面加上了一個(gè)CNN岖赋。在先前的研究工作中發(fā)現(xiàn)檬果,CNN可以有效抽取單詞字符的形態(tài)學(xué)特征(如單詞的前綴、后綴等)形成字符級(jí)別的表示特征唐断。網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示选脊,需要注意的是虛線表示Dropout操作。

CNN網(wǎng)絡(luò)結(jié)構(gòu)

這里的Word Embedding分別使用了GloVe脸甘、Senna-50恳啥、Google's Word2Vec-300,實(shí)驗(yàn)表明GloVe的效果最好丹诀。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末钝的,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子铆遭,更是在濱河造成了極大的恐慌扁藕,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疚脐,死亡現(xiàn)場離奇詭異,居然都是意外死亡邢疙,警方通過查閱死者的電腦和手機(jī)棍弄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門望薄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人呼畸,你說我怎么就攤上這事痕支。” “怎么了蛮原?”我有些...
    開封第一講書人閱讀 165,474評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵卧须,是天一觀的道長。 經(jīng)常有香客問我儒陨,道長花嘶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,881評(píng)論 1 295
  • 正文 為了忘掉前任蹦漠,我火速辦了婚禮椭员,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘笛园。我一直安慰自己隘击,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評(píng)論 6 392
  • 文/花漫 我一把揭開白布研铆。 她就那樣靜靜地躺著埋同,像睡著了一般。 火紅的嫁衣襯著肌膚如雪棵红。 梳的紋絲不亂的頭發(fā)上凶赁,一...
    開封第一講書人閱讀 51,698評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音窄赋,去河邊找鬼哟冬。 笑死,一個(gè)胖子當(dāng)著我的面吹牛忆绰,可吹牛的內(nèi)容都是我干的浩峡。 我是一名探鬼主播,決...
    沈念sama閱讀 40,418評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼错敢,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼翰灾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起稚茅,我...
    開封第一講書人閱讀 39,332評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤纸淮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后亚享,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體咽块,經(jīng)...
    沈念sama閱讀 45,796評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評(píng)論 3 337
  • 正文 我和宋清朗相戀三年欺税,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了侈沪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片揭璃。...
    茶點(diǎn)故事閱讀 40,110評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖亭罪,靈堂內(nèi)的尸體忽然破棺而出瘦馍,到底是詐尸還是另有隱情,我是刑警寧澤应役,帶...
    沈念sama閱讀 35,792評(píng)論 5 346
  • 正文 年R本政府宣布情组,位于F島的核電站,受9級(jí)特大地震影響箩祥,放射性物質(zhì)發(fā)生泄漏院崇。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評(píng)論 3 331
  • 文/蒙蒙 一滥比、第九天 我趴在偏房一處隱蔽的房頂上張望亚脆。 院中可真熱鬧,春花似錦盲泛、人聲如沸濒持。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽柑营。三九已至,卻和暖如春村视,著一層夾襖步出監(jiān)牢的瞬間官套,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評(píng)論 1 272
  • 我被黑心中介騙來泰國打工蚁孔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留奶赔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,348評(píng)論 3 373
  • 正文 我出身青樓杠氢,卻偏偏與公主長得像站刑,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鼻百,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容