[自然語言處理-入門]一尽楔、NLP簡介與文本預(yù)處理

學(xué)習(xí)路線參考:

https://blog.51cto.com/u_15298598/3121189

https://github.com/Ailln/nlp-roadmap

https://juejin.cn/post/7113066539053482021

https://zhuanlan.zhihu.com/p/100567371

https://cloud.tencent.com/developer/article/1884740

本節(jié)學(xué)習(xí)使用工具&閱讀文章:

https://looperxx.github.io/CS224n-2019-01-Introduction%20and%20Word%20Vectors/#word2vec-introduction

https://cloud.tencent.com/developer/article/1884740

https://baike.baidu.com/item/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/365730?fr=aladdin

https://zhuanlan.zhihu.com/p/65190736

https://zhuanlan.zhihu.com/p/202518583

https://zhuanlan.zhihu.com/p/88362664

https://hillzhang1999.gitee.io/2020/04/04/nlp-zi-xue-bi-ji-tiao-jian-sui-ji-chang-mo-xing/

  1. 自然語言處理概述

    自然語言處理(Natural Language Processing, NLP)研究能實(shí)現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。

    1. 自然語言處理包括多方面和步驟疾瓮,基本有認(rèn)知、理解、生成等部分。

      • 自然語言理解(NLU):是讓電腦把輸入的語言變成有意思的符號和關(guān)系骗村,然后根據(jù)目的再處理。常見應(yīng)用有分詞类少、詞性標(biāo)注叙身、句法分析、文本分類硫狞、信息檢索信轿、信息抽取、文字校對等残吩。
      • 自然語言生成(NLG):是把計算機(jī)數(shù)據(jù)轉(zhuǎn)化為自然語言财忽。常見應(yīng)用有機(jī)器翻譯、問答系統(tǒng)等泣侮。
    2. 自然語言處理的四大任務(wù)

      1. 序列標(biāo)注

        序列到序列的任務(wù)即彪。在序列標(biāo)注中,我們想對一個序列的每一個元素標(biāo)注一個標(biāo)簽。一般來說隶校,一個序列指的是一個句子漏益,而一個元素指的是句子中的一個詞。具體任務(wù)有分詞深胳、詞性標(biāo)注绰疤、命名實(shí)體標(biāo)注、詞意角色標(biāo)注等舞终。

      2. 文本分類

        序列到類別的任務(wù)轻庆,最常見的是情感分類任務(wù),使用LSTM后接Softmax輸出分類結(jié)果敛劝。

      3. 句子關(guān)系判斷

        判斷兩句話的關(guān)系余爆,比如問答系統(tǒng)中判斷一個問題和一個答案是否匹配,語義相似度匹配中判斷兩句話是否表達(dá)同一個意思等夸盟。

      4. 文本生成

        通常是直接面向普通用戶的系統(tǒng)任務(wù)蛾方。例如機(jī)器翻譯、自動文本摘要上陕、閱讀理解转捕、語音識別、對話系統(tǒng)唆垃、問答系統(tǒng)等五芝。

    3. 自然語言處理的一般流程:獲取語料、文本預(yù)處理辕万、特征工程枢步、特征選擇、模型訓(xùn)練渐尿、模型評估醉途、上線應(yīng)用。

  1. 中文文本預(yù)處理概述

    文本預(yù)處理是自然語言處理中必不可少的一環(huán)砖茸,且選擇什么樣的文本預(yù)處理方法隘擎、處理結(jié)果如何都會對下游的工作效果產(chǎn)生非常大的影響。中文文本預(yù)處理主要有以下幾個環(huán)節(jié):語料清洗凉夯、分詞货葬、詞性標(biāo)注、去停用詞劲够。

    1. 語料清洗

      去除噪音數(shù)據(jù)震桶,僅保留有用數(shù)據(jù)。通常是刪去一些標(biāo)點(diǎn)符號征绎、亂碼等蹲姐,使用正則表達(dá)式就能夠取得很好的效果。

    2. 分詞

      分詞是中文文本預(yù)處理中特有的問題,因?yàn)橹形牟幌裼⒄Z天然地有空格作為分界符〔穸眨現(xiàn)在的分詞方法大概可以分為三個類別:基于字符串匹配的分詞方法忙厌、基于統(tǒng)計的分詞方法和基于理解的分詞方法。

      1. 基于字符串匹配的分詞方法

        又稱機(jī)械分詞方法江咳,它是按照一定的掃描方式將待分詞的句子中的詞條與語料庫中的詞進(jìn)行匹配慰毅,然后返回相應(yīng)的結(jié)果。

        • 正向最大匹配法(從左到右):定義滑動窗口的長度n扎阶,首先取出句子的前n個字符,判斷是否存在于詞庫中婶芭。如果存在东臀,則返回第一個分詞,滑動窗口向后滑動n個位置犀农;如果不存在惰赋,滑動窗口縮小1,判斷前兩個字符是否存在于詞庫呵哨,如果存在赁濒,則返回這個分詞,滑動窗口向后滑動n-1孟害;不存在則繼續(xù)縮小滑動窗口拒炎,直至將整個句子遍歷完。
        • 逆向最大匹配法(從右到左):與正向相同挨务,不同的是從末尾開始遍歷击你。
        • 雙向最大匹配算法:進(jìn)行一次正向,再進(jìn)行一次逆向谎柄。
      2. 基于統(tǒng)計的分詞方法

        在給定大量已經(jīng)分詞的文本的前提下丁侄,利用統(tǒng)計機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律(稱為訓(xùn)練),從而實(shí)現(xiàn)對未知文本的切分朝巫『枰。基于統(tǒng)計的分詞方法從一定程度上可以考慮到語義問題,得到最好的分詞結(jié)果劈猿,主要的統(tǒng)計模型有:N元文法模型(N-gram)拙吉,隱馬爾可夫模型(Hidden Markov Model ,HMM)揪荣,最大熵模型(ME)庐镐,條件隨機(jī)場模型(Conditional Random Fields,CRF)等变逃。

      3. 基于理解的分詞方法

        通過讓計算機(jī)模擬人對句子的理解必逆,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進(jìn)行句法、語義分析名眉,利用句法信息和語義信息來處理歧義現(xiàn)象粟矿。

    3. 詞性標(biāo)注

      在分好詞的基礎(chǔ)上,給每個詞打上詞類標(biāo)簽损拢。

    4. 去停用詞

      建立好停用詞庫之后陌粹,在分好詞的文本基礎(chǔ)上很容易就能夠進(jìn)行停用詞的去除。

  1. 基于統(tǒng)計的中文文本分詞方法

    1. 最大概率分詞方法

      最基本的統(tǒng)計分詞方法福压。一個待分割的字符串有多種分詞結(jié)果掏秩,最大概率分詞的原則是將其中概率最大的那個作為該字符串的分詞結(jié)果。這種分詞方法通常結(jié)合多種機(jī)械分詞方法來進(jìn)行荆姆。

    2. 最大熵模型(ME)

      最大熵模型屬于對數(shù)線性模型蒙幻,在給定訓(xùn)練數(shù)據(jù)的條件下,對模型進(jìn)行極大似然估計或正則化極大似然估計胆筒。

    3. N元文法模型(N-Gram)

      基于馬爾科夫假設(shè)提出的模型邮破。

      • 馬爾科夫假設(shè)一個詞的出現(xiàn)僅與它之前的若干個詞有關(guān)。

      N元語法模型的基本的公式可以看作為概率公式P:P(w_i|w_1w_2……w_{i-1})

      如果一個詞的出現(xiàn)僅依賴于它前面出現(xiàn)的一個詞仆救,那么我們就稱之為 Bi-gram抒和;如果一個詞的出現(xiàn)僅依賴于它前面出現(xiàn)的兩個詞,那么我們就稱之為 Tri-gram彤蔽。在此基礎(chǔ)上使用極大似然估計計算條件概率摧莽。

    4. 隱馬爾可夫模型(HMM)

      • 齊次馬爾科夫性假設(shè):假設(shè)隱藏的馬爾科夫鏈在任意時刻t的狀態(tài)只依賴于其前一時刻的狀態(tài),與其他時刻的狀態(tài)及觀測無關(guān)顿痪,也與時刻t無關(guān)
      • 觀測獨(dú)立性假設(shè):假設(shè)任意時刻的觀測只依賴于該時刻的馬爾科夫鏈的狀態(tài)范嘱,與其他觀測即狀態(tài)無關(guān)

      給定隱馬爾可夫模型λ=[A,B员魏,π]丑蛤,其中\pi為初始狀態(tài)概率,A為狀態(tài)轉(zhuǎn)移概率撕阎,B為觀測概率(b_{ij}表示在任意時刻 t受裹,若狀態(tài)為S_i,則觀測值O_j被獲取的概率)虏束。一旦一個系統(tǒng)可以作為 HMM 被描述棉饶,就可以用來解決三個基本問題。

      • 評估:給定 HMM镇匀,求某個觀察序列的概率照藻。
      • 解碼:給定 HMM,以及某個觀察序列汗侵,求得狀態(tài)序列幸缕。
      • 學(xué)習(xí):給定觀察序列群发,得到一個HMM。

      為了解決分詞問題发乔,可以建立以下的HMM:

      • 狀態(tài)集合:{B:分詞詞首熟妓;M:分詞詞中;E:分詞詞尾栏尚;S:單個詞分詞}
      • 觀測值:一個字就是一個觀測值起愈。
      • 觀測序列:一句話。
      • 初始狀態(tài)概率译仗、狀態(tài)轉(zhuǎn)移概率和觀測概率可以基于以上定義從數(shù)據(jù)集中計算得出抬虽。

      分詞問題就是給定一句話(觀察序列),獲取分詞結(jié)果(狀態(tài)序列)纵菌,可以轉(zhuǎn)化為解碼問題阐污。對于解碼問題,使用維特比算法求解产艾。

    5. 條件隨機(jī)場模型(CRF)

      條件隨機(jī)場模型是隱馬爾可夫模型和對數(shù)線性模型的結(jié)合。

      • 可以看作是分類模型Log-Linear Model加入了HMM中的轉(zhuǎn)移特征(齊次馬爾可夫假設(shè))從而轉(zhuǎn)變成為的結(jié)構(gòu)化分類模型滑绒,從而可以進(jìn)行Seq2Seq的標(biāo)注闷堡。也就是說,對于樣本的預(yù)測不再是相互獨(dú)立的疑故,對于某個樣本的預(yù)測需要考慮前面或者后面樣本預(yù)測的結(jié)果杠览。
      • 也可以看作是生成模型HMM中引入了Log-Linear Model中的自定義特征函數(shù),把它變成了一個判別模型纵势,解決了HMM的輸出獨(dú)立性假設(shè)問題和有限元馬爾可夫假設(shè)問題踱阿, 不僅可以表達(dá)觀測之間的依賴,還可表示當(dāng)前觀測與前后多個狀態(tài)之間的復(fù)雜依賴钦铁。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末软舌,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子牛曹,更是在濱河造成了極大的恐慌佛点,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件黎比,死亡現(xiàn)場離奇詭異超营,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)阅虫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門演闭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人颓帝,你說我怎么就攤上這事米碰∥迅铮” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵见间,是天一觀的道長聊闯。 經(jīng)常有香客問我,道長米诉,這世上最難降的妖魔是什么菱蔬? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮史侣,結(jié)果婚禮上拴泌,老公的妹妹穿的比我還像新娘。我一直安慰自己惊橱,他們只是感情好蚪腐,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著税朴,像睡著了一般回季。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上正林,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天泡一,我揣著相機(jī)與錄音,去河邊找鬼觅廓。 笑死鼻忠,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的杈绸。 我是一名探鬼主播帖蔓,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼瞳脓!你這毒婦竟也來了塑娇?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤劫侧,失蹤者是張志新(化名)和其女友劉穎钝吮,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體板辽,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡奇瘦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了劲弦。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片耳标。...
    茶點(diǎn)故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖邑跪,靈堂內(nèi)的尸體忽然破棺而出次坡,到底是詐尸還是另有隱情呼猪,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布砸琅,位于F島的核電站宋距,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏症脂。R本人自食惡果不足惜谚赎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望诱篷。 院中可真熱鬧壶唤,春花似錦、人聲如沸棕所。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽琳省。三九已至迎吵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間针贬,已是汗流浹背击费。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坚踩,地道東北人荡灾。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓瓤狐,卻偏偏與公主長得像瞬铸,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子础锐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容