自然語言處理 - 期末復習總結

第一章緒論

第一章內(nèi)容主要是NLP中的各種概念及方法的介紹钧唐。

1.1 基本概念

語言：語言是一個符號系統(tǒng)揖盘，通常用一些記號（如漢字）來表示须喂。
- 語言是一個系統(tǒng)贴硫，因為語言能表達意義(知識)，并且具有一定的規(guī)則(語法)目派。
- 語言的第一系統(tǒng)是語音系統(tǒng)坤候，第二系統(tǒng)是文字系統(tǒng)。
- 語言的單位有：字符企蹭、詞白筹、短語、句子谅摄、語段或篇章徒河。
自然語言：人類獨有的、用任意創(chuàng)造出來的符號系統(tǒng)交流思想送漠、表達感情和愿望的非本能方法顽照。
- 自然語言指人類使用的語言，如漢語闽寡、英語等代兵。
自然語言理解：通過建立形式化的數(shù)學模型來分析、處理自然語言爷狈，并在計算機上用程序來實現(xiàn)分析和處理(自然語言)的過程植影，從而達到以機器(計算機)來模擬人的部分乃至全部語言能力的目的。
- 與NLU密切相關的一門學科是計算語言學(Computational Linguistics)涎永，不過計算語言學更側重于研究自然語言的計算模型(數(shù)學模型)思币。
自然語言處理：自然語言處理就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術。
- 自然語言處理要研制表示語言能力和語言應用(linguistic performance)的模型土辩，建立計算框架來實現(xiàn)這樣的語言模型支救，提出相應的方法來不斷地完善這樣的語言模型，根據(jù)這樣的語言模型設計各種實用系統(tǒng)拷淘，并探討這些實用系統(tǒng)的評測技術各墨。
- 從微觀上講，指從自然語言到機器內(nèi)部之間的一種映射启涯；從宏觀上講贬堵，指機器能夠執(zhí)行人類所期望的某些語言功能恃轩，包括問答系統(tǒng)、機器翻譯黎做、從材料中獲取摘要等叉跛。

1.2 自然語言處理的研究內(nèi)容和面臨的困難

自然語言處理的研究方向：機器翻譯、自動文摘蒸殿、信息檢索筷厘、文檔分類、問答系統(tǒng)宏所、信息過濾酥艳、信息抽取、文本挖掘爬骤、輿情分析充石、隱喻計算、文字編輯和自動校對霞玄、作文自動評分骤铃、光讀字符識別、語音識別坷剧、文語轉換惰爬、說話人識別/認證/驗證。
自然語言處理涉及的幾個層次：自然語言處理一般會涉及自然語言的形態(tài)學惫企、語法學补鼻、語義學和語用學等幾個層次。
- 形態(tài)學(詞法)：研究詞的內(nèi)部結構雅任，包括屈折變化和構詞法兩個部分。(詞的不同形式對句法和語義的影響)
- 語法學：研究句子結構成分之間的相互關系和組成句子序列的規(guī)則咨跌。(為什么一句話可以這么說沪么，也可以那么說？)
- 語義學：研究如何從一個語句中詞的意義锌半，以及這些詞在該語句中句法結構中的作用來推導出該語句的意義禽车。(這個語言單位到底說了什么？)
- 語用學：研究在不同上下文中的語句的應用刊殉，以及上下文對語句理解所產(chǎn)生的影響殉摔。（為什么在特定的上下文中要說這句話？）
自然語言處理面臨的困難：大量歧義現(xiàn)象和未知語言現(xiàn)象记焊。
- 歧義現(xiàn)象：自然語言中存在大量歧義現(xiàn)象逸月，無論是在詞法、句法遍膜，還是在語義和語用層次碗硬。任何一個自然語言處理系統(tǒng)瓤湘，都無法回避歧義消解問題。
 - 詞法歧義：自動化/研究所/取得/的/成就恩尾；自動化/研究/所/取得/的/成就
 - 結構歧義：今天中午吃饅頭弛说；今天中午吃食堂
 - 語義歧義：她這個人真有意思(funny)；你們這么說是什么意思(intention)
 - 語音歧義：石室詩士施氏翰意，嗜獅木人，誓食十獅
- 未知語言現(xiàn)象：自然語言中存在未知的語言現(xiàn)象，包括新的詞匯(人名冀偶、地名醒第、術語等)、新的含義蔫磨、新的用法和語句結構等淘讥。

1.3 自然語言處理的基本方法

目前自然語言處理的研究從大的角度可分為兩類方法：理性主義與經(jīng)驗主義方法。

理性主義方法：理性主義方法主張建立符號處理系統(tǒng)堤如，由人工整理和編寫初始的語言知識表示體系（規(guī)則）蒲列，構造相應的推理程序，系統(tǒng)根據(jù)規(guī)則和程序搀罢，將自然語言理解為符號結構蝗岖。
1. 詞法分析器按照人編寫的詞法規(guī)則對輸入句子的單詞進行詞法分析
2. 語法分析器根據(jù)人設計的語法規(guī)則對輸入句子進行語法結構分析
3. 根據(jù)一套變換規(guī)則將語法規(guī)則映射到語義符號
經(jīng)驗主義方法：經(jīng)驗主義方法主張通過建立特定的數(shù)學模型來學習復雜的、廣泛的語言結構榔至，然后利用統(tǒng)計學抵赢、模式識別和機器學習等方法來訓練模型的參數(shù)，以擴大語言使用的規(guī)模唧取。
理性主義與經(jīng)驗主義方法的分歧：
1. 對語言知識來源的不同認識
  - 理性主義：認為人的很大一部分語言知識是與生俱來的铅鲤。
  - 經(jīng)驗主義：認為人的語言知識是通過感觀輸入，經(jīng)過一些簡單的聯(lián)想與通用化(泛化)的操作而得到的枫弟。
2. 研究對象的差異
  - 理性主義：研究人的語言知識結構(語言能力)邢享，實際的語言數(shù)據(jù)(語言行為)只提供了這種內(nèi)在知識的間接證據(jù)。
  - 經(jīng)驗主義：直接研究這些實際的語言數(shù)據(jù)淡诗。
3. 運用不同的理論
  - 理性主義：通崇猿耍基于Chomsky的語言原則砾莱，通過語言所必須遵守的一系列原則來描述語言。
  - 經(jīng)驗主義：通常是基于Shannon的信息論、概率統(tǒng)計等唐含。
4. 采用不同的處理方法
  - 理性主義：通常通過一些特殊的語句或語言現(xiàn)象的研究來得到對人的語言能力的認識稠茂，而這些語句和語言現(xiàn)象在實際的應用中并不常見钳恕。
  - 經(jīng)驗主義：偏重于對大規(guī)模語言數(shù)據(jù)中人們所實際使用的普通語句的統(tǒng)計炼彪。

第二章形式語言與自動機

第二章內(nèi)容主要是幾種喬姆斯基文法和自動機以及它們之間的關系。

2.1 基本概念

圖：無向圖请梢、有向圖递惋、連通圖柔滔、回路
樹：無回路的連通無向圖
森林：無回路的無向圖
字符串：字符相連而成的有限序列
- 兩種基本運算：連接、閉包

2.2 形式語言

描述一種語言的三種途徑：
- 窮舉法：把語言中所有句子枚舉出來萍虽。(只適用于句子數(shù)目有限的語言)
- 文法描述：利用規(guī)則生成語言中合法的句子睛廊，語言中每個句子都用嚴格的規(guī)則來構造。
  - 文法用來精確的描述語言和其結構杉编。
- 自動機法：給出識別該語言中句子的機械方法超全。
  - 自動機用于機械地刻畫對輸入字符串的識別過程。
形式文法：形式文法是一個四元組邓馒。
- $V_T$ ：終結符的有限集合（句子中實際出現(xiàn)的符號的集合嘶朱，或單詞表）
- $V_N$ ：非終結符的有限集合（在句子中不實際出現(xiàn)，但在推導中起變量作用）
- $S$ ：起始符（屬于非終結符）
- $P$ ：一組重寫規(guī)則的有限集合（ $P=\{\alpha\to\beta\}$ 光酣，其中 $\alpha$ 和 $\beta$ 是由 $V=V_T \cap V_N$ 中元素構成的串疏遏， $\alpha$ 中至少含有一個非終結符）
形式文法推導：見《統(tǒng)計自然語言處理(第2版)》P36。
喬姆斯基文法：
- 喬姆斯基3型文法(正則文法)：文法 $G$ 的規(guī)則集 $P$ 中的所有規(guī)則均滿足 $A \to Bx$ 救军，其中 $A,B \in V_N$ 财异， $x \in V_T$ 。
- 喬姆斯基2型文法(上下文無關文法)：文法 $G$ 的規(guī)則集 $P$ 中的所有規(guī)則均滿足 $A \to \alpha$ 唱遭，其中 $A \in V_N$ 戳寸， $\alpha$ 是任意串，即 $\alpha \in (V_T \cup V_N)^{*}$ 拷泽。
- 喬姆斯基1型文法(上下文有關文法)：文法 $G$ 的規(guī)則集 $P$ 中的所有規(guī)則均滿足 $\alpha A \beta \to \alpha\gamma\beta$ 疫鹊，其中 $\alpha$ 、 $\beta$ 和 $\gamma$ 是任意串且 $\gamma$ 至少包含一個字符司致，即 $\alpha, \beta \in (V_T \cup V_N)^{*}$ 拆吆， $\gamma \in (V_T \cup V_N)^{+}$ 。
- 喬姆斯基0型文法(無約束文法)：文法 $G$ 的規(guī)則集 $P$ 中的所有規(guī)則均滿足 $\alpha \to \beta$ 脂矫，其中 $\alpha$ 锈拨、 $\beta$ 是任意串且 $\beta$ 至少包含一個字符，即 $\alpha \in (V_T \cup V_N)^{*}$ 羹唠， $\beta \in (V_T \cup V_N)^{+}$ 。
范疇文法：見《范疇語法》(馮志偉)娄昆。
用什么文法來描述自然語言佩微？
- 正則語法描述能力太弱、上下文有關語法計算復雜度太高萌焰，上下文無關語法使用最為普遍
- 從描述能力上說哺眯，上下文無關語法不足以描述自然語言（自然語言中上下文相關的情況非常常見）
- 從計算復雜度來說，上下文無關語法的復雜度是多項式的扒俯，其復雜度可以忍受
- 為彌補上下文無關語法描述能力的不足奶卓，需要加上一些其他手段擴充其描述能力

2.3 自動機理論

文法一疯、語言與自動機之間的對應關系：

	文法類型	自動機	語言	復雜度
0型	無約束文法	圖靈機	遞歸可枚舉語言	半可判定
1型	上下文有關文法	線性有界自動機	上下文有關語言	NP完全
2型	上下文無關文法	下推自動機	上下文無關語言	多項式
3型	正則文法	有限自動機	正則語言	線形

詳見《統(tǒng)計自然語言處理(第2版)》P39。

第三章句法分析

自頂向下分析法夺姑、自底向上分析法墩邀、轉移網(wǎng)絡文法、自頂向下線圖分析法

LR分析算法盏浙、GLR分析算法

詳見PPT上內(nèi)容

第四章統(tǒng)計語言模型

包括N-gram眉睹、困惑度、數(shù)據(jù)平滑（加一平滑废膘、減值法/折扣法竹海、Good Turing、線性插值(Jelinek-Mercer)丐黄、回退式數(shù)據(jù)平滑(Katz)）

4.1 n元語法

語言模型：一般構建為字符串的概率分布斋配。
- 與語言學中不同，語言模型與句子是否合乎語法沒有關系灌闺。
- 對于一個由 $l$ 個基元構成的句子 $s=w_1 w_2 w_3 \cdots w_l$ 艰争，其概率計算公式可以表示為 $\begin{eqnarray*} p(s) &=& p(w_1)p(w_2|w_1)p(w_3|w_1 w_2) \cdots p(w_l|w_1 w_2 w_3 \cdots w_{l-1}) \\ &=& \prod_{i=1}^{l} p(w_i|w_1 \cdots w_{i-1}) \end{eqnarray*}$
n元語法：按照語言模型的基本定義，模型參數(shù)數(shù)量較大菩鲜，于是引入Markov假設（一個詞的出現(xiàn)僅與它之前的若干個詞有關）园细。
- n元文法模型相當于n-1階Markov鏈（詞 $w_i$ 的出現(xiàn)僅與其前面的n-1個詞有關）。
- n的取值不能太大接校，否則仍然會出現(xiàn)參數(shù)過多的問題（一般取n=3的情況較多）猛频。
  - 更大的n：對下一個詞出現(xiàn)的約束性信息更多，更大的辨別力蛛勉。
  - 更小的n：在訓練語料庫中出現(xiàn)的次數(shù)更多鹿寻，更可靠的統(tǒng)計結果，更高的可靠性诽凌。
- 例子：
  - 二元文法模型(Bi-gram)： $p(s) = \prod_{i=1}^{l} p(w_i|w_1 \cdots w_{i-1}) \approx \prod_{i=1}^{l} p(w_i|w_{i-1})$
  - 三元文法模型(Tri-gram)： $p(s) = \prod_{i=1}^{l} p(w_i|w_1 \cdots w_{i-1}) \approx \prod_{i=1}^{l} p(w_i|w_{i-2} w_{i-1})$
- 詳見《統(tǒng)計自然語言處理(第2版)》P83-84毡熏。

4.2 語言模型性能評價

交叉熵：衡量估計模型與真實概率分布之間的差異情況。
- 先按照n-gram模型計算句子的概率 $p(s)$
- 對于句子 $(t_1,t_2, \cdots ,t_{l_t})$ 構成的測試集 $T$ 侣诵，通過計算 $T$ 中所有句子概率的乘積來計算測試集的概率 $p(T)=\prod_{i=1}^{l_T} p(t_i)$
- 測試集 $T$ 上模型 $p(w_i|w_{i-n+1}^{i-1})$ 的的交叉熵定義為 $H_p(T)=-\frac{1}{W_T}log_2p(T)$ 痢法，其中 $W_T$ 是以詞為度量單位的文本 $T$ 的長度(可以包括句首詞<BOS>或句尾詞<EOS>)
困惑度：測試集中每一個詞匯的概率的幾何平均值的倒數(shù)。（給測試集的句子賦予較高概率值的語言模型較好）
- 與交叉熵的關系 ${PP}_T(T)=2^{H_P(T)}$
顯然杜顺，困惑度與交叉熵都是越小越好财搁。詳見《統(tǒng)計自然語言處理(第2版)》P85-86。

4.3 數(shù)據(jù)平滑

零概率問題：對于大量低頻詞躬络，無論訓練數(shù)據(jù)的規(guī)模如何擴大尖奔，其出現(xiàn)頻度仍舊很低甚至根本不出現(xiàn)。如果采用最大似然估計(MLE)估算它們的概率分布，將出現(xiàn)大量的 $p(w_i|w_{i-n+1}^{i-1})=0$ 提茁，從而導致 $p(s)=0$ 的情況淹禾，這種情況大大削弱了該模型的描述能力。
數(shù)據(jù)平滑的基本思想：平滑處理的基本思想是“劫富濟貧”茴扁，即提高低概率（如零概率）铃岔，降低高概率，盡量使概率分布趨于均勻丹弱。
加法平滑：假設每一個n元語法出現(xiàn)的次數(shù)比實際出現(xiàn)的次數(shù)多次德撬，且。
- 當 $\delta=1$ 的時候就是加1平滑
Good-Turing估計法：對于任意一個出現(xiàn)次的n元語法躲胳，假設它出現(xiàn)了次蜓洪，其中是恰好出現(xiàn)次的n元語法的數(shù)目。
- 對于統(tǒng)計數(shù)為 $r$ 的n元語法坯苹，其概率為 $p_r=\frac{r^*}{N}$ 隆檀，其中 $N=\sum_{r=0}^{\infty}n_rr^*=\sum_{r=0}^{\infty}(r+1)n_{r+1}=\sum_{r=1}^{\infty}n_rr$
回退數(shù)據(jù)平滑：當頻次大于某一數(shù)值時，運用最大似然估計法粹湃；當事件頻次小于時恐仑，使用低階的語法模型作為代替高階語法模型的后備。
- 回退數(shù)據(jù)平滑
減值法：修改訓練樣本中事件的實際計數(shù)为鳄，使樣本中(實際出現(xiàn)的)不同事件的概率之和小于1裳仆，剩余的概率量分配給未見概率。
線性插值法：用低階的n元模型向高階n元模型插值進行線性插值孤钦。
- 線性插值法

第五章特征與擴充文法

未完歧斟。。偏形。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末静袖，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子俊扭，更是在濱河造成了極大的恐慌队橙，老刑警劉巖，帶你破解...
沈念sama閱讀 212,454評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件萨惑，死亡現(xiàn)場離奇詭異捐康，居然都是意外死亡，警方通過查閱死者的電腦和手機庸蔼，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,553評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門解总，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人朱嘴，你說我怎么就攤上這事。” “怎么了萍嬉？”我有些...
開封第一講書人閱讀 157,921評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵乌昔，是天一觀的道長。經(jīng)常有香客問我壤追，道長磕道，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,648評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任行冰，我火速辦了婚禮溺蕉，結果婚禮上，老公的妹妹穿的比我還像新娘悼做。我一直安慰自己疯特，他們只是感情好，可當我...
茶點故事閱讀 65,770評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布肛走。她就那樣靜靜地躺著漓雅，像睡著了一般。火紅的嫁衣襯著肌膚如雪朽色。梳的紋絲不亂的頭發(fā)上邻吞，一...
開封第一講書人閱讀 49,950評論 1贊 291
城市分裂傳說
那天，我揣著相機與錄音葫男，去河邊找鬼抱冷。笑死，一個胖子當著我的面吹牛梢褐，可吹牛的內(nèi)容都是我干的旺遮。我是一名探鬼主播，決...
沈念sama閱讀 39,090評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼利职，長吁一口氣：“原來是場噩夢啊……” “哼趣效！你這毒婦竟也來了？” 一聲冷哼從身側響起猪贪，我...
開封第一講書人閱讀 37,817評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤跷敬，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后热押，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體西傀，經(jīng)...
沈念sama閱讀 44,275評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,592評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年桶癣，在試婚紗的時候發(fā)現(xiàn)自己被綠了拥褂。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,724評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡牙寞，死狀恐怖饺鹃，靈堂內(nèi)的尸體忽然破棺而出莫秆，到底是詐尸還是另有隱情，我是刑警寧澤悔详，帶...
沈念sama閱讀 34,409評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布镊屎，位于F島的核電站，受9級特大地震影響茄螃，放射性物質(zhì)發(fā)生泄漏缝驳。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,052評論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一归苍、第九天我趴在偏房一處隱蔽的房頂上張望用狱。院中可真熱鬧，春花似錦拼弃、人聲如沸夏伊。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,815評論 0贊 21
一樁弒父案肴敛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽署海。三九已至，卻和暖如春医男，著一層夾襖步出監(jiān)牢的瞬間砸狞，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,043評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工镀梭，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刀森，地道東北人。一個月前我還...
沈念sama閱讀 46,503評論 2贊 361
代替公主和親
正文我出身青樓报账，卻偏偏與公主長得像研底，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子透罢，可洞房花燭夜當晚...
茶點故事閱讀 43,627評論 2贊 350