第一章 緒論
第一章內(nèi)容主要是NLP中的各種概念及方法的介紹钧唐。
1.1 基本概念
-
語言:語言是一個符號系統(tǒng)揖盘,通常用一些記號(如漢字)來表示须喂。
- 語言是一個系統(tǒng)贴硫,因為語言能表達意義(知識),并且具有一定的規(guī)則(語法)目派。
- 語言的第一系統(tǒng)是語音系統(tǒng)坤候,第二系統(tǒng)是文字系統(tǒng)。
- 語言的單位有:字符企蹭、詞白筹、短語、句子谅摄、語段或篇章徒河。
-
自然語言:人類獨有的、用任意創(chuàng)造出來的符號系統(tǒng)交流思想送漠、表達感情和愿望的非本能方法顽照。
- 自然語言指人類使用的語言,如漢語闽寡、英語等代兵。
-
自然語言理解:通過建立形式化的數(shù)學模型來分析、處理自然語言爷狈,并在計算機上用程序來實現(xiàn)分析和處理(自然語言)的過程植影,從而達到以機器(計算機)來模擬人的部分乃至全部語言能力的目的。
- 與NLU密切相關的一門學科是計算語言學(Computational Linguistics)涎永,不過計算語言學更側重于研究自然語言的計算模型(數(shù)學模型)思币。
-
自然語言處理:自然語言處理就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術。
- 自然語言處理要研制表示語言能力和語言應用(linguistic performance)的模型土辩,建立計算框架來實現(xiàn)這樣的語言模型支救,提出相應的方法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設計各種實用系統(tǒng)拷淘,并探討這些實用系統(tǒng)的評測技術各墨。
- 從微觀上講,指從自然語言到機器內(nèi)部之間的一種映射启涯;從宏觀上講贬堵,指機器能夠執(zhí)行人類所期望的某些語言功能恃轩,包括問答系統(tǒng)、機器翻譯黎做、從材料中獲取摘要等叉跛。
1.2 自然語言處理的研究內(nèi)容和面臨的困難
- 自然語言處理的研究方向:機器翻譯、自動文摘蒸殿、信息檢索筷厘、文檔分類、問答系統(tǒng)宏所、信息過濾酥艳、信息抽取、文本挖掘爬骤、輿情分析充石、隱喻計算、文字編輯和自動校對霞玄、作文自動評分骤铃、光讀字符識別、語音識別坷剧、文語轉換惰爬、說話人識別/認證/驗證。
-
自然語言處理涉及的幾個層次:自然語言處理一般會涉及自然語言的形態(tài)學惫企、語法學补鼻、語義學和語用學等幾個層次。
- 形態(tài)學(詞法):研究詞的內(nèi)部結構雅任,包括屈折變化和構詞法兩個部分。(詞的不同形式對句法和語義的影響)
- 語法學:研究句子結構成分之間的相互關系和組成句子序列的規(guī)則咨跌。(為什么一句話可以這么說沪么,也可以那么說?)
- 語義學:研究如何從一個語句中詞的意義锌半,以及這些詞在該語句中句法結構中的作用來推導出該語句的意義禽车。(這個語言單位到底說了什么?)
- 語用學:研究在不同上下文中的語句的應用刊殉,以及上下文對語句理解所產(chǎn)生的影響殉摔。(為什么在特定的上下文中要說這句話?)
-
自然語言處理面臨的困難:大量歧義現(xiàn)象和未知語言現(xiàn)象记焊。
-
歧義現(xiàn)象:自然語言中存在大量歧義現(xiàn)象逸月,無論是在詞法、句法遍膜,還是在語義和語用層次碗硬。任何一個自然語言處理系統(tǒng)瓤湘,都無法回避歧義消解問題。
- 詞法歧義:自動化/研究所/取得/的/成就恩尾;自動化/研究/所/取得/的/成就
- 結構歧義:今天中午吃<u>饅頭</u>弛说;今天中午吃<u>食堂</u>
- 語義歧義:她這個人真有<u>意思(funny)</u>;你們這么說是什么<u>意思(intention)</u>
- 語音歧義:石室詩士施氏翰意,嗜獅木人,誓食十獅
- 未知語言現(xiàn)象:自然語言中存在未知的語言現(xiàn)象,包括新的詞匯(人名冀偶、地名醒第、術語等)、新的含義蔫磨、新的用法和語句結構等淘讥。
-
歧義現(xiàn)象:自然語言中存在大量歧義現(xiàn)象逸月,無論是在詞法、句法遍膜,還是在語義和語用層次碗硬。任何一個自然語言處理系統(tǒng)瓤湘,都無法回避歧義消解問題。
1.3 自然語言處理的基本方法
目前自然語言處理的研究從大的角度可分為兩類方法:理性主義與經(jīng)驗主義方法。
-
理性主義方法:理性主義方法主張建立符號處理系統(tǒng)堤如,由人工整理和編寫初始的語言知識表示體系(規(guī)則)蒲列,構造相應的推理程序,系統(tǒng)根據(jù)規(guī)則和程序搀罢,將自然語言理解為符號結構蝗岖。
- 詞法分析器按照人編寫的詞法規(guī)則對輸入句子的單詞進行詞法分析
- 語法分析器根據(jù)人設計的語法規(guī)則對輸入句子進行語法結構分析
- 根據(jù)一套變換規(guī)則將語法規(guī)則映射到語義符號
- 經(jīng)驗主義方法:經(jīng)驗主義方法主張通過建立特定的數(shù)學模型來學習復雜的、廣泛的語言結構榔至,然后利用統(tǒng)計學抵赢、模式識別和機器學習等方法來訓練模型的參數(shù),以擴大語言使用的規(guī)模唧取。
-
理性主義與經(jīng)驗主義方法的分歧:
- 對語言知識來源的不同認識
- 理性主義:認為人的很大一部分語言知識是與生俱來的铅鲤。
- 經(jīng)驗主義:認為人的語言知識是通過感觀輸入,經(jīng)過一些簡單的聯(lián)想與通用化(泛化)的操作而得到的枫弟。
- 研究對象的差異
- 理性主義:研究人的語言知識結構(語言能力)邢享,實際的語言數(shù)據(jù)(語言行為)只提供了這種內(nèi)在知識的間接證據(jù)。
- 經(jīng)驗主義:直接研究這些實際的語言數(shù)據(jù)淡诗。
- 運用不同的理論
- 理性主義:通崇猿耍基于Chomsky的語言原則砾莱,通過語言所必須遵守的一系列原則來描述語言。
- 經(jīng)驗主義:通常是基于Shannon的信息論、概率統(tǒng)計等唐含。
- 采用不同的處理方法
- 理性主義:通常通過一些特殊的語句或語言現(xiàn)象的研究來得到對人的語言能力的認識稠茂,而這些語句和語言現(xiàn)象在實際的應用中并不常見钳恕。
- 經(jīng)驗主義:偏重于對大規(guī)模語言數(shù)據(jù)中人們所實際使用的普通語句的統(tǒng)計炼彪。
- 對語言知識來源的不同認識
第二章 形式語言與自動機
第二章內(nèi)容主要是幾種喬姆斯基文法和自動機以及它們之間的關系。
2.1 基本概念
- 圖:無向圖请梢、有向圖递惋、連通圖柔滔、回路
- 樹:無回路的連通無向圖
- 森林:無回路的無向圖
-
字符串:字符相連而成的有限序列
- 兩種基本運算:連接、閉包
2.2 形式語言
-
描述一種語言的三種途徑:
- 窮舉法:把語言中所有句子枚舉出來萍虽。(只適用于句子數(shù)目有限的語言)
-
文法描述:利用規(guī)則生成語言中合法的句子睛廊,語言中每個句子都用嚴格的規(guī)則來構造。
- 文法用來精確的描述語言和其結構杉编。
-
自動機法:給出識別該語言中句子的機械方法超全。
- 自動機用于機械地刻畫對輸入字符串的識別過程。
-
形式文法:形式文法是一個四元組邓馒。
- :終結符的有限集合(句子中實際出現(xiàn)的符號的集合嘶朱,或單詞表)
- :非終結符的有限集合(在句子中不實際出現(xiàn),但在推導中起變量作用)
- :起始符(屬于非終結符)
- :一組重寫規(guī)則的有限集合(光酣,其中和是由中元素構成的串疏遏,中至少含有一個非終結符)
- 形式文法推導:見《統(tǒng)計自然語言處理(第2版)》P36。
-
喬姆斯基文法:
- 喬姆斯基3型文法(正則文法):文法的規(guī)則集中的所有規(guī)則均滿足救军,其中财异,。
- 喬姆斯基2型文法(上下文無關文法):文法的規(guī)則集中的所有規(guī)則均滿足唱遭,其中戳寸,是任意串,即拷泽。
- 喬姆斯基1型文法(上下文有關文法):文法的規(guī)則集中的所有規(guī)則均滿足疫鹊,其中、和是任意串且至少包含一個字符司致,即拆吆,。
- 喬姆斯基0型文法(無約束文法):文法的規(guī)則集中的所有規(guī)則均滿足脂矫,其中锈拨、是任意串且至少包含一個字符,即羹唠,。
- 范疇文法:見《范疇語法》(馮志偉)娄昆。
-
用什么文法來描述自然語言佩微?
- 正則語法描述能力太弱、上下文有關語法計算復雜度太高萌焰,上下文無關語法使用最為普遍
- 從描述能力上說哺眯,上下文無關語法不足以描述自然語言(自然語言中上下文相關的情況非常常見)
- 從計算復雜度來說,上下文無關語法的復雜度是多項式的扒俯,其復雜度可以忍受
- 為彌補上下文無關語法描述能力的不足奶卓,需要加上一些其他手段擴充其描述能力
2.3 自動機理論
文法一疯、語言與自動機之間的對應關系:
文法類型 | 自動機 | 語言 | 復雜度 | |
---|---|---|---|---|
0型 | 無約束文法 | 圖靈機 | 遞歸可枚舉語言 | 半可判定 |
1型 | 上下文有關文法 | 線性有界自動機 | 上下文有關語言 | NP完全 |
2型 | 上下文無關文法 | 下推自動機 | 上下文無關語言 | 多項式 |
3型 | 正則文法 | 有限自動機 | 正則語言 | 線形 |
詳見《統(tǒng)計自然語言處理(第2版)》P39。
第三章 句法分析
自頂向下分析法夺姑、自底向上分析法墩邀、轉移網(wǎng)絡文法、自頂向下線圖分析法
LR分析算法盏浙、GLR分析算法
詳見PPT上內(nèi)容
第四章 統(tǒng)計語言模型
包括N-gram眉睹、困惑度、數(shù)據(jù)平滑(加一平滑废膘、減值法/折扣法竹海、Good Turing、線性插值(Jelinek-Mercer)丐黄、回退式數(shù)據(jù)平滑(Katz))
4.1 n元語法
-
語言模型:一般構建為字符串的概率分布斋配。
- 與語言學中不同,語言模型與句子是否合乎語法沒有關系灌闺。
- 對于一個由個基元構成的句子艰争,其概率計算公式可以表示為
-
n元語法:按照語言模型的基本定義,模型參數(shù)數(shù)量較大菩鲜,于是引入Markov假設(一個詞的出現(xiàn)僅與它之前的若干個詞有關)园细。
- n元文法模型相當于n-1階Markov鏈(詞的出現(xiàn)僅與其前面的n-1個詞有關)。
- n的取值不能太大接校,否則仍然會出現(xiàn)參數(shù)過多的問題(一般取n=3的情況較多)猛频。
- 更大的n:對下一個詞出現(xiàn)的約束性信息更多,更大的辨別力蛛勉。
- 更小的n:在訓練語料庫中出現(xiàn)的次數(shù)更多鹿寻,更可靠的統(tǒng)計結果,更高的可靠性诽凌。
-
例子:
- 二元文法模型(Bi-gram):
- 三元文法模型(Tri-gram):
- 詳見《統(tǒng)計自然語言處理(第2版)》P83-84毡熏。
4.2 語言模型性能評價
-
交叉熵:衡量估計模型與真實概率分布之間的差異情況。
- 先按照n-gram模型計算句子的概率
- 對于句子構成的測試集侣诵,通過計算中所有句子概率的乘積來計算測試集的概率
- 測試集上模型的的交叉熵定義為痢法,其中是以詞為度量單位的文本的長度(可以包括句首詞<BOS>或句尾詞<EOS>)
-
困惑度:測試集中每一個詞匯的概率的幾何平均值的倒數(shù)。(給測試集的句子賦予較高概率值的語言模型較好)
- 與交叉熵的關系
- 顯然杜顺,困惑度與交叉熵都是越小越好财搁。詳見《統(tǒng)計自然語言處理(第2版)》P85-86。
4.3 數(shù)據(jù)平滑
- 零概率問題:對于大量低頻詞躬络,無論訓練數(shù)據(jù)的規(guī)模如何擴大尖奔,其出現(xiàn)頻度仍舊很低甚至根本不出現(xiàn)。如果采用最大似然估計(MLE)估算它們的概率分布,將出現(xiàn)大量的提茁,從而導致的情況淹禾,這種情況大大削弱了該模型的描述能力。
- 數(shù)據(jù)平滑的基本思想:平滑處理的基本思想是“劫富濟貧”茴扁,即提高低概率(如零概率)铃岔,降低高概率,盡量使概率分布趨于均勻丹弱。
-
加法平滑:假設每一個n元語法出現(xiàn)的次數(shù)比實際出現(xiàn)的次數(shù)多次德撬,且。
- 當的時候就是加1平滑
-
Good-Turing估計法:對于任意一個出現(xiàn)次的n元語法躲胳,假設它出現(xiàn)了次蜓洪,其中是恰好出現(xiàn)次的n元語法的數(shù)目。
- 對于統(tǒng)計數(shù)為的n元語法坯苹,其概率為隆檀,其中
-
回退數(shù)據(jù)平滑:當頻次大于某一數(shù)值時,運用最大似然估計法粹湃;當事件頻次小于時恐仑,使用低階的語法模型作為代替高階語法模型的后備。
- 減值法:修改訓練樣本中事件的實際計數(shù)为鳄,使樣本中(實際出現(xiàn)的)不同事件的概率之和小于1裳仆,剩余的概率量分配給未見概率。
-
線性插值法:用低階的n元模型向高階n元模型插值進行線性插值孤钦。
第五章 特征與擴充文法
未完歧斟。。偏形。