《自然語言處理》整理

References:

  • 《speech and language processing 》2nd & 3rd
  • 《統(tǒng)計自然語言處理》第二版

2017.9.2 補充
最近有一個觀點愈發(fā)明晰: 深度學習模型只能作為統(tǒng)計學的模型, 用于建模所給的數據的分布. 無論是辨別式任務還是生成式任務. 這遠不能稱作是"智能". 人類在做出一系列判斷和創(chuàng)作時, 不是僅依賴于以往的數據(至少能稱得上是智能的行為不是).
而現實情況是, 統(tǒng)計學上的概率對個體的參考價值很小. 條件分布情況根據條件的變化差別非常巨大. 個體的條件是確定的, 而所能參考的統(tǒng)計學概率是沒有考慮(也無法考慮)那么多精細條件的. 所以做出的判斷其實是對自身情況做出的判斷, 而那是已經確定的(甚至是可以改變的). 舉個例子: 你在猶豫手頭的論文是投會議A還是會議B(假設只能選擇一個), 所以你只能參考哪個會議的接受率高投哪個, 例如說投A的接受率大. 后來你想想這個決策太粗糙, 于是進一步考慮每一個會議中你所寫的方向的中稿率. 這時候就增加了這一個條件, 概率分布就很可能發(fā)生巨大變化, 變成了投B接受率大.你又覺得還可以進一步增加條件, 比如你論文中使用了一些對比方法, 使用這些方法的論文的中稿率怎么樣. 結果你發(fā)現樣本太少了, 置信度太低了... 現在的人工智能模型也面臨這樣的困境. 然而你最后發(fā)現, 中不中稿和你前面設想的一切都沒有關系, 和你科研能力才有直接關系, 這就是統(tǒng)計上的相關性并無法描述因果性. 現在你對論文改進一下思路, 增加兩個創(chuàng)新點就可能直接由被拒到被接收, 而這根本無法從統(tǒng)計上表現出來(所以說統(tǒng)計對于個體的參考價值極為有限).
當然也有很多任務不需要這么精細的條件和因果推理機制, 目前的深度學習已經表現的很好.


2017年7月25日 補充
自然語言處理應該分為兩個方向湖饱,一個是以理解語言為基礎的場景語言處理;另一個是大數據為基礎的語料模式分析吮便。
前者是微觀下的精細操作铛铁,后者是宏觀下的語料分析。
為什么要明確做出區(qū)分灾常?因為這兩種方向的任務解決思路有很大不同:

  1. 信息來源
    也就是條件分布夭咬。場景語言處理需要大量借助語言链峭、文本之外的信息着绊,可以是常識谐算、環(huán)境、場景归露、時代洲脂、對象等信息來源。語言在此類任務中信息熵比較大(也就是很多省略)
    語料分析一般不需要文本之外的信息剧包,只要提供語料種類就行恐锦。因為是大量文本雇毫,因此分析方法不應該是以理解每一句話為基礎,而是以數據挖掘為基礎踩蔚,否則的話就好像拿著米尺去丈量國土面積一樣,雖然更精確枚粘,但是不高效馅闽。

  2. 信息處理思路
    數據挖掘方法就好像視覺系統(tǒng),關注整體結構馍迄,忽略局部細節(jié)福也。如果不明確任務方向,就會有希望用粗糙的觀察來精細理解語言的錯誤指導思想攀圈。

數據挖掘方法在文本上的局限性

局限性不是說沒有效果暴凑,而是不能完美解決。在概率論部分已經說民過:不確定的存在是因為信息不足赘来。至少目前的數據挖掘方法用在文本上现喳,正確率在一個難以接受的百分比上很難再提升了(很多任務在標準測試上85%都達不到)。改進的途徑當然是信息的提取方式犬辰。不過語言微觀對宏觀的影響導致了的其特殊:

  1. 文本是基于邏輯的嗦篱,是一個離散表征系統(tǒng),微妙的變化幌缝,如位置灸促、代詞等,會在宏觀上產生巨大的影響涵卵,比如一句話態(tài)度轉變浴栽。而很難想象圖片上幾個像素點對種類存在巨大影響
  2. 信息難以提取。圖片是用像素點分布的表達信息轿偎,對于分類來說典鸡,信息的分布特征決定種類;文本贴硫,即使是篇章級別的分類椿每,數據太少(離散表征性質),傳統(tǒng)的基于統(tǒng)計的方法就很難奏效英遭。這和第一點其實說的是一件事间护。
  3. 前面提到的:大量依賴文本外的信息。結合第一點挖诸,那外部條件的變化直接導致了宏觀的變化汁尺,而在文本上根本體現不出來。

自然語言學基礎

語言使用群體

  • 自然語言使用群體
    個體特點是語言儲備差別很大多律,且存在忘詞現象痴突,忘詞概率與使用頻率負相關搂蜓。打一個比方,就好像一大群人造一個飛船辽装。大家之前沒有開會討論分工帮碰,就是這么開干了。顯然拾积,這有好處——說干就干殉挽,不需要商討一個方案,反復修改完善拓巧,直到大家通過了才開干(這樣往往因為意見不合斯碌,方案始終確定不下來,并且由于人類的認知局限性肛度,也不可能構造一個完美的方案)傻唾;不過也有壞處,就是經常發(fā)生重復造輪子承耿、標準不統(tǒng)一等冠骄。而這就很好地復現了當今的語言現象。上千種語言加袋,同義詞猴抹,誤解,語言發(fā)展锁荔。
  • 形式語言使用群體
    完全等同蟀给、不會遺忘的計算機之間的交流,這也說明了:語言的產生取決于使用語言的群體中個體的特性阳堕。

自然語言很明顯不是一個高效的語言跋理。語言的使用也是針對群體的。

自然語言的信息量

承接上面的“語言的使用也是針對群體的”恬总,自然語言是一種人類產生的前普、用于溝通的信息。從這種意義上來說壹堰,與圖片等其他信息相比拭卿,它是“非自然的”〖溃可以想象峻厚,如果我們與另一個文明交流,最有效的信息載體應該是圖像谆焊,而不是自己使用的語言惠桃。自然圖像是自然信息,很大程度上獨立于接受圖像信息的群體,不需要借助群體的知識辜王、經驗對圖像進行解讀[1]劈狐。像計算機語言,除了幾個基本的邏輯外呐馆,解讀并不需要借助經驗肥缔。如果你清楚一門計算機語言的手冊的話,你無需之前閱讀大量實例代碼汹来,根據一段代碼本身就能將其完全理解辫继,也就是計算機語言編寫的文本是與其他共文本完全獨立的。自然語言不行俗慈,很多語言承接著已有的語言習慣和資料。

計算語言學與自然語言處理(Computational Linguistics & Natural Language Processing)

通過建立形式化的計算模型來分析遣耍、理解和生成自然語言的學科闺阱,是人工智能和語言學的分支學科。計算語言學是典型的交叉學科舵变,其研究常常涉及計算機科學酣溃、語言學、數學等多個學科的知識纪隙。與內容接近的學科自然語言處理相比較赊豌,計算語言學更加側重基礎理論和方法的研究。
自然語言處理是研究如何利用計算機技術對語言文本(句子绵咱、篇章或話語等)進行處理和加工的一門學科碘饼,研究內容包括對詞法、句法悲伶、語義和語用等信息的識別艾恼、分類悴了、提取蜡饵、轉換和生成等各種處理方法和實現技術。
—— 《計算機科學技術百科全書》

中英對照術語(Terminology)

linguistic 語言學

homonymous adj.同形詞
polysemy adj. 多義詞

semantical adj. 語義上的
syntactic adj.句法的
lexical adj. 詞法的

morphological adj. 形態(tài)學的

predicate calculus 謂詞邏輯

概率

特征空間醒第、類樣本重疊

特征空間是觀察尺度下的空間(以下特征空間和觀測空間不做區(qū)分)花沉,每一維度都是可精確測量的柳爽。每一個樣本(sample)都屬于一個類別,且在特征空間中有一個坐標碱屁。我們作一個假設:一個樣本在有限個相關物理量下磷脯,確定地屬于一個類別[2],也就是當我們能夠獲取一個樣本全部有價值的信息時娩脾,就能斷言樣本屬于某個類別争拐,不存在例外。比如我們能夠測量某次拋硬幣時所有的力度、角度架曹、空氣動力隘冲、硬幣材質等物理量,就一定能計算出硬幣到底是哪一面朝上绑雄。但對于絕大多數實際問題展辞,獲取樣本全部的、精確的物理量万牺,并且還有一個絕對正確的模型是不現實的罗珍,因此在實際的觀察尺度下,我們并不能精確地劃分樣本的類別脚粟。并且大多數情況下覆旱,離散特征空間的樣本存在坐標重合的情況;即使是連續(xù)空間(樣本點幾乎不能可能重疊)核无,某些區(qū)域不同類別的樣本點也會出現緊密混雜的現象


觀察空間一般是易于獲取的宏觀測量量扣唱,而且通常是有價值信息和無價值信息的非線性混合。比如我們需要判斷某一化學反應產物团南,最直接有效的噪沙、決定性的信息(特征)應該是分子動量的空間分布,但那是不可獲取的吐根,僅僅能測量一些局部的正歼、宏觀的溫度信息。并且這些溫度還混雜了很多不相關信息(溫度計材料等)拷橘。
從這個角度上來看局义,我們可以認為樣本分布在有效信息的特征空間下是存在確定邊界的,而觀測空間是原始空間經過非線性變換得到的冗疮,于是存在不可分的現象旭咽。

概率(值/分布)及其估計

概率論解決的就是在給定的觀測尺度下,對事件進行預測赌厅。概率論假設在特征空間中穷绵,樣本服從某一概率分布。真實的概率分布也是無法準確知曉的特愿,某一點處的概率分布只能通過周圍樣本個數來估計仲墨。在給定某樣本的坐標時,我們就可以估計其屬于某一類別的可能性揍障,也就是概率值 目养。


概率值概率分布沒有本質區(qū)別,僅僅是觀測空間的區(qū)別毒嫡。相對于后者癌蚁,前者的觀測空間是特殊的離散二值觀測空間{是,否}.
它們通常是基于大規(guī)模的統(tǒng)計進行估計。

生成模型與判別模型

這里從分布的角度談一談努释。對于同一事件判斷碘梢,生成模型是需要建模所有信息為變量下的分布:如果一個事件涉及到N個相關信息,那么生成模型就需要準確建模這N個變量的聯合分布伐蒂;而判別式模型是在給定N-1個變量的條件下煞躬,建模一個變量的分布,可以看出難度小了很多逸邦,數據更加密集恩沛,誤差也可控。

條件概率$P(Y_1Y_2...|X_1X_2...)$

注意從條件概率開始缕减,特征空間就處于隨時變化的情況雷客,讀者請注意。下文中信息條件是等價概念桥狡,不做區(qū)分搅裙。
條件概率就是給一定的信息,新的概率总放。這條件除了來自于事件相關,甚至還來自于觀察者好爬,比如我只關心在常溫下某化學反應條件局雄,不會去測量幾千度下的情況。因此“常溫”也算是一個條件存炮。這樣來看的話炬搭,不存在絕對無條件分布,概率都是條件的(有前提的)穆桂。
概率分布就是在觀測空間里每一坐標上的條件概率分布宫盔。注意,這里的條件概率分布有了新的觀測空間享完,可以說特征空間X的每一個點都通向了新的觀測空間Y灼芭。當然,條件不必須是一個完整的坐標般又,還可以是X中的一個區(qū)間彼绷,比如邊緣分布就是將X空間的某些維度進行了壓縮映射;還可以是區(qū)間構成的新區(qū)間茴迁,這也暗示了條件不一定非是明確的X空間的坐標寄悯,也可以是其他非特征條件。也就是說堕义,概率分布是針對觀測空間的猜旬,已知一個條件要想求條件分布,需要先轉化為特征空間的區(qū)域,再求對應的條件概率值



可以看到洒擦,信息經過一個不好的特征映射后椿争,對某一條件的分布不確定性變大。
給定一個特征空間的坐標秘遏,得到的就是后驗概率丘薛,這是一個條件概率,也就是根據觀測獲取了知識后的概率邦危。還未觀測就已知的概率分布是先驗概率洋侨,比如我們還未觀看一場比賽就知道種子選手的獲勝概率大。
個人認為更加合理的分布估計方式應該參考貝葉斯的推理和學習機制:在沒有相關信息的情況下倦蚪,認為是均勻分布希坚,隨著觀察、樣本的收集陵且,分布不斷調整裁僧。人類在自然界中就是如此學習的。

特征與分布參數

在特征空間中慕购,完全確定一個樣本的特征向量就相當于確定了樣本的坐標聊疲,于是$P(w_i|X)$就確定了。

信息論相關

$$H(X)=-\sum_{x\in\chi}p(x)\log_2p(x)$$

NLP中消歧沪悲、序列標注任務(字/詞級別)

機器學習最常見的任務就是消歧任務获洲,也就是分類任務,也是其理論最完善殿如、模型眾多贡珊、運用最成功的任務。按照前面條件概率的理解涉馁,消歧就是利用信息確定關注變量的取值门岔,比如我們需要確定一個詞的詞性,詞性就是關注變量(設為變量X)烤送,需要確定詞性的詞就是一個信息寒随,而且是很重要的信息,一下子就把概率集中到少數幾個詞性上帮坚,甚至是一個詞性上牢裳。如果是集中到幾個詞性上,那我們需要進一步獲取其他信息(一般是相鄰詞形叶沛、詞性)蒲讯,幫助概率的進一步集中(進一步集中不一定是大概率吸收小概率,條件概率經常出現反轉)灰署。序列標注(sequence labeling)是比分類含義更加廣泛的一個任務[3]判帮,在自然語言處理中更加常見局嘁。一方面文本天然就是序列信息;另一方面更加本質:需要分類的對象本身對于分類任務所能提供的信息量非常少晦墙,更多的信息是來源于上下文悦昵,甚至可以說,上下文決定當前對象的標注類別晌畅,比如詞義消歧但指,人類甚至可以在把這個詞去掉的情況下,依靠上下文對詞義進行推理抗楔。這在常見的機器學習分類/序列標注任務中獨樹一幟——圖像分類棋凳,連續(xù)手寫體識別,甚至和NLP相近的語音識別都主要依靠待標注的對象本身的信息连躏。上下文信息的合理有效挖掘也是NLP中的難點剩岳,甚至可以說到現在未被有效解決,以至于機器學習在NLP中效果差強人意入热,遠不能和人類水平相提并論拍棕。文本長距離依賴、語義層面(比文本更加抽象的層次)依賴勺良、文本之外信息依賴(常識绰播、語境),這些都是NLP的“特色問題”尚困,而目前沒有模型能夠能夠很好解決蠢箩。

字/詞級別特征

對于詞級別的任務,一般是從上下文中尾组,也就是相鄰文本中的提取特征忙芒。
特征模板(也就是特征的設計示弓,超參數)可以從以下三個方面考慮:

  1. 特征的類型:詞形讳侨、詞性、詞形+詞性奏属,3種情況
  2. 上下文窗口大锌缈纭:當前詞的左右2個詞,1種情況囱皿;
  3. 是否考慮位置:是或否勇婴,2種情況。

上面這些特征模板構造的特征都是是離散嘱腥、二值的耕渴,也就是只存在滿足/不滿足兩種情況,滿足的話特征函數取值為1齿兔,不滿足取值為0, 比如設計某一特征是:相鄰兩個詞之內是否存在‘我’橱脸,‘和’础米。這個特征就是只考慮字形、窗口為2添诉、不考慮位置的一個特征屁桑。可以看到栏赴,這種離散的特征幾乎就是規(guī)則蘑斧,類似于正則表達式的匹配,這是由于文本的局部信息離散且少须眷。很多用于很笨的機器學習方法都使用上述類型的特征竖瘾,比如條件隨機場CRF,這些規(guī)則都需要人為設計[4]柒爸∽荚。可以想象,面對應當需要推理的文本任務捎稚,比如詞義消歧乐横,得需要多么精細、復雜的規(guī)則才能得到一個比較理想的結果今野。

任務1: 詞義消歧(word sense disambiguate, WSD)

利用豐富的上下文葡公,先把這個詞去掉,如果能推測出一個(或者多個)詞義条霜,且這些詞義中恰好存在多義詞的一個詞義的話催什,就可以消歧。人類由于存儲計算能力有限宰睡,在日常語言處理中習慣很快消歧蒲凶,而不是存儲多種可能性。

WSD的測試數據

測試需要標注的數據拆内。為了避免使用人工標注旋圆,一種巧妙的方法是“創(chuàng)造偽多義詞”:在真實語料中n個僅有一個詞義的詞用同一個“偽詞”代替,這個“偽詞”就可以看作具有多個詞義的多義詞麸恍,用于測試詞義消歧算法灵巧。

任務2:詞性消歧(part of speech, POS)

著名的語料庫:the Penn Treebank (Marcus et al., 1993)包含了45種詞性。

作用

  1. 是命名體識別的重要特征
  2. 文章抽取名詞
  3. 辨別發(fā)音
  4. 句法分析(syntactic parsing)

詞性標注任務

從標注角度來看抹沪,詞性標注屬于消歧任務刻肄。同一個寫法的詞可能有多種詞性。字典中85%左右的詞僅有一個詞性融欧,但是由于常用詞很多都是多標簽的敏弃,因此超過一半的概率會出現歧義。詞性標注的baseline是不考慮詞的上下文噪馏,只選擇最大可能的tag作為輸出麦到。baseline的準確率也能達到92%虹茶,目前(2016)最好的準確率大約是97%.
從標簽集合(tagset)來看,標簽有開集合(open class)和閉集(closed class)和的區(qū)分隅要。開集合引入一個問題就是未登錄詞蝴罪,推測未登錄詞(OOV)詞性信息量最大的是詞形morphology.


任務3:命名體識別(named entity recognition, NER)

命名體:人名、地名步清、組織機構名要门、時間表示、數字表示廓啊。


任務4:實體關系抽取

NLP中用于消歧欢搜、序列標注的模型

最大熵(Maximum Entropy)

概率圖:HMM & MCMM & CRF

  • HMM

參考HMM用于輸入-輸出等長的序列標注任務。


HMM用于等長序列標注

對于OOV谴轮,$ P(w_i|t_i) $無法計算炒瘟,不過可以利用詞形對詞性做判斷。第步。疮装。。粘都。

  • MEMM(Maximum Entropy Markov Models)

是一個判別序列模型廓推,

  • CRF

CRFs and MEMMS are discriminative sequence models whereas HMMs are generative sequence models. HMM essentially uses Bayes Rule as a local model over the transition and emission probabilities, whereas CRF and MEMM's local models are MaxEnt models over transition and observable features. The chief difference between MEMM and CRF is that MEMM is locally renormalized and suffers from the label bias problem, while CRFs are globally renormalized.

NLP中的規(guī)則方法

規(guī)則驅動方法VS數據驅動方法

由前面的語言現象類比可以想象,語言是動態(tài)的翩隧,即使是同一種語言也不會由有限個規(guī)則所描述樊展。新的語言形式不斷在被創(chuàng)造。
不過堆生,語言畢竟是大多數人使用的专缠,畢竟也流傳千年,因此很大一部分是滿足非呈缙停基本的規(guī)則的涝婉。這些語言規(guī)則就好像成為了磚瓦。
規(guī)則編寫工作量大糯景,且領域相關性密切嘁圈,無法領域遷移省骂。

句法分析(Syntactic Parsing)

句法分析就是對一個句子分配一個句法結構蟀淮。對語法檢查(grammar checking)、語義理解(semantic analysis)有參考性钞澳。

形式語言與文法

NLP中與規(guī)則相關的方法一般都體現在基于文法的句法分析上怠惶,其基本假設是:自然語言是一種形式語言
形式語言是由規(guī)則生成的語言:反復使用有限的轧粟、確定的字符串改寫規(guī)則策治。這個規(guī)則集合就是文法脓魏。
形式語法是一個4元組 $G=(N, \Sigma, P, S)$. 其中$N $是非終結符的有限集合(包含詞性標注,有時也叫變量集或句法種類集)通惫;$ \Sigma $是終結符的有限集合茂翔,也就是我們書寫的詞,$N\cap\Sigma=\phi$; $V=N\cup\Sigma$稱總詞匯表履腋;$P$ 是一組重寫規(guī)則的有限集合:$P={\alpha\rightarrow\beta }$珊燎,其中,$\alpha, \beta$是$V$ 中元素構成的串遵湖,但$\alpha$ 中至少應含有一個非終結符號悔政;$S\in N$,稱為句子符或初始符延旧。

  • 自由文法
    對于$P$谋国,即改寫規(guī)則,有不同的設計模板迁沫。設計模板體現了規(guī)則的設計自由度芦瘾。最自由的當然就是左右兩端沒有任何約束,稱無約束文法集畅,或者0型文法旅急。這樣左右兩端規(guī)則的可能情況都是無限的,比如遇見字符串$\alpha_1$就轉化為$\beta_1$.
  • 上下文有關文法
    現在對改寫做出一定限制:一條規(guī)則只將一個字符$A\in N$進行改寫牡整,而不是字符串到字符串的改寫(比如說改寫成$\gamma$)藐吮。但不是僅僅聚焦需要改寫的$A$,同時需要參考其上下文逃贝,僅有當$A$相鄰字符滿足規(guī)則時谣辞,才能進行改寫,這就是上下文有關的文法:$\alpha A \beta \rightarrow \alpha \gamma \beta$沐扳∧啻樱可以看出該寫規(guī)則的自由度確實減小了,如果對改寫規(guī)則進行編碼的話沪摄,需要的編碼長度會變小躯嫉。
  • 上下文無關文法CFG
    最為流行的文法類型是Context-Free Grammar, or CFG. 仍然是一條規(guī)則只將一個字符$A\in N$進行改寫,不過這次不需要考慮上下文:$A \rightarrow \gamma $杨拐。這里的規(guī)則的自由度更加小了(不要覺得A去掉了上下文的約束祈餐,更加“自由”了,而要從可能規(guī)則集合的大小考慮)哄陶。目前英語最為流行的CFG是由Noam Chomsky規(guī)范的帆阳。
  • 正則文法
    再進一步約束規(guī)則的話就只能約束規(guī)則右端了。正則文法規(guī)定規(guī)則右端的非終結符號(如果有的話)出現在最左邊:$A\rightarrow B x \ | A\rightarrow x , x\in \Sigma$.

自動機運用于文法

文法就是基于規(guī)則的字符串改寫屋吨,完全是確定的蜒谤,因此可以使用自動的程序進行改寫山宾。自動機也可以用來判斷一個字符是否可以被其對應的文法產生△⒒眨基于當前狀態(tài)和輸入资锰,產生下一狀態(tài)的系統(tǒng)稱為自動機。不同自由度的文法系統(tǒng)對應不同類型的自動機(如下)阶祭;同一自由度的文法系統(tǒng)的不同規(guī)則的文法對應不同狀態(tài)該寫規(guī)則的自動機:

  • 有限自動機
    $M=(\Sigma ,Q,\sigma,q_0,F)$, 只能進行讀取台妆,然后狀態(tài)依據輸入進行轉移,類似于Markov chain. 如果存在對于某一狀態(tài)胖翰,根據當前輸入沒有可以轉移的規(guī)則接剩,那說明輸入語言不合法;如果存在對于某一狀態(tài)萨咳,根據當前輸入有多種轉移規(guī)則懊缺,那這個自動機是非確定自動機,每一次遇到多種路徑便并行轉移培他,不合法的轉移分支消亡鹃两,剩余的就是對應的可能轉移路線。

    有限自動機與正則文法是一一對應的:

    正則文法$G=(N, \Sigma, P, S)$只有兩種形式:$A\rightarrow B x \ | A\rightarrow x , x\in \Sigma$. 我們很自然地把改寫看作是一次狀態(tài)轉移舀凛,
    而自動機的輸入一定都是終結符俊扳,于是$\Sigma_M = \Sigma_G$,把終結符看作是狀態(tài)轉移條件; $Q_M=N_G\cup{T}$把非終結字符看作狀態(tài)猛遍,其中$q_0=S_G; F_M=T$馋记。

    根據正則文法構造有限自動機或者根據有限自動機構造正則文法都是比較顯然的了。
  • 下推自動機
  • 圖靈機

句法分析中的消歧

句法分析遇到的歧義性:結構歧義(called structural ambiguity)懊烤。這是由于一個句子可能對應多個可行語法梯醒。
兩種常見的句法結構起義:

  • 歸屬歧義(attachment ambiguity)
    英語句子歧義組合的開塔蘭數[5]
    I saw a boy in the park.
    I saw a [boy in the park].; I saw a [boy] in the park.
  • 并列歧義(coordination ambiguity)
    • old men and women
    • 把重要的書籍和手稿帶走了

當使用CRF進行句法分析時,就已經假設自然語言是由CRF規(guī)則生成的腌紧。后面的分析可以得知句法分析存在結構歧義茸习,也即是同一個句子可以根據規(guī)則集經過不同的推理過程得到。這以現象出現有三種可能:

  1. 更加自由的文法體系下不會歧義(比如上下文相關的文法)壁肋,這樣有些改寫在特定上下文中就不能進行号胚,那些推理過程就不成立端盆。
  2. 即使真的是由CFG文法產生的述吸,也可能存在歧義:


  3. 像中文這種頻繁地結構省略語言更是很難用文法生成這種規(guī)則化的方式進行描述优俘。借助了本本之外上下文信息曹傀,是文法改寫系統(tǒng)本身無法精確描述的。如:
    夫人穿著很得體植阴,舉止優(yōu)雅腰湾,左臂上掛著一個暗黃色的皮包暑塑,右手領著一只白色的小狗察净,據說是京巴(局長夫人)驾茴。
    僅僅是一個詞的替換,就有兩種的語義氢卡,顯然對于上面的一句話锈至,一個完備的文法系統(tǒng)應該包含兩種不同的推理。當具體是哪一種译秦,僅僅靠字符串上的信息是不夠的(這里兩種不同的句法結構前面的字符串完全一樣)峡捡,需要常識進行判斷。也就是對于自然語言筑悴,文法生成系統(tǒng)的句法結構歧義是必然存在的们拙。根源在于指代的歧義。拋去常識阁吝,在句法結構分析過程中砚婆,兩種句法結構都是合理的,人之所以能夠確定為其中一種突勇,是因為常識可以進一步改變句法分析結果的分布装盯。因此理想系統(tǒng)是將兩中不同指代對應的句法結構都進行輸出,而不是強迫系統(tǒng)只能輸出一個甲馋。

推理過程復現算法

也就是給定一個語句埂奈,分析出怎樣用規(guī)則推導出這個語句。

  • 線圖分析法(chart parsing)

    • 自底向上
  • CYK分析算法
    優(yōu)點:簡單易行定躏,執(zhí)行效率高
    弱點:必須對文法進行范式化處理账磺;無法區(qū)分歧義
    假設文法 G(S) 的規(guī)則只有兩種形式:
    $$A \rightarrow \alpha $$ $$A \rightarrow BC $$
    可以通過范式化處理,使CFG規(guī)則滿足上述形式痊远。這種假設的文法形式稱為喬姆斯基范式(Chomsky normal form, CNF)绑谣。

完全句法分析的評價

對一個樹狀結構的結果進行評價是不常見。當然不能組去和完全正確和錯誤拗引。一般的評價是以除詞性標注外的非終結符為單位借宵,統(tǒng)計其在樹結構中覆蓋詞的范圍的正確率。



因為系統(tǒng)輸出的非終結符的個數與標準可以不一樣矾削,因此用準確率壤玫、召回率、F值進行評估:
Precision以模型輸出個數為分母哼凯,其中正確的個數為分子(模型輸出的正確占比):
$$\textbf{Precision}: = \frac{\text{系統(tǒng)輸出正確的個數}}{\text{系統(tǒng)輸出的總個數}} $$

Recall 以理想正確個數為分母欲间,實際正確個數為分子(系統(tǒng)能辨別出的占比):
$$\textbf{Recall}: = \frac{\text{系統(tǒng)輸出正確個數}}{\text{標準正確個數
}} $$

F-measure是兩者的調和平均(Harmonic Mean):
$$
F=\frac{2}{\frac{1}{P}+\frac{1}{R}}
$$

語言模型

Please turn your homework ...
這句話后面很可能接的是'in',而不可能是其他什么断部。在給定的語境下猎贴,'in'的信息量最小,或者$P(w|Please \ turn\ your \ homework... )$這個條件分布在$w=in$時取得最大,且比其他詞高很多她渴。
用頻數來估計出現概率依據的是最大似然準則达址。

n元語言模型

就是包含n個單元(詞或者字)看作是語言的一個樣本。假設詞匯量是$|V|$趁耗,那么樣本空間(離散的)的大小是$nV$沉唠。把某一位置作為變量,其余位置作為條件(通常是最右的位置作為變量苛败,前面的作為上下文)满葛,那么給定上下文,就是變量的概率分布(在給定上下文時罢屈,如果那個位置總是只出現特定詞嘀韧,我們就把那個概率分布設定為spike形狀。一般地缠捌,給定上下文乳蛾,出現各種詞匯都有樣本,就是一個概率分布)鄙币。顯然肃叶,這個條件概率分布估計是統(tǒng)計各種可能詞的出現頻率,除以所有的滿足上下文的樣本十嘿。所以因惭,n元語言模型要求計算并存儲所有的n元條件概率值(上下文一共$|V|{n-1}$種情況,每種情況$|V|$個)
給定上下文就是給一定信息绩衷。信息越多蹦魔,就越有可能確定某一個詞,即某一個詞的條件概率接近1咳燕。

  • 只需要前兩三個詞就能百分百確定當前詞勿决,比如一些固定搭配,如"亡羊補*"招盲,前3個字就能肯定第四個是"羊"低缩;
  • 上下文提供有部分信息,比如很可能是一個地名的開始曹货,而不會是其他的字咆繁,說明上下文雖然沒有把概率集中到某一個字/詞上,但還是把概率集中到若干詞上(均勻分布變成了含有峰值的分布)顶籽;
  • 上下文提供的信息不對當前分布都有效玩般。也就是說每一個詞/字對信息依賴不同
  • 還有一些情況,給得再多上下文也無法確定礼饱,通常是可替換搭配坏为,如"這個夏天我去..."究驴,前文哪怕給得再多,對下一個字是什么沒有幫助(獨立)匀伏,也就是依賴文本之外的信息洒忧。這很好理解,因為文本是由文本之外的模型(人類大腦)生成的帘撰,生成當前字/詞的信息沒有包含在上下文中是很正常的跑慕。這樣看万皿,精確地預測下一個字/詞(即構建完美語言模型)是不可能的摧找。

除了信息依賴上的問題,n元語言模型構建難點在于:樣本稀疏牢硅、或者采樣不合理蹬耘。根據已有的文本構建n比較大的模型無論是在存儲還是計算上都是不可實現的。

語言模型的評價

The best way to evaluate the performance of a language model is to embed it in an application and measure how much the application improves. Such end-to-end evaluation is called extrinsic evaluation.
最好的語言模型評價方式是外部評價(extrinsic evaluation):完成一些易于評測的文本任務减余,看結果是否有提升综苔,比如語言識別。

不過由于外部評價耗費計算量位岔,通常也使用內部評價作為參考如筛。語言模型的內部評價就是使用語料庫作為模型輸入,計算句子的概率值抒抬。其基本思想是給測試集的句子賦予較高概率值的語言模型較好杨刨,當語言模型訓練完之后,測試集中的句子都是正常的句子擦剑,那么訓練好的模型就是在測試集上的概率越高越好妖胀。

模型對于句子給出的概率值越高越好?

之前疑惑惠勒,要是模型對所有可能的句子輸出概率值都很高怎么辦赚抡?
系統(tǒng)輸出的是概率(而不是像一般的分類模型,給的是類別標簽)纠屋。這里假設了系統(tǒng)是一個合法的概率分布涂臣,即滿足輸出歸一化的條件。這樣只需要考慮正常句子概率值高就是一個合理的語言模型售担。

由于一般的模型是通過短句子(或者詞)連乘來估計得到長句子的概率肉康,那短句子更容易獲得一個高的概率值。于是希望模型價值與句子長度無關灼舍,通常得到的概率值還要進一步處理吼和,用困惑度(perplexity)來評價模型:




語言模型都就是指語言模型對于測試數據集的困惑度。測試集語句概率值越大骑素,困惑度越小炫乓,模型越合理刚夺。

語言模型的建立與使用

語言模型非常依賴于訓練語料的風格,或者說是語料場景末捣。因此在使用時需要明確使用用環(huán)境侠姑。

數據平滑

  1. 加1法(Additive smoothing)

    n元語法,每一種n元的情況(每一種條件)出現的次數加1箩做。

    對于n>2的情況莽红,僅僅是條件概率的條件變成了多個,上述公式仍然適用邦邦。
  2. 減值法/折扣法(Discounting)
    基本思想:保證總樣本數不變安吁,減小一個樣本貢獻度。而上面的加值其實是增加了樣本數量
    • Good-Turing 法:對非0事件按公式削減出現的次數燃辖,節(jié)留出來的概率均分給0概率事件鬼店。。
      在整個縮減過程中黔龟,保證總計數不變妇智,即計數值變換前后$N=\sum_{r=0}{\infty}n_rr=\sum_{r=1}^{\infty}n_rr$
      這里的削減不是自然數的削減(否則出現次數為1削減后等于0了),而是浮點數的削減氏身,削減之后出現次數不再是自然數巍棱,而是浮點l數了。滿足上式的一個解是:$r^
      =(r+1)\frac{n_{r+1}}{n_r}$.
      這樣蛋欣,原先出現$r$次對應的概率是$p=\frac{r}{N}$航徙,改變計數值后變?yōu)?p*=\frac{r*}{N}$
    • Katz 后退法:對非0事件按Good-Turing法計算減值,節(jié)留出來的概率按低階分布分給0概率事件豁状。
    • 絕對減值法:對非0事件無條件削減某一固定的出現次數值捉偏,節(jié)留出來的概率均分給0概率事件。
    • 線性減值法:對非0事件根據出現次數按比例削減次數值泻红,節(jié)留出來的概率均分給0概率事件

神經網絡語言模型

與一般的語言模型一樣夭禽,都是計算在給定上下文的條件下,某一個詞的離散概率谊路,如$P(good| the \ movie \ is \ )$的值讹躯。更加規(guī)范地,語言模型應該是給定上下文的條件下缠劝,當前詞在詞匯表上的離散概率分布潮梯。$p (w_t|contaxt)$
  • 前饋神經語言模型(Bengio et al., 2003)

  • 循環(huán)神經網絡語言模型

這個模型解除了信息依賴的限制:當前信息不再只能依靠n-1個周圍詞,而是理論上能夠從無限長的上下文中獲取信息:

神經網絡語言模型本身是連續(xù)的惨恭,而且能夠對概率值分布式存儲(以至于參數無法解釋秉馏,像一個黑箱),好處是:

  1. 不需要平滑(連續(xù)值表征)
  2. 以相對少的參數存儲(表征)大量離散參數
  3. 對詞進行連續(xù)空間的嵌入脱羡。這一步是順帶的萝究。語言模型的輸入是離散的詞免都,通過一個表,將詞用一個200維左右的相連進行表征帆竹。這個二維浮點參數表在語言模型的訓練過程中(上下文條件概率分布逼近one-hot實際值)绕娘,不斷調整。連續(xù)壓縮表征語言的目標使得這個表的參數在調整過程中栽连,上下文相近的詞险领,低維連續(xù)向量表征也相似。

分詞——比字更高一層的語言表征單位

字(character)構成詞(word), 由于中文等的特殊性秒紧,得到詞為單位的文本需要進行分詞绢陌,也就是在漢語文本中的詞與詞之間加上邊界∝眩可以說下面,分詞是實現比字更抽象(高層)的文本單位來表征文本复颈,這個文本單位更能表征語義绩聘,因此能夠幫助產生合理的停頓、重音耗啦、語氣等凿菩。分詞任務困難有三點:

  1. 分詞規(guī)范
    這使得分詞認為成為沒有明確定義的任務。分詞是一種文本處理的中間環(huán)節(jié)帜讲,學習語言不需要顯示進行這項任務衅谷,而是在完成其他任務的過程中隱式完成。因此分詞的實現情況是因人而異的似将,甚至同一個人也無法給出明確標準获黔。這和詞嵌入(詞的相似度表征)非常相似,也是在實現語言模型過程中作為中間結果自動產生的在验。
  2. 歧義切分
    同一個短語存在多種合法分詞方式玷氏,只有少數分詞方式是合理的,這個合理需要借助語義激勵性分析腋舌,比如:這篇文章寫得太平淡了盏触。
    [*]一個有趣的問題是:人在閱讀文字的時候是先進行分詞再產生文本的理解,還是先對文本理解再產生分詞块饺?前面說了赞辩,有效的分詞很大程度依賴語義理解;而不先進行分詞授艰,又怎么進行語義的分析呢辨嗽?這似乎說明了分詞與語義并不是完全分開的,而是動態(tài)結合淮腾、相互信息支撐的部分(可以參考EM算法思想)糟需〉盒模基本的步驟是:按照最常見的分詞方式(初始化)進行分詞,發(fā)現得到的語義不合理篮灼,于是回頭重新進行分詞忘古,一般就得到合理的句子了。
  3. 未登錄詞識別
    • 語言發(fā)展產生的新詞匯
      這些詞匯本身與已經存在詞匯沒什么區(qū)別诅诱,只是再社會環(huán)境中偶然出現髓堪,并被大家認可的詞匯,這是語言適應時代娘荡、環(huán)境發(fā)展的表達能力干旁,就好比社會發(fā)展中新工作的產生一樣。
    • 專有名詞(proper name):人名炮沐、地名争群、機構名、時間大年、數字表達
    • 專業(yè)名詞和研究領域名稱
    • 其他專用名詞换薄。如書名、電影等

分詞算法

基于詞典的最大匹配法 (Maximum Matching, MM)翔试,根據匹配方向分為:

  • 正向最大匹配算法 (Forward MM, FMM)
  • 逆向最大匹配算法 (Backward MM, BMM)
  • 雙向最大匹配算法 (Bi-directional MM)

基本思想是從詞典中按照詞從長到短的對文本進行匹配轻要,形象表示是一個指針從起點開始,依據詞典垦缅,盡可能向前跳轉冲泥。比如詞典中最長詞為m,指針希望每一次向前跳轉m個字壁涎,但是并匹配不上凡恍,于是減小期望,希望向前跳轉m-1個字...直到能正確匹配上怔球,才真正進行跳轉嚼酝。顯然一次跨過的那些字就是詞典中的一個詞。)

淺句法分析(Partial Parsing / chunking)

動機(motivation):樹狀結構分析是對語言的精細處理(fine-grained manipulation)庞溜,任務復雜革半,人類也不會這般處理。拿圖像領域做一個類比流码,就好像從一個復雜的迷宮中找一條路徑又官。我們在處理日常文字信息時,面對的都是簡單的(或者說是常見的)漫试、少數的語法六敬,并且不會非常仔細地用一個樹狀結構進行句法分析,更通常是從句子中提取短語塊(chunk)驾荣,然后用一個宏觀的語法來分析語句外构。這也是我們人類在處理大量文本信息時的一個簡化方式(快速閱讀)普泡,無需仔細進行語法檢查等。

Chunking-System Evaluations

Precision以模型輸出個數為分母审编,其中正確的個數為分子(模型輸出的正確占比):
$$\textbf{Precision}: = \frac{\text{Number of correct chunks given by system}}{\text{Total number of chunks given by system}} $$

Recall 以理想正確個數為分母撼班,實際正確個數為分子(系統(tǒng)能辨別出的占比):
$$\textbf{Recall}: = \frac{\text{Number of correct chunks given by system}}{\text{Total number of actual chunks in the text
}} $$

F-measure是兩者的調和平均(Harmonic Mean):
$$
F=\frac{2}{\frac{1}{P}+\frac{1}{R}}
$$

依存分析(Dependency Parsing) ch14


可以看出,依存分析沒有詞性類別和短語結構類別垒酬。與基于短語結構的句法分析相比砰嘁,依存分析對句子結構要求非常寬松。一個新的句子結構可以直接用依存分析表示勘究,但是句法分析需要創(chuàng)建新的對應語法才能表示矮湘。兩者都是用樹進行表示,不過前者需要借助中間結點(原語句沒有的詞語)口糕,表示的是由詞匯構成(抽象)的短語之間的關系缅阳;而后者所有節(jié)點都是原語句中的詞匯,表示的是兩個詞之間的有向關系(grammatical relation)景描。有向關系的出結點是頭(head)十办,入結點是依賴(dependent)


左邊是依存分析:所有結點都是原語句詞匯,是文本相關的語法(context gramma)伏伯;右邊是句法分析橘洞,結點有短語結點和詞屬性結點作為中間結點捌袜,葉子結點是原語句詞匯说搅,是文本無關的語法(context-free gramma)

Evaluation

準確率就是一句話中,被正確分配依存關系的詞的個數/總的詞的個數虏等。注:關系數與詞的個數相同弄唧,因為每一個有向關系都有一個入度,而每個詞有且僅有一個入度霍衫,考察每個詞其實是考察入度對應的詞候引、標簽是否正確
正確的詞有下面一些準則:

  • labeled attachment score (LAS):
    考察所有的詞(也就是以詞的個數為分母),入度對應的詞正確率
  • unlabeled attachment score (UAS):
    考察所有的詞敦跌,入度對應的詞和標簽正確率
  • dependency score (DS):
    考察根節(jié)點外的詞澄干,入度對應的詞的正確率(也即是分母比UAS少1)


語義分析

任務:

語義分析任務一 —— 詞義消歧

語義分析任務二 —— 語義角色標注

以謂語為中心,分析出句子的描述的事件:時間柠傍、地點麸俘、任務等
目前的語義角色標注方法非常依賴于句法分析結果、且領域適應性差惧笛。

領域適應性測量

訓練集和測試集選擇不同的語料庫(一般是不同的文體)从媚。

篇章分析

篇章分析是指多語句之間的關系分析。篇章內部存在銜接性患整,也就是指代現象拜效。確定指代對象也可以看作一種消歧任務喷众。
準確指代需要挖掘更加抽象的信息,

語料庫

Tree Bank

代表性的是Penn Tree Bank紧憾,中文是CTB. 都包含了句法結構和詞性


樹庫擴展

賓夕法尼亞大學樹庫PTB的擴展:

  1. 命題庫PropBank (Proposition Bank)
    PropBank 的目標是對原樹庫中的句法節(jié)點標注上特定的論元標記 (argument label)到千,使其保持語義角色的相似性
  2. 名詞化樹庫NomBank (Nominalization Bank)
    NomBank標注的是樹庫中名詞的詞義和相關的論元信息。
  3. 語篇樹庫 (Penn Discourse Tree Bank, PDTB)

WordNet & WikiBase & FreeBase

自然語言產生于人類的社會活動赴穗,由于沒有強制的(??)語言規(guī)定父阻,自然語言本質更適合用復雜系統(tǒng)進行描述。復雜系統(tǒng)中有各種形式的個體望抽,lemma加矛,word sens...他們之間構成了相互交錯的、動態(tài)演化的復雜網絡煤篙。

同義詞(synonymy)
同義詞是詞義上的可替換斟览,而不是詞的可替換。幾乎不存在兩個在任何語境下可替換的詞辑奈。這是語言冗余苛茂、魯棒的原因之一:不會因為遺忘某個詞使得無法表述一個詞義,這就滿足了不同語言儲備的多個體交流情況鸠窗;不同人說話哪怕表達的意思一樣妓羊,也存在不同的風格。
計算機語言也存在實現相同功能稍计,不同的代碼實現躁绸。也可以看作是同義'詞',所以本質上可替換詞是由于思維的冗余性產生的臣嚣。我們也可以把

WordNet

WrodNet是一個定義詞義(word sense)的方式:以詞義為結點净刮,詞義之間的關系為邊,構造一個詞義網絡硅则。通過其在網絡中的環(huán)境來定義這個詞義淹父。

WordNet is a lexical database(詞匯) for the English language. It groups English words into sets of synonyms called synsets(同義詞), provides short definitions and usage examples, and records a number of relations among these synonym sets or their members.
— Wikipedia

  • Synonyms are grouped together in something called Synset. 同義詞之間形成網絡。Synonyms--words that denote the same concept and are interchangeable in many contexts--are grouped into unordered sets (synsets). 同義詞之間是沒有順序的
  • A synset contains lemmas, which are the base form of a word. “l(fā)emma”是word的原始形式
  • Each of WordNet’s 117 000 synsets is linked to other synsets by means of a small number of “conceptual relations.” synsets之間用層級關系連接怎虫。
    There are hierarchical links between synsets (ISA relations or hypernym/hyponym relations)
    Several other properties such as antonyms or related words are included for each lemma in the synset 和之間關系是層級的暑认,hypernym高層關系,gyponym低層關系.
    https://www.quora.com/Dictionaries-In-WordNet-whats-the-difference-between-a-sense-and-a-lemma
    首先搞清什么是lemma
    the lemma is the base word form that is indexed in WordNet. lemma是一個詞的原型大审。 jump, jumps, jumped, and jumping are all words and all inflections of a single lemma, jump.
    WordNet interlinks not just word forms—strings of letters—but specific** senses** of words.
    一個synset包含多個lemma蘸际,這些lemmas就是同義詞,例如:
talk = wn.synset('talk.v.01')
print( talk.lemmas() )
# [Lemma('talk.v.01.talk'), Lemma('talk.v.01.speak')]

'talk'是一個synset饥努,對應一個sense捡鱼,包含兩個lemmas: talk, speak

word#sense number (sense key)
car#1 (car%1:06:00::)
A word form (or lemma) that appears in n synsets in WordNet has n senses. 一個word可以出現在多個synset中,因此認為有多個sense. These senses may span multiple parts of speech – so if a word appears in, say, 7 synsets, it might have 4 noun senses, 2 verb senses, and an adjective sense.

In WordNet a lemma has senses. Specifically, a lemma has exactly as many senses as the number of synsets that it participates in. Conversely, and as you say, synsets contain one more more lemmas, which means that multiple lemmas (words) can represent the same sense, or meaning.

multiple lemmas (words) can represent the same sense, or meaning.

機器翻譯

源語言(Source language):需要翻譯的語言;目標語言(Target language):翻譯后的語言

基于規(guī)則的翻譯方法(Rule-based)

翻譯過程分成6個步驟:
(a) 對源語言句子進行詞法分析
(b) 對源語言句子進行句法/語義分析
(c) 源語言句子結構到譯文結構的轉換
(d) 譯文句法結構生成
(e) 源語言詞匯到譯文詞匯的轉換
(f) 譯文詞法選擇與生成

優(yōu)點:可以較好地保持原文的結構驾诈,產生的譯文結構 與源文的結構關系密切缠诅,尤其對于語言現象已知的或 句法結構規(guī)范的源語言語句具有較強的處理能力和較 好的翻譯效果。
弱點:規(guī)則一般由人工編寫乍迄,工作量大管引,主觀性強, 一致性難以保障闯两,不利于系統(tǒng)擴充褥伴,對非規(guī)范語言現 象缺乏相應的處理能力。

統(tǒng)計機器翻譯

信道模型:

目標語言經過信道后漾狼,產生了元語言:
$$P(T|S)=\frac{P(T)P(S|T)}{P(S)}$$那么翻譯過程就是求解:
$$\hat{T}=\arg\max_T{P(T)P(S|T)}$$
這個公式涉及到三方面的計算:

  1. $P(T)$: 目標語言的語言模型
    一般用短語或者詞的概率和n元條件獨立的Markov假設對一個完整句子的概率進行估算重慢。
  2. $P(S|T)$: 翻譯模型
    注意,這個翻譯模型將原先的源語言到目標語言的翻譯轉化成目標語言到源語言的翻譯逊躁。(所以完全沒有減輕任務嘛-_-!!)
    為了求解兩個不同語言句子之間的條件概率似踱,也是將句子拆成短語或詞為單位,然后利用連乘進行估算(和語言模型一樣稽煤,為了解決直接求一個句子的概率的稀疏性)核芽。這樣長句子的條件概率就成了詞的對位,這種對位關系模型為:在目標語言句子$T$的長度(單詞的個數)為 $l$酵熙,源語言句子$S$的長度為 $m$ 的情況下轧简,$T$ 和 $S$ 的單詞之間有 $l\times m$種不同的對應關系。對位模型 $A$是從源語言到目標語言的對位表示匾二。

    IBM Model 1假設對位概率是均勻分布的哮独,即每一個$a_i$的值的概率分布是均勻的
    根據IBM翻譯模型1,由英語句子$e$生成法語句子$f$ 的實現過程:
    (1) 根據概率分布為法語句子$f$ 選擇一個長度$m$;
    (2) 對于每一個$ j = 1,2,...,m $ 假勿,根據均勻分布原則從 $0, 1, ..., l$ 中選擇一個值給$a_j$;
    (3) 對于每一個 $j = 1, 2, ..., m$借嗽,根據概率$ p(f_j|e_{a_j}) $選擇一個法語單詞$f_j$。
    IBM Model2進一步具體了對位概率$a(a_j|j,l,m) $
  3. $\arg\max_T$: 搜索算法
    beam search

這種翻譯模型就像是在破譯密碼转培,不是從語義層次進行,而是根據大量明文浆竭、編碼進行對照浸须,對于一些簡短的、常見的翻譯還行邦泄。

基于短語的翻譯模型

在基于短語的模型中删窒,直接將繁衍率信息、上下文 信息以及局部對位調序信息記錄在翻譯規(guī)則中顺囊。這里所說的短語指一個連續(xù)的詞串(n-gram)肌索,不 一定是語言學中定義的短語(phrase, noun phrase, verb phrase)

  1. 短語劃分模型
    目標:將一個詞序列如何劃分為短語序列
    方法:一般假設每一種短語劃分方式都是等 概率的
  2. 短語翻譯模型
    • 學習短語翻譯規(guī)則

      借助雙語句對詞語對齊,滿足對齊一致性的就是一個短語翻譯規(guī)則特碳。在詞對應表格中體現為沒有空行和空列的矩形塊诚亚;

      在詞對齊中表現為沒有源語言或者目標語言對應的詞在短語對外:
    • 估計短語翻譯概率
  3. 短語調序模型
  4. 目標語言模型

基于短語的翻譯模型缺陷

(1) 基于短語的翻譯模型能夠比較魯棒地翻譯較短的子串晕换,當短語長度擴展到3個以上的單詞時,翻譯系統(tǒng)的性能提高很少站宗,短語長度增大以后闸准,數據稀疏問題變得非常嚴重。
(2) 在很多情況下簡單的短語翻譯模型無法處理短語之間(尤其是長距離)的調序梢灭。
(3) 基于短語翻譯模型無法處理非連續(xù)短語翻譯現象夷家,例如 (在 … 時,when …)

基于層次化短語的翻譯模型

樹翻譯模型

  • 樹到串模型

規(guī)則是源語言的句法結構到目標語言串(包含目標語言替換變量)的替換敏释。
先將源語言S進行句法分析库快,得到句法分析樹。從枝葉到樹干(微觀尺度到宏觀尺度)地進行規(guī)則匹配钥顽,最終生成目標語言串缺谴。
樹到串模型的優(yōu)勢:搜索空間小、解碼效率高耳鸯;句法分析質量較高的前提下湿蛔,翻譯效果不錯
樹到串模型的不足:強烈依賴于源語言句法分析的質量;利用源語言端句法結構精確匹配县爬,數據稀疏 嚴重阳啥;沒有使用任何目標語言句法知識,無法保證目標譯文符合文法

  • 樹到樹模型

規(guī)則是源語言的句法結構到目標語言的句法結構替換
給定源語言和目標語言的雙語平行句對(經過詞語對齊 财喳、源語言和目標語言端經過句法分析)察迟, 抽取滿足詞語對齊的樹到樹翻譯規(guī)則。
樹到樹模型的優(yōu)勢:搜索空間小耳高、解碼效率高
樹到樹模型的不足:強烈依賴于源語言和目標語言句法分析的質量扎瓶;利用兩端句法結構精確匹配攀细,數據稀疏非常嚴重狭园; 翻譯質量差

  • 串到樹模型

串到樹模型的優(yōu)勢:搜索空間大,保證譯文符合文法搁宾,翻譯質量高
? 串到樹模型的不足:解碼速度受限碌燕;未使用源語言端句法知識误证,存在詞義消歧問題

基于規(guī)則的句法樹轉換

機器翻譯系統(tǒng)評價

主觀評價

主要是依賴人工,從流暢性充分性兩個方面進行打分修壕。

客觀評價

是一種自動評價系統(tǒng)/標準愈捅。雖然很好滿足標準的不一定是主觀上很好的翻譯,但是較好的翻譯一般都是很好滿足標準的慈鸠。因此制定標準只要滿足上述要求就行蓝谨。

these metrics assume that valid responses have significant word overlap with the ground truth responses.

  • BLEU(BiLingual Evaluation Understudy)
    系統(tǒng)譯文中的單詞計數不會超過該詞在某個參考譯文中出現次數的最大值。

    N is the maximum length of n-grams considered. 也就是說BLEU-N考慮從1到N的語言模型。

借助參考譯文:

Greedy Matching. 句子中詞向量相似度匹配

Embedding Average. 利用詞向量計算整個句子的向量譬巫,再用歸一化余弦度量句子相似度咖楣。

不借助參考譯文:

  1. 將輸出語言輸入到語言模型、句法分析后得到和正常語句相近的概率值(流暢度評價)
  2. 原文中詞對應的詞典翻譯在系統(tǒng)譯文被覆蓋情況缕题,與這個詞的頻率倒數進行加權(充分性)

篇章特征與文本分類截歉、檢索

與前面的章節(jié)不同,本章節(jié)處理的是以文本為單位烟零,更加粗糙瘪松。從粗糙度方面來說,文本為單位信息量更加豐富锨阿、完整宵睦,更加方便、準確進行特征表示墅诡、提取壳嚎。

篇章特征

首先需進行文本表示。一般通過選取特征末早,量化特征值烟馅,組成向量,也就是向量空間模型(vector space model, VSM). 特征可以是字然磷、短語郑趁、或者是更加一般的用于匹配的規(guī)則。由于不同特征的尺度不盡相同使用同樣的數值單位不合理姿搜,于是每個維度單獨分配一個權重寡润。
對于一個語料,文本的某個特征可能出現頻率很低舅柜,比如用一個確定的句子作為特征梭纹。過低的頻率代表性不足,比如描述一個人致份,代表性強的特征是“個頭中等”或者“身高165~175”变抽,代表性低的是“身高172.3mm”. 相反地,特征的出現頻率過高知举,沒有區(qū)分度瞬沦,我們不會描述一個人長著“一個鼻子,兩只眼睛”雇锡。用于表示文本特征的向量一般都比較高。
確定了準備選取的特征后僚焦,接下來就是具體確一個文檔的特征值锰提,也就是對于一個文檔和一個特征,確定這個特征對應的標量值。很直觀地可以用這個歌在這個文檔中出現頻數(TF)作為標量值立肘,也可以用是否出現(bool值)作為標量值边坤。不過直接用特征出現頻數作為標量值有一個局限性,那就是沒有體現這個特征區(qū)分度谅年。將特征出現頻數與特征在所有文本中覆蓋率的倒數進行加權就是TF-IDF: $\text{tf}_{ij}\times \ln\frac{N}{n_i}$.

文本特征局限性

  • 僅從統(tǒng)計的角度來分析茧痒,脫離語義、推理與常識融蹂。
  • 特征離散

  1. 這里的圖像指的是自然圖像旺订,非自然圖像比如文字的圖像、樂譜超燃、表情区拳、手語,這些人類擅長意乓、敏感的樱调、獨有的、需要借助經驗的才能解讀的届良。 ?

  2. 筆者個人覺得這個假設是正確的笆凌,能夠用于經典物理學下概率事件。當然量子力學中還存在復數域的概率士葫,暫不做探討乞而。 ?

  3. 參見之前寫的《sequence labeling》 ?

  4. 不過現在只需要設計特征模板,算法可以自動學習特征參數 ?

  5. 開塔蘭數(Catalan Numbers):有這樣一個問題:現有n對括號为障,一共有多少種合法的組合方式晦闰?比如$n=3$,有$$((())) ; ()(()) ; ()()() ; (())() ; (()())$$種鳍怨。描述這種組合方式的就是開塔蘭數:$$C_{n}={2n \choose n}-{2n \choose n+1}={1 \over n+1}{2n \choose n}\quad {\text{ for }}n\geq 0,$$ 再比如:

    還有n邊形被切分成三角形的方式:
    ?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末呻右,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子鞋喇,更是在濱河造成了極大的恐慌声滥,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件侦香,死亡現場離奇詭異落塑,居然都是意外死亡,警方通過查閱死者的電腦和手機罐韩,發(fā)現死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門憾赁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人散吵,你說我怎么就攤上這事龙考◇∷粒” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵晦款,是天一觀的道長炎功。 經常有香客問我,道長缓溅,這世上最難降的妖魔是什么蛇损? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮坛怪,結果婚禮上淤齐,老公的妹妹穿的比我還像新娘。我一直安慰自己酝陈,他們只是感情好床玻,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沉帮,像睡著了一般锈死。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上穆壕,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天待牵,我揣著相機與錄音,去河邊找鬼喇勋。 笑死缨该,一個胖子當著我的面吹牛,可吹牛的內容都是我干的川背。 我是一名探鬼主播贰拿,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼熄云!你這毒婦竟也來了膨更?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤缴允,失蹤者是張志新(化名)和其女友劉穎荚守,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體练般,經...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡矗漾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了薄料。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片敞贡。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖摄职,靈堂內的尸體忽然破棺而出嫡锌,到底是詐尸還是另有隱情虑稼,我是刑警寧澤琳钉,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布势木,位于F島的核電站,受9級特大地震影響歌懒,放射性物質發(fā)生泄漏啦桌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一及皂、第九天 我趴在偏房一處隱蔽的房頂上張望甫男。 院中可真熱鬧,春花似錦验烧、人聲如沸板驳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽若治。三九已至,卻和暖如春感混,著一層夾襖步出監(jiān)牢的瞬間端幼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工弧满, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留婆跑,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓庭呜,卻偏偏與公主長得像滑进,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子募谎,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內容