References:
《speech and language processing 》2nd & 3rd
《統(tǒng)計自然語言處理》第二版
2017.9.2 補充
最近有一個觀點愈發(fā)明晰: 深度學(xué)習(xí)模型只能作為統(tǒng)計學(xué)的模型, 用于建模所給的數(shù)據(jù)的分布. 無論是辨別式任務(wù)還是生成式任務(wù). 這遠(yuǎn)不能稱作是"智能". 人類在做出一系列判斷和創(chuàng)作時, 不是僅依賴于以往的數(shù)據(jù)(至少能稱得上是智能的行為不是).
而現(xiàn)實情況是, 統(tǒng)計學(xué)上的概率對個體的參考價值很小. 條件分布情況根據(jù)條件的變化差別非常巨大. 個體的條件是確定的, 而所能參考的統(tǒng)計學(xué)概率是沒有考慮(也無法考慮)那么多精細(xì)條件的. 所以做出的判斷其實是對自身情況做出的判斷, 而那是已經(jīng)確定的(甚至是可以改變的). 舉個例子: 你在猶豫手頭的論文是投會議A還是會議B(假設(shè)只能選擇一個), 所以你只能參考哪個會議的接受率高投哪個, 例如說投A的接受率大. 后來你想想這個決策太粗糙, 于是進一步考慮每一個會議中你所寫的方向的中稿率. 這時候就增加了這一個條件, 概率分布就很可能發(fā)生巨大變化, 變成了投B接受率大.你又覺得還可以進一步增加條件, 比如你論文中使用了一些對比方法, 使用這些方法的論文的中稿率怎么樣. 結(jié)果你發(fā)現(xiàn)樣本太少了, 置信度太低了... 現(xiàn)在的人工智能模型也面臨這樣的困境. 然而你最后發(fā)現(xiàn), 中不中稿和你前面設(shè)想的一切都沒有關(guān)系, 和你科研能力才有直接關(guān)系,? 這就是統(tǒng)計上的相關(guān)性并無法描述因果性. 現(xiàn)在你對論文改進一下思路, 增加兩個創(chuàng)新點就可能直接由被拒到被接收, 而這根本無法從統(tǒng)計上表現(xiàn)出來(所以說統(tǒng)計對于個體的參考價值極為有限).
當(dāng)然也有很多任務(wù)不需要這么精細(xì)的條件和因果推理機制, 目前的深度學(xué)習(xí)已經(jīng)表現(xiàn)的很好.
2017年7月25日 補充
自然語言處理應(yīng)該分為兩個方向盯孙,一個是以理解語言為基礎(chǔ)的場景語言處理璃谨;另一個是大數(shù)據(jù)為基礎(chǔ)的語料模式分析。
前者是微觀下的精細(xì)操作阳柔,后者是宏觀下的語料分析令野。
為什么要明確做出區(qū)分舀患?因為這兩種方向的任務(wù)解決思路有很大不同:
信息來源
也就是條件分布。場景語言處理需要大量借助語言气破、文本之外的信息聊浅,可以是常識、環(huán)境现使、場景低匙、時代、對象等信息來源碳锈。語言在此類任務(wù)中信息熵比較大(也就是很多省略)
語料分析一般不需要文本之外的信息顽冶,只要提供語料種類就行。因為是大量文本售碳,因此分析方法不應(yīng)該是以理解每一句話為基礎(chǔ)强重,而是以數(shù)據(jù)挖掘為基礎(chǔ),否則的話就好像拿著米尺去丈量國土面積一樣贸人,雖然更精確间景,但是不高效。
信息處理思路
數(shù)據(jù)挖掘方法就好像視覺系統(tǒng)艺智,關(guān)注整體結(jié)構(gòu)倘要,忽略局部細(xì)節(jié)。如果不明確任務(wù)方向力惯,就會有希望用粗糙的觀察來精細(xì)理解語言的錯誤指導(dǎo)思想碗誉。
數(shù)據(jù)挖掘方法在文本上的局限性
局限性不是說沒有效果,而是不能完美解決父晶。在概率論部分已經(jīng)說民過:不確定的存在是因為信息不足哮缺。至少目前的數(shù)據(jù)挖掘方法用在文本上,正確率在一個難以接受的百分比上很難再提升了(很多任務(wù)在標(biāo)準(zhǔn)測試上85%都達不到)甲喝。改進的途徑當(dāng)然是信息的提取方式尝苇。不過語言微觀對宏觀的影響導(dǎo)致了的其特殊:
文本是基于邏輯的,是一個離散表征系統(tǒng)埠胖,微妙的變化糠溜,如位置、代詞等直撤,會在宏觀上產(chǎn)生巨大的影響非竿,比如一句話態(tài)度轉(zhuǎn)變。而很難想象圖片上幾個像素點對種類存在巨大影響
信息難以提取谋竖。圖片是用像素點分布的表達信息红柱,對于分類來說承匣,信息的分布特征決定種類;文本锤悄,即使是篇章級別的分類韧骗,數(shù)據(jù)太少(離散表征性質(zhì)),傳統(tǒng)的基于統(tǒng)計的方法就很難奏效零聚。這和第一點其實說的是一件事袍暴。
前面提到的:大量依賴文本外的信息。結(jié)合第一點隶症,那外部條件的變化直接導(dǎo)致了宏觀的變化政模,而在文本上根本體現(xiàn)不出來。
自然語言學(xué)基礎(chǔ)
語言使用群體
自然語言使用群體
個體特點是語言儲備差別很大沿腰,且存在忘詞現(xiàn)象览徒,忘詞概率與使用頻率負(fù)相關(guān)。打一個比方颂龙,就好像一大群人造一個飛船习蓬。大家之前沒有開會討論分工,就是這么開干了措嵌。顯然躲叼,這有好處——說干就干,不需要商討一個方案企巢,反復(fù)修改完善枫慷,直到大家通過了才開干(這樣往往因為意見不合,方案始終確定不下來浪规,并且由于人類的認(rèn)知局限性或听,也不可能構(gòu)造一個完美的方案);不過也有壞處笋婿,就是經(jīng)常發(fā)生重復(fù)造輪子誉裆、標(biāo)準(zhǔn)不統(tǒng)一等。而這就很好地復(fù)現(xiàn)了當(dāng)今的語言現(xiàn)象缸濒。上千種語言足丢,同義詞,誤解庇配,語言發(fā)展斩跌。
形式語言使用群體
完全等同、不會遺忘的計算機之間的交流捞慌,這也說明了:語言的產(chǎn)生取決于使用語言的群體中個體的特性耀鸦。
自然語言很明顯不是一個高效的語言。語言的使用也是針對群體的啸澡。
自然語言的信息量
承接上面的“語言的使用也是針對群體的”揭糕,自然語言是一種人類產(chǎn)生的萝快、用于溝通的信息。從這種意義上來說著角,與圖片等其他信息相比,它是“非自然的”旋恼±艨冢可以想象,如果我們與另一個文明交流勒奇,最有效的信息載體應(yīng)該是圖像北发,而不是自己使用的語言刚操。自然圖像是自然信息,很大程度上獨立于接受圖像信息的群體舟铜,不需要借助群體的知識、經(jīng)驗對圖像進行解讀[1]奠衔。像計算機語言谆刨,除了幾個基本的邏輯外,解讀并不需要借助經(jīng)驗归斤。如果你清楚一門計算機語言的手冊的話痊夭,你無需之前閱讀大量實例代碼,根據(jù)一段代碼本身就能將其完全理解脏里,也就是計算機語言編寫的文本是與其他共文本完全獨立的她我。自然語言不行,很多語言承接著已有的語言習(xí)慣和資料迫横。
計算語言學(xué)與自然語言處理(Computational Linguistics & Natural Language Processing)
通過建立形式化的計算模型來分析番舆、理解和生成自然語言的學(xué)科,是人工智能和語言學(xué)的分支學(xué)科矾踱。計算語言學(xué)是典型的交叉學(xué)科恨狈,其研究常常涉及計算機科學(xué)、語言學(xué)介返、數(shù)學(xué)等多個學(xué)科的知識拴事。與內(nèi)容接近的學(xué)科自然語言處理相比較,計算語言學(xué)更加側(cè)重基礎(chǔ)理論和方法的研究圣蝎。
自然語言處理是研究如何利用計算機技術(shù)對語言文本(句子刃宵、篇章或話語等)進行處理和加工的一門學(xué)科,研究內(nèi)容包括對詞法徘公、句法牲证、語義和語用等信息的識別、分類关面、提取坦袍、轉(zhuǎn)換和生成等各種處理方法和實現(xiàn)技術(shù)十厢。
—— 《計算機科學(xué)技術(shù)百科全書》
中英對照術(shù)語(Terminology)
linguistic 語言學(xué)
homonymous adj.同形詞
polysemy adj. 多義詞
semantical adj. 語義上的
syntactic adj.句法的
lexical? adj. 詞法的
morphological adj. 形態(tài)學(xué)的
predicate calculus 謂詞邏輯
概率
特征空間、類樣本重疊
特征空間是觀察尺度下的空間(以下特征空間和觀測空間不做區(qū)分)捂齐,每一維度都是可精確測量的蛮放。每一個樣本(sample)都屬于一個類別,且在特征空間中有一個坐標(biāo)奠宜。我們作一個假設(shè):一個樣本在有限個相關(guān)物理量下包颁,確定地屬于一個類別[2],也就是當(dāng)我們能夠獲取一個樣本全部有價值的信息時压真,就能斷言樣本屬于某個類別娩嚼,不存在例外。比如我們能夠測量某次拋硬幣時所有的力度滴肿、角度岳悟、空氣動力、硬幣材質(zhì)等物理量泼差,就一定能計算出硬幣到底是哪一面朝上贵少。但對于絕大多數(shù)實際問題,獲取樣本全部的拴驮、精確的物理量春瞬,并且還有一個絕對正確的模型是不現(xiàn)實的,因此在實際的觀察尺度下套啤,我們并不能精確地劃分樣本的類別宽气。并且大多數(shù)情況下,離散特征空間的樣本存在坐標(biāo)重合的情況潜沦;即使是連續(xù)空間(樣本點幾乎不能可能重疊)萄涯,某些區(qū)域不同類別的樣本點也會出現(xiàn)緊密混雜的現(xiàn)象
觀察空間一般是易于獲取的宏觀測量量,而且通常是有價值信息和無價值信息的非線性混合唆鸡。比如我們需要判斷某一化學(xué)反應(yīng)產(chǎn)物涝影,最直接有效的、決定性的信息(特征)應(yīng)該是分子動量的空間分布燃逻,但那是不可獲取的,僅僅能測量一些局部的臂痕、宏觀的溫度信息伯襟。并且這些溫度還混雜了很多不相關(guān)信息(溫度計材料等)。
從這個角度上來看握童,我們可以認(rèn)為樣本分布在有效信息的特征空間下是存在確定邊界的姆怪,而觀測空間是原始空間經(jīng)過非線性變換得到的,于是存在不可分的現(xiàn)象。
概率(值/分布)及其估計
概率論解決的就是在給定的觀測尺度下稽揭,對事件進行預(yù)測俺附。概率論假設(shè)在特征空間中,樣本服從某一概率分布溪掀。真實的概率分布也是無法準(zhǔn)確知曉的事镣,某一點處的概率分布只能通過周圍樣本個數(shù)來估計。在給定某樣本的坐標(biāo)時膨桥,我們就可以估計其屬于某一類別的可能性蛮浑,也就是概率值 。
概率值和概率分布沒有本質(zhì)區(qū)別只嚣,僅僅是觀測空間的區(qū)別。相對于后者艺沼,前者的觀測空間是特殊的離散二值觀測空間{是册舞,否}.
它們通常是基于大規(guī)模的統(tǒng)計進行估計。
生成模型與判別模型
這里從分布的角度談一談障般。對于同一事件判斷调鲸,生成模型是需要建模所有信息為變量下的分布:如果一個事件涉及到N個相關(guān)信息,那么生成模型就需要準(zhǔn)確建模這N個變量的聯(lián)合分布挽荡;而判別式模型是在給定N-1個變量的條件下藐石,建模一個變量的分布,可以看出難度小了很多定拟,數(shù)據(jù)更加密集于微,誤差也可控。
條件概率$P(Y_1Y_2...|X_1X_2...)$
注意從條件概率開始青自,特征空間就處于隨時變化的情況株依,讀者請注意。下文中信息和條件是等價概念延窜,不做區(qū)分恋腕。
條件概率就是給一定的信息,新的概率逆瑞。這條件除了來自于事件相關(guān)荠藤,甚至還來自于觀察者,比如我只關(guān)心在常溫下某化學(xué)反應(yīng)條件获高,不會去測量幾千度下的情況哈肖。因此“常溫”也算是一個條件。這樣來看的話谋减,不存在絕對無條件分布牡彻,概率都是條件的(有前提的)。
概率分布就是在觀測空間里每一坐標(biāo)上的條件概率分布。注意庄吼,這里的條件概率分布有了新的觀測空間缎除,可以說特征空間X的每一個點都通向了新的觀測空間Y。當(dāng)然总寻,條件不必須是一個完整的坐標(biāo)器罐,還可以是X中的一個區(qū)間,比如邊緣分布就是將X空間的某些維度進行了壓縮映射渐行;還可以是區(qū)間構(gòu)成的新區(qū)間轰坊,這也暗示了條件不一定非是明確的X空間的坐標(biāo),也可以是其他非特征條件祟印。也就是說肴沫,概率分布是針對觀測空間的,已知一個條件要想求條件分布蕴忆,需要先轉(zhuǎn)化為特征空間的區(qū)域颤芬,再求對應(yīng)的條件概率值
可以看到,信息經(jīng)過一個不好的特征映射后套鹅,對某一條件的分布不確定性變大站蝠。
給定一個特征空間的坐標(biāo),得到的就是后驗概率卓鹿,這是一個條件概率菱魔,也就是根據(jù)觀測獲取了知識后的概率。還未觀測就已知的概率分布是先驗概率吟孙,比如我們還未觀看一場比賽就知道種子選手的獲勝概率大澜倦。
個人認(rèn)為更加合理的分布估計方式應(yīng)該參考貝葉斯的推理和學(xué)習(xí)機制:在沒有相關(guān)信息的情況下,認(rèn)為是均勻分布拔疚,隨著觀察肥隆、樣本的收集,分布不斷調(diào)整稚失。人類在自然界中就是如此學(xué)習(xí)的栋艳。
特征與分布參數(shù)
在特征空間中,完全確定一個樣本的特征向量就相當(dāng)于確定了樣本的坐標(biāo)句各,于是$P(w_i|X)$就確定了吸占。
信息論相關(guān)
$$H(X)=-\sum_{x\in\chi}p(x)\log_2p(x)$$
NLP中消歧、序列標(biāo)注任務(wù)(字/詞級別)
機器學(xué)習(xí)最常見的任務(wù)就是消歧任務(wù)凿宾,也就是分類任務(wù)矾屯,也是其理論最完善、模型眾多初厚、運用最成功的任務(wù)件蚕。按照前面條件概率的理解孙技,消歧就是利用信息確定關(guān)注變量的取值,比如我們需要確定一個詞的詞性排作,詞性就是關(guān)注變量(設(shè)為變量X)牵啦,需要確定詞性的詞就是一個信息,而且是很重要的信息妄痪,一下子就把概率集中到少數(shù)幾個詞性上哈雏,甚至是一個詞性上。如果是集中到幾個詞性上衫生,那我們需要進一步獲取其他信息(一般是相鄰詞形裳瘪、詞性),幫助概率的進一步集中(進一步集中不一定是大概率吸收小概率罪针,條件概率經(jīng)常出現(xiàn)反轉(zhuǎn))彭羹。序列標(biāo)注(sequence labeling)是比分類含義更加廣泛的一個任務(wù)[3],在自然語言處理中更加常見泪酱。一方面文本天然就是序列信息皆怕;另一方面更加本質(zhì):需要分類的對象本身對于分類任務(wù)所能提供的信息量非常少,更多的信息是來源于上下文西篓,甚至可以說,上下文決定當(dāng)前對象的標(biāo)注類別憋活,比如詞義消歧岂津,人類甚至可以在把這個詞去掉的情況下,依靠上下文對詞義進行推理悦即。這在常見的機器學(xué)習(xí)分類/序列標(biāo)注任務(wù)中獨樹一幟——圖像分類吮成,連續(xù)手寫體識別,甚至和NLP相近的語音識別都主要依靠待標(biāo)注的對象本身的信息辜梳。上下文信息的合理有效挖掘也是NLP中的難點粱甫,甚至可以說到現(xiàn)在未被有效解決,以至于機器學(xué)習(xí)在NLP中效果差強人意作瞄,遠(yuǎn)不能和人類水平相提并論茶宵。文本長距離依賴、語義層面(比文本更加抽象的層次)依賴宗挥、文本之外信息依賴(常識乌庶、語境),這些都是NLP的“特色問題”契耿,而目前沒有模型能夠能夠很好解決瞒大。
字/詞級別特征
對于詞級別的任務(wù),一般是從上下文中搪桂,也就是相鄰文本中的提取特征透敌。
特征模板(也就是特征的設(shè)計,超參數(shù))可以從以下三個方面考慮:
特征的類型:詞形、詞性酗电、詞形+詞性魄藕,3種情況
上下文窗口大小:當(dāng)前詞的左右2個詞顾瞻,1種情況泼疑;
是否考慮位置:是或否,2種情況荷荤。
上面這些特征模板構(gòu)造的特征都是是離散退渗、二值的,也就是只存在滿足/不滿足兩種情況蕴纳,滿足的話特征函數(shù)取值為1会油,不滿足取值為0, 比如設(shè)計某一特征是:相鄰兩個詞之內(nèi)是否存在‘我’,‘和’古毛。這個特征就是只考慮字形翻翩、窗口為2、不考慮位置的一個特征稻薇∩┒常可以看到,這種離散的特征幾乎就是規(guī)則塞椎,類似于正則表達式的匹配桨仿,這是由于文本的局部信息離散且少。很多用于很笨的機器學(xué)習(xí)方法都使用上述類型的特征案狠,比如條件隨機場CRF服傍,這些規(guī)則都需要人為設(shè)計[4]÷钐可以想象吹零,面對應(yīng)當(dāng)需要推理的文本任務(wù),比如詞義消歧拉庵,得需要多么精細(xì)灿椅、復(fù)雜的規(guī)則才能得到一個比較理想的結(jié)果。
任務(wù)1:? 詞義消歧(word sense disambiguate, WSD)
利用豐富的上下文名段,先把這個詞去掉阱扬,如果能推測出一個(或者多個)詞義,且這些詞義中恰好存在多義詞的一個詞義的話伸辟,就可以消歧麻惶。人類由于存儲計算能力有限,在日常語言處理中習(xí)慣很快消歧信夫,而不是存儲多種可能性窃蹋。
WSD的測試數(shù)據(jù)
測試需要標(biāo)注的數(shù)據(jù)卡啰。為了避免使用人工標(biāo)注,一種巧妙的方法是“創(chuàng)造偽多義詞”:在真實語料中n個僅有一個詞義的詞用同一個“偽詞”代替警没,這個“偽詞”就可以看作具有多個詞義的多義詞匈辱,用于測試詞義消歧算法。
任務(wù)2:詞性消歧(part of speech, POS)
著名的語料庫:the Penn Treebank (Marcus et al., 1993)包含了45種詞性杀迹。
作用
是命名體識別的重要特征
文章抽取名詞
辨別發(fā)音
句法分析(syntactic parsing)
詞性標(biāo)注任務(wù)
從標(biāo)注角度來看亡脸,詞性標(biāo)注屬于消歧任務(wù)。同一個寫法的詞可能有多種詞性树酪。字典中85%左右的詞僅有一個詞性浅碾,但是由于常用詞很多都是多標(biāo)簽的,因此超過一半的概率會出現(xiàn)歧義续语。詞性標(biāo)注的baseline是不考慮詞的上下文垂谢,只選擇最大可能的tag作為輸出。baseline的準(zhǔn)確率也能達到92%疮茄,目前(2016)最好的準(zhǔn)確率大約是97%.
從標(biāo)簽集合(tagset)來看滥朱,標(biāo)簽有開集合(open class)和閉集(closed class)和的區(qū)分。開集合引入一個問題就是未登錄詞力试,推測未登錄詞(OOV)詞性信息量最大的是詞形morphology.
任務(wù)3:命名體識別(named entity recognition, NER)
命名體:人名徙邻、地名、組織機構(gòu)名畸裳、時間表示鹃栽、數(shù)字表示。
任務(wù)4:實體關(guān)系抽取
NLP中用于消歧躯畴、序列標(biāo)注的模型
最大熵(Maximum Entropy)
概率圖:HMM & MCMM & CRF
HMM
參考HMM用于輸入-輸出等長的序列標(biāo)注任務(wù)。
HMM用于等長序列標(biāo)注
對于OOV薇芝,$ P(w_i|t_i) $無法計算蓬抄,不過可以利用詞形對詞性做判斷。夯到。嚷缭。。耍贾。
MEMM(Maximum Entropy Markov Models)
是一個判別序列模型阅爽,
CRF
CRFs and MEMMS are discriminative sequence models whereas HMMs are generative sequence models. HMM essentially uses Bayes Rule as a local model over the transition and emission probabilities, whereas CRF and MEMM's local models are MaxEnt models over transition and observable features. The chief difference between MEMM and CRF is that MEMM is locally renormalized and suffers from the label bias problem, while CRFs are globally renormalized.
NLP中的規(guī)則方法
規(guī)則驅(qū)動方法VS數(shù)據(jù)驅(qū)動方法
由前面的語言現(xiàn)象類比可以想象,語言是動態(tài)的荐开,即使是同一種語言也不會由有限個規(guī)則所描述付翁。新的語言形式不斷在被創(chuàng)造。
不過晃听,語言畢竟是大多數(shù)人使用的百侧,畢竟也流傳千年砰识,因此很大一部分是滿足非常基本的規(guī)則的佣渴。這些語言規(guī)則就好像成為了磚瓦辫狼。
規(guī)則編寫工作量大,且領(lǐng)域相關(guān)性密切辛润,無法領(lǐng)域遷移膨处。
句法分析(Syntactic Parsing)
句法分析就是對一個句子分配一個句法結(jié)構(gòu)。對語法檢查(grammar checking)砂竖、語義理解(semantic analysis)有參考性真椿。
形式語言與文法
NLP中與規(guī)則相關(guān)的方法一般都體現(xiàn)在基于文法的句法分析上,其基本假設(shè)是:自然語言是一種形式語言晦溪。
形式語言是由規(guī)則生成的語言:反復(fù)使用有限的瀑粥、確定的字符串改寫規(guī)則。這個規(guī)則集合就是文法三圆。
形式語法是一個4元組 $G=(N, \Sigma, P, S)$. 其中$N $是非終結(jié)符的有限集合(包含詞性標(biāo)注狞换,有時也叫變量集或句法種類集);$ \Sigma $是終結(jié)符的有限集合舟肉,也就是我們書寫的詞修噪,$N\cap\Sigma=\phi$; $V=N\cup\Sigma$稱總詞匯表;$P$ 是一組重寫規(guī)則的有限集合:$P={\alpha\rightarrow\beta }$路媚,其中黄琼,$\alpha, \beta$是$V$ 中元素構(gòu)成的串,但$\alpha$ 中至少應(yīng)含有一個非終結(jié)符號整慎;$S\in N$脏款,稱為句子符或初始符。
自由文法
對于$P$裤园,即改寫規(guī)則撤师,有不同的設(shè)計模板。設(shè)計模板體現(xiàn)了規(guī)則的設(shè)計自由度拧揽。最自由的當(dāng)然就是左右兩端沒有任何約束剃盾,稱無約束文法,或者0型文法淤袜。這樣左右兩端規(guī)則的可能情況都是無限的痒谴,比如遇見字符串$\alpha_1$就轉(zhuǎn)化為$\beta_1$.
上下文有關(guān)文法
現(xiàn)在對改寫做出一定限制:一條規(guī)則只將一個字符$A\in N$進行改寫,而不是字符串到字符串的改寫(比如說改寫成$\gamma$)铡羡。但不是僅僅聚焦需要改寫的$A$积蔚,同時需要參考其上下文,僅有當(dāng)$A$相鄰字符滿足規(guī)則時烦周,才能進行改寫库倘,這就是上下文有關(guān)的文法:$\alpha A \beta \rightarrow \alpha \gamma \beta$临扮。可以看出該寫規(guī)則的自由度確實減小了教翩,如果對改寫規(guī)則進行編碼的話杆勇,需要的編碼長度會變小。
上下文無關(guān)文法CFG
最為流行的文法類型是Context-Free Grammar, or CFG. 仍然是一條規(guī)則只將一個字符$A\in N$進行改寫饱亿,不過這次不需要考慮上下文:$A? \rightarrow? \gamma $蚜退。這里的規(guī)則的自由度更加小了(不要覺得A去掉了上下文的約束,更加“自由”了彪笼,而要從可能規(guī)則集合的大小考慮)钻注。目前英語最為流行的CFG是由Noam Chomsky規(guī)范的。
正則文法
再進一步約束規(guī)則的話就只能約束規(guī)則右端了配猫。正則文法規(guī)定規(guī)則右端的非終結(jié)符號(如果有的話)出現(xiàn)在最左邊:$A\rightarrow B x \? | A\rightarrow x? , x\in \Sigma$.
自動機運用于文法
文法就是基于規(guī)則的字符串改寫幅恋,完全是確定的,因此可以使用自動的程序進行改寫泵肄。自動機也可以用來判斷一個字符是否可以被其對應(yīng)的文法產(chǎn)生捆交。基于當(dāng)前狀態(tài)和輸入腐巢,產(chǎn)生下一狀態(tài)的系統(tǒng)稱為自動機品追。不同自由度的文法系統(tǒng)對應(yīng)不同類型的自動機(如下);同一自由度的文法系統(tǒng)的不同規(guī)則的文法對應(yīng)不同狀態(tài)該寫規(guī)則的自動機:
有限自動機
$M=(\Sigma ,Q,\sigma,q_0,F)$, 只能進行讀取冯丙,然后狀態(tài)依據(jù)輸入進行轉(zhuǎn)移肉瓦,類似于Markov chain. 如果存在對于某一狀態(tài),根據(jù)當(dāng)前輸入沒有可以轉(zhuǎn)移的規(guī)則胃惜,那說明輸入語言不合法泞莉;如果存在對于某一狀態(tài),根據(jù)當(dāng)前輸入有多種轉(zhuǎn)移規(guī)則船殉,那這個自動機是非確定自動機戒财,每一次遇到多種路徑便并行轉(zhuǎn)移,不合法的轉(zhuǎn)移分支消亡捺弦,剩余的就是對應(yīng)的可能轉(zhuǎn)移路線。
有限自動機與正則文法是一一對應(yīng)的:
正則文法$G=(N, \Sigma, P, S)$只有兩種形式:$A\rightarrow B x \? | A\rightarrow x? , x\in \Sigma$. 我們很自然地把改寫看作是一次狀態(tài)轉(zhuǎn)移孝扛,
而自動機的輸入一定都是終結(jié)符列吼,于是$\Sigma_M = \Sigma_G$,把終結(jié)符看作是狀態(tài)轉(zhuǎn)移條件; $Q_M=N_G\cup{T}$把非終結(jié)字符看作狀態(tài)苦始,其中$q_0=S_G; F_M=T$寞钥。
根據(jù)正則文法構(gòu)造有限自動機或者根據(jù)有限自動機構(gòu)造正則文法都是比較顯然的了。
下推自動機
圖靈機
句法分析中的消歧
句法分析遇到的歧義性:結(jié)構(gòu)歧義(called structural ambiguity)陌选。這是由于一個句子可能對應(yīng)多個可行語法理郑。
兩種常見的句法結(jié)構(gòu)起義:
歸屬歧義(attachment ambiguity)
英語句子歧義組合的開塔蘭數(shù)[5]
I saw a boy in the park.
I saw a [boy in the park].;I saw a [boy] in the park.
并列歧義(coordination ambiguity)
old men and women
把重要的書籍和手稿帶走了
當(dāng)使用CRF進行句法分析時蹄溉,就已經(jīng)假設(shè)自然語言是由CRF規(guī)則生成的。后面的分析可以得知句法分析存在結(jié)構(gòu)歧義您炉,也即是同一個句子可以根據(jù)規(guī)則集經(jīng)過不同的推理過程得到柒爵。這以現(xiàn)象出現(xiàn)有三種可能:
更加自由的文法體系下不會歧義(比如上下文相關(guān)的文法),這樣有些改寫在特定上下文中就不能進行赚爵,那些推理過程就不成立棉胀。
即使真的是由CFG文法產(chǎn)生的,也可能存在歧義:
像中文這種頻繁地結(jié)構(gòu)省略語言更是很難用文法生成這種規(guī)則化的方式進行描述冀膝。借助了本本之外上下文信息唁奢,是文法改寫系統(tǒng)本身無法精確描述的。如:
夫人穿著很得體窝剖,舉止優(yōu)雅麻掸,左臂上掛著一個暗黃色的皮包,右手領(lǐng)著一只白色的小狗赐纱,據(jù)說是京巴(局長夫人)脊奋。
僅僅是一個詞的替換,就有兩種的語義千所,顯然對于上面的一句話狂魔,一個完備的文法系統(tǒng)應(yīng)該包含兩種不同的推理。當(dāng)具體是哪一種淫痰,僅僅靠字符串上的信息是不夠的(這里兩種不同的句法結(jié)構(gòu)前面的字符串完全一樣)最楷,需要常識進行判斷。也就是對于自然語言待错,文法生成系統(tǒng)的句法結(jié)構(gòu)歧義是必然存在的籽孙。根源在于指代的歧義理澎。拋去常識塌衰,在句法結(jié)構(gòu)分析過程中壮啊,兩種句法結(jié)構(gòu)都是合理的姓赤,人之所以能夠確定為其中一種枕赵,是因為常識可以進一步改變句法分析結(jié)果的分布戏溺。因此理想系統(tǒng)是將兩中不同指代對應(yīng)的句法結(jié)構(gòu)都進行輸出驯遇,而不是強迫系統(tǒng)只能輸出一個焙畔。
推理過程復(fù)現(xiàn)算法
也就是給定一個語句谱仪,分析出怎樣用規(guī)則推導(dǎo)出這個語句玻熙。
線圖分析法(chart parsing)
自底向上
CYK分析算法
優(yōu)點:簡單易行,執(zhí)行效率高
弱點:必須對文法進行范式化處理疯攒;無法區(qū)分歧義
假設(shè)文法 G(S) 的規(guī)則只有兩種形式:
$$A \rightarrow \alpha $$ $$A \rightarrow BC $$
可以通過范式化處理嗦随,使CFG規(guī)則滿足上述形式。這種假設(shè)的文法形式稱為喬姆斯基范式(Chomsky normal form, CNF)敬尺。
完全句法分析的評價
對一個樹狀結(jié)構(gòu)的結(jié)果進行評價是不常見枚尼。當(dāng)然不能組去和完全正確和錯誤贴浙。一般的評價是以除詞性標(biāo)注外的非終結(jié)符為單位,統(tǒng)計其在樹結(jié)構(gòu)中覆蓋詞的范圍的正確率署恍。
因為系統(tǒng)輸出的非終結(jié)符的個數(shù)與標(biāo)準(zhǔn)可以不一樣崎溃,因此用準(zhǔn)確率、召回率锭汛、F值進行評估:
Precision以模型輸出個數(shù)為分母笨奠,其中正確的個數(shù)為分子(模型輸出的正確占比):
$$\textbf{Precision}: = \frac{\text{系統(tǒng)輸出正確的個數(shù)}}{\text{系統(tǒng)輸出的總個數(shù)}} $$
Recall 以理想正確個數(shù)為分母,實際正確個數(shù)為分子(系統(tǒng)能辨別出的占比):
$$\textbf{Recall}: = \frac{\text{系統(tǒng)輸出正確個數(shù)}}{\text{標(biāo)準(zhǔn)正確個數(shù)
}} $$
F-measure是兩者的調(diào)和平均(Harmonic Mean):
$$
F=\frac{2}{\frac{1}{P}+\frac{1}{R}}
$$
語言模型
Please turn your homework ...
這句話后面很可能接的是'in'唤殴,而不可能是其他什么般婆。在給定的語境下,'in'的信息量最小朵逝,或者$P(w|Please \ turn\? your \ homework... )$這個條件分布在$w=in$時取得最大蔚袍,且比其他詞高很多。
用頻數(shù)來估計出現(xiàn)概率依據(jù)的是最大似然準(zhǔn)則配名。
n元語言模型
就是包含n個單元(詞或者字)看作是語言的一個樣本啤咽。假設(shè)詞匯量是$|V|$,那么樣本空間(離散的)的大小是$nV$渠脉。把某一位置作為變量宇整,其余位置作為條件(通常是最右的位置作為變量,前面的作為上下文)芋膘,那么給定上下文鳞青,就是變量的概率分布(在給定上下文時,如果那個位置總是只出現(xiàn)特定詞为朋,我們就把那個概率分布設(shè)定為spike形狀臂拓。一般地,給定上下文习寸,出現(xiàn)各種詞匯都有樣本胶惰,就是一個概率分布)。顯然霞溪,這個條件概率分布估計是統(tǒng)計各種可能詞的出現(xiàn)頻率孵滞,除以所有的滿足上下文的樣本。所以鸯匹,n元語言模型要求計算并存儲所有的n元條件概率值(上下文一共$|V|{n-1}$種情況坊饶,每種情況$|V|$個)
給定上下文就是給一定信息。信息越多忽你,就越有可能確定某一個詞,即某一個詞的條件概率接近1臂容。
只需要前兩三個詞就能百分百確定當(dāng)前詞科雳,比如一些固定搭配根蟹,如"亡羊補*",前3個字就能肯定第四個是"羊"糟秘;
上下文提供有部分信息简逮,比如很可能是一個地名的開始,而不會是其他的字尿赚,說明上下文雖然沒有把概率集中到某一個字/詞上散庶,但還是把概率集中到若干詞上(均勻分布變成了含有峰值的分布);
上下文提供的信息不對當(dāng)前分布都有效凌净。也就是說每一個詞/字對信息依賴不同
還有一些情況悲龟,給得再多上下文也無法確定,通常是可替換搭配冰寻,如"這個夏天我去..."须教,前文哪怕給得再多,對下一個字是什么沒有幫助(獨立)斩芭,也就是依賴文本之外的信息轻腺。這很好理解,因為文本是由文本之外的模型(人類大腦)生成的划乖,生成當(dāng)前字/詞的信息沒有包含在上下文中是很正常的贬养。這樣看,精確地預(yù)測下一個字/詞(即構(gòu)建完美語言模型)是不可能的琴庵。
除了信息依賴上的問題误算,n元語言模型構(gòu)建難點在于:樣本稀疏、或者采樣不合理细卧。根據(jù)已有的文本構(gòu)建n比較大的模型無論是在存儲還是計算上都是不可實現(xiàn)的尉桩。
語言模型的評價
The best way to evaluate the performance of a language model is to embed it in an application and measure how much the application improves. Such end-to-end evaluation is called extrinsic evaluation.
最好的語言模型評價方式是外部評價(extrinsic evaluation):完成一些易于評測的文本任務(wù),看結(jié)果是否有提升贪庙,比如語言識別蜘犁。
不過由于外部評價耗費計算量,通常也使用內(nèi)部評價作為參考止邮。語言模型的內(nèi)部評價就是使用語料庫作為模型輸入这橙,計算句子的概率值。其基本思想是給測試集的句子賦予較高概率值的語言模型較好导披,當(dāng)語言模型訓(xùn)練完之后屈扎,測試集中的句子都是正常的句子,那么訓(xùn)練好的模型就是在測試集上的概率越高越好撩匕。
模型對于句子給出的概率值越高越好鹰晨?
之前疑惑,要是模型對所有可能的句子輸出概率值都很高怎么辦?
系統(tǒng)輸出的是概率(而不是像一般的分類模型模蜡,給的是類別標(biāo)簽)漠趁。這里假設(shè)了系統(tǒng)是一個合法的概率分布,即滿足輸出歸一化的條件忍疾。這樣只需要考慮正常句子概率值高就是一個合理的語言模型闯传。
由于一般的模型是通過短句子(或者詞)連乘來估計得到長句子的概率,那短句子更容易獲得一個高的概率值卤妒。于是希望模型價值與句子長度無關(guān)甥绿,通常得到的概率值還要進一步處理,用困惑度(perplexity)來評價模型:
語言模型都就是指語言模型對于測試數(shù)據(jù)集的困惑度则披。測試集語句概率值越大共缕,困惑度越小,模型越合理收叶。
語言模型的建立與使用
語言模型非常依賴于訓(xùn)練語料的風(fēng)格骄呼,或者說是語料場景。因此在使用時需要明確使用用環(huán)境判没。
數(shù)據(jù)平滑
加1法(Additive smoothing)
n元語法蜓萄,每一種n元的情況(每一種條件)出現(xiàn)的次數(shù)加1。
對于n>2的情況澄峰,僅僅是條件概率的條件變成了多個嫉沽,上述公式仍然適用。
減值法/折扣法(Discounting)
基本思想:保證總樣本數(shù)不變俏竞,減小一個樣本貢獻度绸硕。而上面的加值其實是增加了樣本數(shù)量
Good-Turing 法:對非0事件按公式削減出現(xiàn)的次數(shù),節(jié)留出來的概率均分給0概率事件魂毁。玻佩。
在整個縮減過程中,保證總計數(shù)不變席楚,即計數(shù)值變換前后$N=\sum_{r=0}{\infty}n_rr=\sum_{r=1}^{\infty}n_rr$
這里的削減不是自然數(shù)的削減(否則出現(xiàn)次數(shù)為1削減后等于0了)咬崔,而是浮點數(shù)的削減,削減之后出現(xiàn)次數(shù)不再是自然數(shù)烦秩,而是浮點l數(shù)了垮斯。滿足上式的一個解是:$r^
=(r+1)\frac{n_{r+1}}{n_r}$.
這樣,原先出現(xiàn)$r$次對應(yīng)的概率是$p=\frac{r}{N}$只祠,改變計數(shù)值后變?yōu)?p*=\frac{r*}{N}$
Katz 后退法:對非0事件按Good-Turing法計算減值兜蠕,節(jié)留出來的概率按低階分布分給0概率事件。
絕對減值法:對非0事件無條件削減某一固定的出現(xiàn)次數(shù)值抛寝,節(jié)留出來的概率均分給0概率事件熊杨。
線性減值法:對非0事件根據(jù)出現(xiàn)次數(shù)按比例削減次數(shù)值曙旭,節(jié)留出來的概率均分給0概率事件
神經(jīng)網(wǎng)絡(luò)語言模型
與一般的語言模型一樣,都是計算在給定上下文的條件下晶府,某一個詞的離散概率夷狰,如$P(good| the \ movie \ is \ )$的值。更加規(guī)范地郊霎,語言模型應(yīng)該是給定上下文的條件下,當(dāng)前詞在詞匯表上的離散概率分布爷绘。$p (w_t|contaxt)$
前饋神經(jīng)語言模型(Bengio et al., 2003)
循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型
這個模型解除了信息依賴的限制:當(dāng)前信息不再只能依靠n-1個周圍詞书劝,而是理論上能夠從無限長的上下文中獲取信息:
神經(jīng)網(wǎng)絡(luò)語言模型本身是連續(xù)的,而且能夠?qū)Ω怕手捣植际酱鎯?以至于參數(shù)無法解釋土至,像一個黑箱)购对,好處是:
不需要平滑(連續(xù)值表征)
以相對少的參數(shù)存儲(表征)大量離散參數(shù)
對詞進行連續(xù)空間的嵌入。這一步是順帶的陶因。語言模型的輸入是離散的詞骡苞,通過一個表,將詞用一個200維左右的相連進行表征楷扬。這個二維浮點參數(shù)表在語言模型的訓(xùn)練過程中(上下文條件概率分布逼近one-hot實際值)解幽,不斷調(diào)整。連續(xù)壓縮表征語言的目標(biāo)使得這個表的參數(shù)在調(diào)整過程中烘苹,上下文相近的詞躲株,低維連續(xù)向量表征也相似。
分詞——比字更高一層的語言表征單位
字(character)構(gòu)成詞(word), 由于中文等的特殊性镣衡,得到詞為單位的文本需要進行分詞霜定,也就是在漢語文本中的詞與詞之間加上邊界±扰福可以說望浩,分詞是實現(xiàn)比字更抽象(高層)的文本單位來表征文本,這個文本單位更能表征語義惰说,因此能夠幫助產(chǎn)生合理的停頓磨德、重音、語氣等助被。分詞任務(wù)困難有三點:
分詞規(guī)范
這使得分詞認(rèn)為成為沒有明確定義的任務(wù)剖张。分詞是一種文本處理的中間環(huán)節(jié),學(xué)習(xí)語言不需要顯示進行這項任務(wù)揩环,而是在完成其他任務(wù)的過程中隱式完成搔弄。因此分詞的實現(xiàn)情況是因人而異的,甚至同一個人也無法給出明確標(biāo)準(zhǔn)丰滑。這和詞嵌入(詞的相似度表征)非常相似顾犹,也是在實現(xiàn)語言模型過程中作為中間結(jié)果自動產(chǎn)生的倒庵。
歧義切分
同一個短語存在多種合法分詞方式,只有少數(shù)分詞方式是合理的炫刷,這個合理需要借助語義激勵性分析擎宝,比如:這篇文章寫得太平淡了。
[*]一個有趣的問題是:人在閱讀文字的時候是先進行分詞再產(chǎn)生文本的理解浑玛,還是先對文本理解再產(chǎn)生分詞绍申?前面說了,有效的分詞很大程度依賴語義理解顾彰;而不先進行分詞极阅,又怎么進行語義的分析呢?這似乎說明了分詞與語義并不是完全分開的涨享,而是動態(tài)結(jié)合筋搏、相互信息支撐的部分(可以參考EM算法思想)〔匏恚基本的步驟是:按照最常見的分詞方式(初始化)進行分詞奔脐,發(fā)現(xiàn)得到的語義不合理,于是回頭重新進行分詞吁讨,一般就得到合理的句子了髓迎。
未登錄詞識別
語言發(fā)展產(chǎn)生的新詞匯
這些詞匯本身與已經(jīng)存在詞匯沒什么區(qū)別,只是再社會環(huán)境中偶然出現(xiàn)建丧,并被大家認(rèn)可的詞匯竖般,這是語言適應(yīng)時代、環(huán)境發(fā)展的表達能力茶鹃,就好比社會發(fā)展中新工作的產(chǎn)生一樣涣雕。
專有名詞(proper name):人名、地名闭翩、機構(gòu)名挣郭、時間、數(shù)字表達
專業(yè)名詞和研究領(lǐng)域名稱
其他專用名詞疗韵。如書名兑障、電影等
分詞算法
基于詞典的最大匹配法 (Maximum Matching, MM),根據(jù)匹配方向分為:
正向最大匹配算法 (Forward MM, FMM)
逆向最大匹配算法 (Backward MM, BMM)
雙向最大匹配算法 (Bi-directional MM)
基本思想是從詞典中按照詞從長到短的對文本進行匹配蕉汪,形象表示是一個指針從起點開始流译,依據(jù)詞典,盡可能向前跳轉(zhuǎn)者疤。比如詞典中最長詞為m福澡,指針希望每一次向前跳轉(zhuǎn)m個字,但是并匹配不上驹马,于是減小期望革砸,希望向前跳轉(zhuǎn)m-1個字...直到能正確匹配上除秀,才真正進行跳轉(zhuǎn)。顯然一次跨過的那些字就是詞典中的一個詞算利。)
淺句法分析(Partial Parsing / chunking)
動機(motivation):樹狀結(jié)構(gòu)分析是對語言的精細(xì)處理(fine-grained manipulation)册踩,任務(wù)復(fù)雜,人類也不會這般處理效拭。拿圖像領(lǐng)域做一個類比暂吉,就好像從一個復(fù)雜的迷宮中找一條路徑。我們在處理日常文字信息時缎患,面對的都是簡單的(或者說是常見的)借笙、少數(shù)的語法,并且不會非常仔細(xì)地用一個樹狀結(jié)構(gòu)進行句法分析较锡,更通常是從句子中提取短語塊(chunk),然后用一個宏觀的語法來分析語句盗痒。這也是我們?nèi)祟愒谔幚泶罅课谋拘畔r的一個簡化方式(快速閱讀)蚂蕴,無需仔細(xì)進行語法檢查等。
Chunking-System Evaluations
Precision以模型輸出個數(shù)為分母俯邓,其中正確的個數(shù)為分子(模型輸出的正確占比):
$$\textbf{Precision}: = \frac{\text{Number of correct chunks given by system}}{\text{Total number of chunks given by system}} $$
Recall 以理想正確個數(shù)為分母骡楼,實際正確個數(shù)為分子(系統(tǒng)能辨別出的占比):
$$\textbf{Recall}: = \frac{\text{Number of correct chunks given by system}}{\text{Total number of actual chunks in the text
}} $$
F-measure是兩者的調(diào)和平均(Harmonic Mean):
$$
F=\frac{2}{\frac{1}{P}+\frac{1}{R}}
$$
依存分析(Dependency Parsing) ch14
可以看出,依存分析沒有詞性類別和短語結(jié)構(gòu)類別稽鞭。與基于短語結(jié)構(gòu)的句法分析相比鸟整,依存分析對句子結(jié)構(gòu)要求非常寬松。一個新的句子結(jié)構(gòu)可以直接用依存分析表示朦蕴,但是句法分析需要創(chuàng)建新的對應(yīng)語法才能表示篮条。兩者都是用樹進行表示,不過前者需要借助中間結(jié)點(原語句沒有的詞語)吩抓,表示的是由詞匯構(gòu)成(抽象)的短語之間的關(guān)系涉茧;而后者所有節(jié)點都是原語句中的詞匯,表示的是兩個詞之間的有向關(guān)系(grammatical relation)疹娶。有向關(guān)系的出結(jié)點是頭(head)伴栓,入結(jié)點是依賴(dependent)
左邊是依存分析:所有結(jié)點都是原語句詞匯,是文本相關(guān)的語法(context gramma)雨饺;右邊是句法分析钳垮,結(jié)點有短語結(jié)點和詞屬性結(jié)點作為中間結(jié)點,葉子結(jié)點是原語句詞匯额港,是文本無關(guān)的語法(context-free gramma)
Evaluation
準(zhǔn)確率就是一句話中饺窿,被正確分配依存關(guān)系的詞的個數(shù)/總的詞的個數(shù)。注:關(guān)系數(shù)與詞的個數(shù)相同移斩,因為每一個有向關(guān)系都有一個入度短荐,而每個詞有且僅有一個入度倚舀,考察每個詞其實是考察入度對應(yīng)的詞、標(biāo)簽是否正確
正確的詞有下面一些準(zhǔn)則:
labeled attachment score (LAS):
考察所有的詞(也就是以詞的個數(shù)為分母)忍宋,入度對應(yīng)的詞正確率
unlabeled attachment score (UAS):
考察所有的詞痕貌,入度對應(yīng)的詞和標(biāo)簽正確率
dependency score (DS):
考察根節(jié)點外的詞,入度對應(yīng)的詞的正確率(也即是分母比UAS少1)
語義分析
任務(wù):
語義分析任務(wù)一 —— 詞義消歧
語義分析任務(wù)二 —— 語義角色標(biāo)注
以謂語為中心糠排,分析出句子的描述的事件:時間舵稠、地點、任務(wù)等
目前的語義角色標(biāo)注方法非常依賴于句法分析結(jié)果入宦、且領(lǐng)域適應(yīng)性差哺徊。
領(lǐng)域適應(yīng)性測量
訓(xùn)練集和測試集選擇不同的語料庫(一般是不同的文體)。
篇章分析
篇章分析是指多語句之間的關(guān)系分析乾闰。篇章內(nèi)部存在銜接性落追,也就是指代現(xiàn)象。確定指代對象也可以看作一種消歧任務(wù)涯肩。
準(zhǔn)確指代需要挖掘更加抽象的信息轿钠,
語料庫
Tree Bank
代表性的是Penn Tree Bank,中文是CTB. 都包含了句法結(jié)構(gòu)和詞性
樹庫擴展
賓夕法尼亞大學(xué)樹庫PTB的擴展:
命題庫PropBank (Proposition Bank)
PropBank 的目標(biāo)是對原樹庫中的句法節(jié)點標(biāo)注上特定的論元標(biāo)記 (argument label)病苗,使其保持語義角色的相似性
名詞化樹庫NomBank (Nominalization Bank)
NomBank標(biāo)注的是樹庫中名詞的詞義和相關(guān)的論元信息疗垛。
語篇樹庫 (Penn Discourse Tree Bank, PDTB)
WordNet & WikiBase & FreeBase
自然語言產(chǎn)生于人類的社會活動,由于沒有強制的(??)語言規(guī)定硫朦,自然語言本質(zhì)更適合用復(fù)雜系統(tǒng)進行描述贷腕。復(fù)雜系統(tǒng)中有各種形式的個體,lemma咬展,word sens...他們之間構(gòu)成了相互交錯的泽裳、動態(tài)演化的復(fù)雜網(wǎng)絡(luò)。
同義詞(synonymy)
同義詞是詞義上的可替換破婆,而不是詞的可替換诡壁。幾乎不存在兩個在任何語境下可替換的詞。這是語言冗余荠割、魯棒的原因之一:不會因為遺忘某個詞使得無法表述一個詞義妹卿,這就滿足了不同語言儲備的多個體交流情況;不同人說話哪怕表達的意思一樣蔑鹦,也存在不同的風(fēng)格夺克。
計算機語言也存在實現(xiàn)相同功能,不同的代碼實現(xiàn)嚎朽。也可以看作是同義'詞'铺纽,所以本質(zhì)上可替換詞是由于思維的冗余性產(chǎn)生的。我們也可以把
WrodNet是一個定義詞義(word sense)的方式:以詞義為結(jié)點哟忍,詞義之間的關(guān)系為邊狡门,構(gòu)造一個詞義網(wǎng)絡(luò)陷寝。通過其在網(wǎng)絡(luò)中的環(huán)境來定義這個詞義。
WordNetis alexical database(詞匯) for the English language. It groups English words into sets ofsynonymscalledsynsets(同義詞), provides short definitions and usage examples, and records a number of relations among these synonym sets or their members.
— Wikipedia
Synonyms are grouped together in something calledSynset. 同義詞之間形成網(wǎng)絡(luò)其馏。Synonyms--words that denote the same concept and are interchangeable in many contexts--are grouped into unordered sets (synsets).? 同義詞之間是沒有順序的
Asynset contains lemmas, which are the base form of a word. “l(fā)emma”是word的原始形式
Each of WordNet’s 117 000 synsets is linked to other synsets by means of a small number of “conceptual relations.” synsets之間用層級關(guān)系連接凤跑。
There arehierarchical links between synsets(ISA relations or hypernym/hyponym relations)
Several other properties such asantonyms or related words are included for each lemmain the synset 和之間關(guān)系是層級的,hypernym高層關(guān)系叛复,gyponym低層關(guān)系.
https://www.quora.com/Dictionaries-In-WordNet-whats-the-difference-between-a-sense-and-a-lemma
首先搞清什么是lemma
the lemma is the base word form that is indexed in WordNet.? lemma是一個詞的原型仔引。 jump, jumps, jumped, and jumping are all words and all inflections of a single lemma, jump.
WordNet interlinks not just word forms—strings of letters—but specific** senses** of words.
一個synset包含多個lemma,這些lemmas就是同義詞褐奥,例如:
talk = wn.synset('talk.v.01')print( talk.lemmas() )# [Lemma('talk.v.01.talk'), Lemma('talk.v.01.speak')]
'talk'是一個synset咖耘,對應(yīng)一個sense,包含兩個lemmas: talk, speak
word#sense number (sense key)
car#1 (car%1:06:00::)
A word form (or lemma) that appears in n synsets in WordNet has n senses. 一個word可以出現(xiàn)在多個synset中撬码,因此認(rèn)為有多個sense. These senses may span multiple parts of speech – so if a word appears in, say, 7 synsets, it might have 4 noun senses, 2 verb senses, and an adjective sense.
In WordNet a lemma has senses. Specifically, a lemma has exactly as many senses as the number of synsets that it participates in. Conversely, and as you say, synsets contain one more more lemmas, which means that multiple lemmas (words) can represent the same sense, or meaning.
multiple lemmas (words) can represent the same sense, or meaning.
作者:藝術(shù)叔
鏈接:http://www.reibang.com/p/37a114e13e7a
來源:簡書
簡書著作權(quán)歸作者所有儿倒,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處。