《自然語言處理》整理2

機(jī)器翻譯

源語言(Source language)：需要翻譯的語言插勤；目標(biāo)語言(Target language)：翻譯后的語言

基于規(guī)則的翻譯方法(Rule-based)

翻譯過程分成6個(gè)步驟：

(a) 對源語言句子進(jìn)行詞法分析

(b) 對源語言句子進(jìn)行句法/語義分析

(d) 譯文句法結(jié)構(gòu)生成

(e) 源語言詞匯到譯文詞匯的轉(zhuǎn)換

(f) 譯文詞法選擇與生成

優(yōu)點(diǎn)：可以較好地保持原文的結(jié)構(gòu)狸涌，產(chǎn)生的譯文結(jié)構(gòu) 與源文的結(jié)構(gòu)關(guān)系密切，尤其對于語言現(xiàn)象已知的或句法結(jié)構(gòu)規(guī)范的源語言語句具有較強(qiáng)的處理能力和較好的翻譯效果纽甘。

弱點(diǎn)：規(guī)則一般由人工編寫傻寂，工作量大帽揪，主觀性強(qiáng)拢肆，一致性難以保障，不利于系統(tǒng)擴(kuò)充耐亏，對非規(guī)范語言現(xiàn) 象缺乏相應(yīng)的處理能力徊都。

統(tǒng)計(jì)機(jī)器翻譯

信道模型:

目標(biāo)語言經(jīng)過信道后，產(chǎn)生了元語言：

$$P(T|S)=\frac{P(T)P(S|T)}{P(S)}$$那么翻譯過程就是求解：

$$\hat{T}=\arg\max_T{P(T)P(S|T)}$$

這個(gè)公式涉及到三方面的計(jì)算：

$P(T)$: 目標(biāo)語言的語言模型

一般用短語或者詞的概率和n元條件獨(dú)立的Markov假設(shè)對一個(gè)完整句子的概率進(jìn)行估算广辰。

$P(S|T)$: 翻譯模型

注意暇矫，這個(gè)翻譯模型將原先的源語言到目標(biāo)語言的翻譯轉(zhuǎn)化成目標(biāo)語言到源語言的翻譯。（所以完全沒有減輕任務(wù)嘛-_-!!）

為了求解兩個(gè)不同語言句子之間的條件概率轨域，也是將句子拆成短語或詞為單位袱耽，然后利用連乘進(jìn)行估算(和語言模型一樣，為了解決直接求一個(gè)句子的概率的稀疏性)干发。這樣長句子的條件概率就成了詞的對位朱巨，這種對位關(guān)系模型為：在目標(biāo)語言句子$T$的長度（單詞的個(gè)數(shù)）為 $l$，源語言句子$S$的長度為 $m$ 的情況下枉长，$T$ 和 $S$ 的單詞之間有 $l\times m$種不同的對應(yīng)關(guān)系冀续。對位模型 $A$是從源語言到目標(biāo)語言的對位表示。

IBM Model 1假設(shè)對位概率是均勻分布的必峰，即每一個(gè)$a_i$的值的概率分布是均勻的

根據(jù)IBM翻譯模型1洪唐，由英語句子$e$生成法語句子$f$ 的實(shí)現(xiàn)過程：

(1) 根據(jù)概率分布為法語句子$f$ 選擇一個(gè)長度$m$;

(2) 對于每一個(gè)$ j = 1,2,...,m $ ，根據(jù)均勻分布原則從 $0, 1, ..., l$ 中選擇一個(gè)值給$a_j$;

(3) 對于每一個(gè) $j = 1, 2, ..., m$吼蚁，根據(jù)概率$ p(f_j|e_{a_j}) $選擇一個(gè)法語單詞$f_j$凭需。

IBM Model2進(jìn)一步具體了對位概率$a(a_j|j,l,m) $

$\arg\max_T$: 搜索算法

beam search

這種翻譯模型就像是在破譯密碼，不是從語義層次進(jìn)行肝匆，而是根據(jù)大量明文粒蜈、編碼進(jìn)行對照，對于一些簡短的旗国、常見的翻譯還行枯怖。

基于短語的翻譯模型

在基于短語的模型中，直接將繁衍率信息能曾、上下文信息以及局部對位調(diào)序信息記錄在翻譯規(guī)則中度硝。這里所說的短語指一個(gè)連續(xù)的詞串(n-gram)肿轨，不一定是語言學(xué)中定義的短語(phrase, noun phrase, verb phrase)

短語劃分模型

目標(biāo)：將一個(gè)詞序列如何劃分為短語序列

方法：一般假設(shè)每一種短語劃分方式都是等概率的

短語翻譯模型

學(xué)習(xí)短語翻譯規(guī)則

借助雙語句對詞語對齊，滿足對齊一致性的就是一個(gè)短語翻譯規(guī)則蕊程。在詞對應(yīng)表格中體現(xiàn)為沒有空行和空列的矩形塊椒袍；

在詞對齊中表現(xiàn)為沒有源語言或者目標(biāo)語言對應(yīng)的詞在短語對外：

估計(jì)短語翻譯概率

短語調(diào)序模型

目標(biāo)語言模型

基于短語的翻譯模型缺陷

(1) 基于短語的翻譯模型能夠比較魯棒地翻譯較短的子串，當(dāng)短語長度擴(kuò)展到3個(gè)以上的單詞時(shí)存捺，翻譯系統(tǒng)的性能提高很少槐沼，短語長度增大以后曙蒸，數(shù)據(jù)稀疏問題變得非常嚴(yán)重捌治。

(2) 在很多情況下簡單的短語翻譯模型無法處理短語之間（尤其是長距離）的調(diào)序。

(3) 基于短語翻譯模型無法處理非連續(xù)短語翻譯現(xiàn)象纽窟，例如（在 … 時(shí)肖油，when …）

基于層次化短語的翻譯模型

樹翻譯模型

樹到串模型

規(guī)則是源語言的句法結(jié)構(gòu)到目標(biāo)語言串(包含目標(biāo)語言替換變量)的替換。

先將源語言S進(jìn)行句法分析臂港，得到句法分析樹森枪。從枝葉到樹干(微觀尺度到宏觀尺度)地進(jìn)行規(guī)則匹配，最終生成目標(biāo)語言串审孽。

樹到串模型的優(yōu)勢：搜索空間小县袱、解碼效率高；句法分析質(zhì)量較高的前提下佑力，翻譯效果不錯(cuò)

樹到串模型的不足：強(qiáng)烈依賴于源語言句法分析的質(zhì)量式散；利用源語言端句法結(jié)構(gòu)精確匹配，數(shù)據(jù)稀疏嚴(yán)重打颤；沒有使用任何目標(biāo)語言句法知識暴拄，無法保證目標(biāo)譯文符合文法

樹到樹模型

規(guī)則是源語言的句法結(jié)構(gòu)到目標(biāo)語言的句法結(jié)構(gòu)替換

給定源語言和目標(biāo)語言的雙語平行句對（經(jīng)過詞語對齊、源語言和目標(biāo)語言端經(jīng)過句法分析）编饺，抽取滿足詞語對齊的樹到樹翻譯規(guī)則乖篷。

樹到樹模型的優(yōu)勢：搜索空間小、解碼效率高

樹到樹模型的不足：強(qiáng)烈依賴于源語言和目標(biāo)語言句法分析的質(zhì)量透且；利用兩端句法結(jié)構(gòu)精確匹配撕蔼，數(shù)據(jù)稀疏非常嚴(yán)重；翻譯質(zhì)量差

串到樹模型

串到樹模型的優(yōu)勢：搜索空間大秽誊，保證譯文符合文法鲸沮，翻譯質(zhì)量高

? 串到樹模型的不足：解碼速度受限；未使用源語言端句法知識养距，存在詞義消歧問題

基于規(guī)則的句法樹轉(zhuǎn)換

機(jī)器翻譯系統(tǒng)評價(jià)

主觀評價(jià)

主要是依賴人工诉探，從流暢性和充分性兩個(gè)方面進(jìn)行打分。

客觀評價(jià)

是一種自動(dòng)評價(jià)系統(tǒng)/標(biāo)準(zhǔn)棍厌。雖然很好滿足標(biāo)準(zhǔn)的不一定是主觀上很好的翻譯肾胯，但是較好的翻譯一般都是很好滿足標(biāo)準(zhǔn)的竖席。因此制定標(biāo)準(zhǔn)只要滿足上述要求就行。

these metrics assume that valid responses have significant word overlap with the ground truth responses.

BLEU(BiLingual Evaluation Understudy)

系統(tǒng)譯文中的單詞計(jì)數(shù)不會超過該詞在某個(gè)參考譯文中出現(xiàn)次數(shù)的最大值敬肚。

N is the maximum length of n-grams considered. 也就是說BLEU-N考慮從1到N的語言模型毕荐。

借助參考譯文：

Greedy Matching. 句子中詞向量相似度匹配

Embedding Average. 利用詞向量計(jì)算整個(gè)句子的向量，再用歸一化余弦度量句子相似度艳馒。

不借助參考譯文：

將輸出語言輸入到語言模型憎亚、句法分析后得到和正常語句相近的概率值(流暢度評價(jià))

原文中詞對應(yīng)的詞典翻譯在系統(tǒng)譯文被覆蓋情況，與這個(gè)詞的頻率倒數(shù)進(jìn)行加權(quán)(充分性)

篇章特征與文本分類弄慰、檢索

與前面的章節(jié)不同第美，本章節(jié)處理的是以文本為單位，更加粗糙陆爽。從粗糙度方面來說什往，文本為單位信息量更加豐富、完整慌闭，更加方便别威、準(zhǔn)確進(jìn)行特征表示、提取驴剔。

篇章特征

首先需進(jìn)行文本表示省古。一般通過選取特征，量化特征值丧失，組成向量豺妓，也就是向量空間模型(vector space model, VSM). 特征可以是字、短語利花、或者是更加一般的用于匹配的規(guī)則科侈。由于不同特征的尺度不盡相同使用同樣的數(shù)值單位不合理，于是每個(gè)維度單獨(dú)分配一個(gè)權(quán)重炒事。

對于一個(gè)語料臀栈，文本的某個(gè)特征可能出現(xiàn)頻率很低，比如用一個(gè)確定的句子作為特征挠乳。過低的頻率代表性不足权薯，比如描述一個(gè)人，代表性強(qiáng)的特征是“個(gè)頭中等”或者“身高165~175”睡扬，代表性低的是“身高172.3mm”. 相反地盟蚣，特征的出現(xiàn)頻率過高，沒有區(qū)分度卖怜，我們不會描述一個(gè)人長著“一個(gè)鼻子屎开，兩只眼睛”。用于表示文本特征的向量一般都比較高马靠。

確定了準(zhǔn)備選取的特征后奄抽，接下來就是具體確一個(gè)文檔的特征值蔼两，也就是對于一個(gè)文檔和一個(gè)特征，確定這個(gè)特征對應(yīng)的標(biāo)量值逞度。很直觀地可以用這個(gè)歌在這個(gè)文檔中出現(xiàn)頻數(shù)(TF)作為標(biāo)量值额划，也可以用是否出現(xiàn)(bool值)作為標(biāo)量值。不過直接用特征出現(xiàn)頻數(shù)作為標(biāo)量值有一個(gè)局限性档泽，那就是沒有體現(xiàn)這個(gè)特征區(qū)分度俊戳。將特征出現(xiàn)頻數(shù)與特征在所有文本中覆蓋率的倒數(shù)進(jìn)行加權(quán)就是TF-IDF: $\text{tf}_{ij}\times \ln\frac{N}{n_i}$.

文本特征局限性

僅從統(tǒng)計(jì)的角度來分析，脫離語義馆匿、推理與常識抑胎。

特征離散

這里的圖像指的是自然圖像，非自然圖像比如文字的圖像甜熔、樂譜圆恤、表情突倍、手語腔稀，這些人類擅長、敏感的羽历、獨(dú)有的焊虏、需要借助經(jīng)驗(yàn)的才能解讀的。?

筆者個(gè)人覺得這個(gè)假設(shè)是正確的秕磷，能夠用于經(jīng)典物理學(xué)下概率事件诵闭。當(dāng)然量子力學(xué)中還存在復(fù)數(shù)域的概率，暫不做探討澎嚣。?

參見之前寫的《sequence labeling》?

不過現(xiàn)在只需要設(shè)計(jì)特征模板疏尿，算法可以自動(dòng)學(xué)習(xí)特征參數(shù)?

開塔蘭數(shù)(Catalan Numbers):有這樣一個(gè)問題：現(xiàn)有n對括號，一共有多少種合法的組合方式易桃？比如$n=3$褥琐，有$$((())) ;? ? ()(())? ;? ()()()?;? (())() ;? ? (()())$$種。描述這種組合方式的就是開塔蘭數(shù):$$C_{n}={2n \choose n}-{2n \choose n+1}={1 \over n+1}{2n \choose n}\quad {\text{ for }}n\geq 0,$$ 再比如：

還有n邊形被切分成三角形的方式：

作者：藝術(shù)叔

鏈接：http://www.reibang.com/p/37a114e13e7a

來源：簡書

簡書著作權(quán)歸作者所有晤郑，任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處敌呈。

最后編輯于：2018.10.09 08:14:39

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市造寝，隨后出現(xiàn)的幾起案子磕洪，更是在濱河造成了極大的恐慌，老刑警劉巖诫龙，帶你破解...
沈念sama閱讀 221,273評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件析显，死亡現(xiàn)場離奇詭異，居然都是意外死亡签赃，警方通過查閱死者的電腦和手機(jī)谷异，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,349評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門浑侥，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人晰绎，你說我怎么就攤上這事寓落。” “怎么了荞下？”我有些...
開封第一講書人閱讀 167,709評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵伶选，是天一觀的道長。經(jīng)常有香客問我尖昏，道長仰税，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,520評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任抽诉，我火速辦了婚禮陨簇，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘迹淌。我一直安慰自己河绽，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,515評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布唉窃。她就那樣靜靜地躺著耙饰，像睡著了一般。火紅的嫁衣襯著肌膚如雪纹份。梳的紋絲不亂的頭發(fā)上苟跪，一...
開封第一講書人閱讀 52,158評論 1贊 308
城市分裂傳說
那天，我揣著相機(jī)與錄音蔓涧，去河邊找鬼件已。笑死，一個(gè)胖子當(dāng)著我的面吹牛元暴，可吹牛的內(nèi)容都是我干的篷扩。我是一名探鬼主播，決...
沈念sama閱讀 40,755評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼昨寞，長吁一口氣：“原來是場噩夢啊……” “哼瞻惋！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起援岩，我...
開封第一講書人閱讀 39,660評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤歼狼，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后享怀，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體羽峰，經(jīng)...
沈念sama閱讀 46,203評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,287評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了梅屉。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片值纱。...
茶點(diǎn)故事閱讀 40,427評論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡戳杀，死狀恐怖其馏，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情少态，我是刑警寧澤惰聂，帶...
沈念sama閱讀 36,122評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布疆偿，位于F島的核電站，受9級特大地震影響搓幌，放射性物質(zhì)發(fā)生泄漏杆故。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,801評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一溉愁、第九天我趴在偏房一處隱蔽的房頂上張望处铛。院中可真熱鬧，春花似錦拐揭、人聲如沸撤蟆。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,272評論 0贊 23
一樁弒父案投队，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽枫疆。三九已至，卻和暖如春敷鸦，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背寝贡。一陣腳步聲響...
開封第一講書人閱讀 33,393評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工扒披，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人圃泡。一個(gè)月前我還...
沈念sama閱讀 48,808評論 3贊 376
代替公主和親
正文我出身青樓碟案，卻偏偏與公主長得像，于是被迫代替她去往敵國和親颇蜡。傳聞我的和親對象是個(gè)殘疾皇子价说，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,440評論 2贊 359

《自然語言處理》整理2

推薦閱讀更多精彩內(nèi)容