機(jī)器翻譯
源語言(Source language):需要翻譯的語言插勤;目標(biāo)語言(Target language):翻譯后的語言
基于規(guī)則的翻譯方法(Rule-based)
翻譯過程分成6個(gè)步驟:
(a) 對源語言句子進(jìn)行詞法分析
(b) 對源語言句子進(jìn)行句法/語義分析
(c) 源語言句子結(jié)構(gòu)到譯文結(jié)構(gòu)的轉(zhuǎn)換
(d) 譯文句法結(jié)構(gòu)生成
(e) 源語言詞匯到譯文詞匯的轉(zhuǎn)換
(f) 譯文詞法選擇與生成
優(yōu)點(diǎn):可以較好地保持原文的結(jié)構(gòu)狸涌,產(chǎn)生的譯文結(jié)構(gòu) 與源文的結(jié)構(gòu)關(guān)系密切,尤其對于語言現(xiàn)象已知的或 句法結(jié)構(gòu)規(guī)范的源語言語句具有較強(qiáng)的處理能力和較 好的翻譯效果纽甘。
弱點(diǎn):規(guī)則一般由人工編寫傻寂,工作量大帽揪,主觀性強(qiáng)拢肆, 一致性難以保障,不利于系統(tǒng)擴(kuò)充耐亏,對非規(guī)范語言現(xiàn) 象缺乏相應(yīng)的處理能力徊都。
統(tǒng)計(jì)機(jī)器翻譯
信道模型:
目標(biāo)語言經(jīng)過信道后,產(chǎn)生了元語言:
$$P(T|S)=\frac{P(T)P(S|T)}{P(S)}$$那么翻譯過程就是求解:
$$\hat{T}=\arg\max_T{P(T)P(S|T)}$$
這個(gè)公式涉及到三方面的計(jì)算:
$P(T)$: 目標(biāo)語言的語言模型
一般用短語或者詞的概率和n元條件獨(dú)立的Markov假設(shè)對一個(gè)完整句子的概率進(jìn)行估算广辰。
$P(S|T)$: 翻譯模型
注意暇矫,這個(gè)翻譯模型將原先的源語言到目標(biāo)語言的翻譯轉(zhuǎn)化成目標(biāo)語言到源語言的翻譯。(所以完全沒有減輕任務(wù)嘛-_-!!)
為了求解兩個(gè)不同語言句子之間的條件概率轨域,也是將句子拆成短語或詞為單位袱耽,然后利用連乘進(jìn)行估算(和語言模型一樣,為了解決直接求一個(gè)句子的概率的稀疏性)干发。這樣長句子的條件概率就成了詞的對位朱巨,這種對位關(guān)系模型為:在目標(biāo)語言句子$T$的長度(單詞的個(gè)數(shù))為 $l$,源語言句子$S$的長度為 $m$ 的情況下枉长,$T$ 和 $S$ 的單詞之間有 $l\times m$種不同的對應(yīng)關(guān)系冀续。對位模型 $A$是從源語言到目標(biāo)語言的對位表示。
IBM Model 1假設(shè)對位概率是均勻分布的必峰,即每一個(gè)$a_i$的值的概率分布是均勻的
根據(jù)IBM翻譯模型1洪唐,由英語句子$e$生成法語句子$f$ 的實(shí)現(xiàn)過程:
(1) 根據(jù)概率分布為法語句子$f$ 選擇一個(gè)長度$m$;
(2) 對于每一個(gè)$ j = 1,2,...,m $ ,根據(jù)均勻分布原則從 $0, 1, ..., l$ 中選擇一個(gè)值給$a_j$;
(3) 對于每一個(gè) $j = 1, 2, ..., m$吼蚁,根據(jù)概率$ p(f_j|e_{a_j}) $選擇一個(gè)法語單詞$f_j$凭需。
IBM Model2進(jìn)一步具體了對位概率$a(a_j|j,l,m) $
$\arg\max_T$: 搜索算法
beam search
這種翻譯模型就像是在破譯密碼,不是從語義層次進(jìn)行肝匆,而是根據(jù)大量明文粒蜈、編碼進(jìn)行對照,對于一些簡短的旗国、常見的翻譯還行枯怖。
基于短語的翻譯模型
在基于短語的模型中,直接將繁衍率信息能曾、上下文 信息以及局部對位調(diào)序信息記錄在翻譯規(guī)則中度硝。這里所說的短語指一個(gè)連續(xù)的詞串(n-gram)肿轨,不 一定是語言學(xué)中定義的短語(phrase, noun phrase, verb phrase)
短語劃分模型
目標(biāo):將一個(gè)詞序列如何劃分為短語序列
方法:一般假設(shè)每一種短語劃分方式都是等 概率的
短語翻譯模型
學(xué)習(xí)短語翻譯規(guī)則
借助雙語句對詞語對齊,滿足對齊一致性的就是一個(gè)短語翻譯規(guī)則蕊程。在詞對應(yīng)表格中體現(xiàn)為沒有空行和空列的矩形塊椒袍;
在詞對齊中表現(xiàn)為沒有源語言或者目標(biāo)語言對應(yīng)的詞在短語對外:
估計(jì)短語翻譯概率
短語調(diào)序模型
目標(biāo)語言模型
基于短語的翻譯模型缺陷
(1) 基于短語的翻譯模型能夠比較魯棒地翻譯較短的子串,當(dāng)短語長度擴(kuò)展到3個(gè)以上的單詞時(shí)存捺,翻譯系統(tǒng)的性能提高很少槐沼,短語長度增大以后曙蒸,數(shù)據(jù)稀疏問題變得非常嚴(yán)重捌治。
(2) 在很多情況下簡單的短語翻譯模型無法處理短語之間(尤其是長距離)的調(diào)序。
(3) 基于短語翻譯模型無法處理非連續(xù)短語翻譯現(xiàn)象纽窟,例如 (在 … 時(shí)肖油,when …)
基于層次化短語的翻譯模型
樹翻譯模型
樹到串模型
規(guī)則是源語言的句法結(jié)構(gòu)到目標(biāo)語言串(包含目標(biāo)語言替換變量)的替換。
先將源語言S進(jìn)行句法分析臂港,得到句法分析樹森枪。從枝葉到樹干(微觀尺度到宏觀尺度)地進(jìn)行規(guī)則匹配,最終生成目標(biāo)語言串审孽。
樹到串模型的優(yōu)勢:搜索空間小县袱、解碼效率高;句法分析質(zhì)量較高的前提下佑力,翻譯效果不錯(cuò)
樹到串模型的不足:強(qiáng)烈依賴于源語言句法分析的質(zhì)量式散;利用源語言端句法結(jié)構(gòu)精確匹配,數(shù)據(jù)稀疏 嚴(yán)重打颤;沒有使用任何目標(biāo)語言句法知識暴拄,無法保證目標(biāo)譯文符合文法
樹到樹模型
規(guī)則是源語言的句法結(jié)構(gòu)到目標(biāo)語言的句法結(jié)構(gòu)替換
給定源語言和目標(biāo)語言的雙語平行句對(經(jīng)過詞語對齊 、源語言和目標(biāo)語言端經(jīng)過句法分析)编饺, 抽取滿足詞語對齊的樹到樹翻譯規(guī)則乖篷。
樹到樹模型的優(yōu)勢:搜索空間小、解碼效率高
樹到樹模型的不足:強(qiáng)烈依賴于源語言和目標(biāo)語言句法分析的質(zhì)量透且;利用兩端句法結(jié)構(gòu)精確匹配撕蔼,數(shù)據(jù)稀疏非常嚴(yán)重; 翻譯質(zhì)量差
串到樹模型
串到樹模型的優(yōu)勢:搜索空間大秽誊,保證譯文符合文法鲸沮,翻譯質(zhì)量高
? 串到樹模型的不足:解碼速度受限;未使用源語言端句法知識养距,存在詞義消歧問題
基于規(guī)則的句法樹轉(zhuǎn)換
機(jī)器翻譯系統(tǒng)評價(jià)
主觀評價(jià)
主要是依賴人工诉探,從流暢性和充分性兩個(gè)方面進(jìn)行打分。
客觀評價(jià)
是一種自動(dòng)評價(jià)系統(tǒng)/標(biāo)準(zhǔn)棍厌。雖然很好滿足標(biāo)準(zhǔn)的不一定是主觀上很好的翻譯肾胯,但是較好的翻譯一般都是很好滿足標(biāo)準(zhǔn)的竖席。因此制定標(biāo)準(zhǔn)只要滿足上述要求就行。
these metrics assume that valid responses have significant word overlap with the ground truth responses.
BLEU(BiLingual Evaluation Understudy)
系統(tǒng)譯文中的單詞計(jì)數(shù)不會超過該詞在某個(gè)參考譯文中出現(xiàn)次數(shù)的最大值敬肚。
N is the maximum length of n-grams considered. 也就是說BLEU-N考慮從1到N的語言模型毕荐。
借助參考譯文:
Greedy Matching. 句子中詞向量相似度匹配
Embedding Average. 利用詞向量計(jì)算整個(gè)句子的向量,再用歸一化余弦度量句子相似度艳馒。
不借助參考譯文:
將輸出語言輸入到語言模型憎亚、句法分析后得到和正常語句相近的概率值(流暢度評價(jià))
原文中詞對應(yīng)的詞典翻譯在系統(tǒng)譯文被覆蓋情況,與這個(gè)詞的頻率倒數(shù)進(jìn)行加權(quán)(充分性)
篇章特征與文本分類弄慰、檢索
與前面的章節(jié)不同第美,本章節(jié)處理的是以文本為單位,更加粗糙陆爽。從粗糙度方面來說什往,文本為單位信息量更加豐富、完整慌闭,更加方便别威、準(zhǔn)確進(jìn)行特征表示、提取驴剔。
篇章特征
首先需進(jìn)行文本表示省古。一般通過選取特征,量化特征值丧失,組成向量豺妓,也就是向量空間模型(vector space model, VSM). 特征可以是字、短語利花、或者是更加一般的用于匹配的規(guī)則科侈。由于不同特征的尺度不盡相同使用同樣的數(shù)值單位不合理,于是每個(gè)維度單獨(dú)分配一個(gè)權(quán)重炒事。
對于一個(gè)語料臀栈,文本的某個(gè)特征可能出現(xiàn)頻率很低,比如用一個(gè)確定的句子作為特征挠乳。過低的頻率代表性不足权薯,比如描述一個(gè)人,代表性強(qiáng)的特征是“個(gè)頭中等”或者“身高165~175”睡扬,代表性低的是“身高172.3mm”. 相反地盟蚣,特征的出現(xiàn)頻率過高,沒有區(qū)分度卖怜,我們不會描述一個(gè)人長著“一個(gè)鼻子屎开,兩只眼睛”。用于表示文本特征的向量一般都比較高马靠。
確定了準(zhǔn)備選取的特征后奄抽,接下來就是具體確一個(gè)文檔的特征值蔼两,也就是對于一個(gè)文檔和一個(gè)特征,確定這個(gè)特征對應(yīng)的標(biāo)量值逞度。很直觀地可以用這個(gè)歌在這個(gè)文檔中出現(xiàn)頻數(shù)(TF)作為標(biāo)量值额划,也可以用是否出現(xiàn)(bool值)作為標(biāo)量值。不過直接用特征出現(xiàn)頻數(shù)作為標(biāo)量值有一個(gè)局限性档泽,那就是沒有體現(xiàn)這個(gè)特征區(qū)分度俊戳。將特征出現(xiàn)頻數(shù)與特征在所有文本中覆蓋率的倒數(shù)進(jìn)行加權(quán)就是TF-IDF: $\text{tf}_{ij}\times \ln\frac{N}{n_i}$.
文本特征局限性
僅從統(tǒng)計(jì)的角度來分析,脫離語義馆匿、推理與常識抑胎。
特征離散
這里的圖像指的是自然圖像,非自然圖像比如文字的圖像甜熔、樂譜圆恤、表情突倍、手語腔稀,這些人類擅長、敏感的羽历、獨(dú)有的焊虏、需要借助經(jīng)驗(yàn)的才能解讀的。?
筆者個(gè)人覺得這個(gè)假設(shè)是正確的秕磷,能夠用于經(jīng)典物理學(xué)下概率事件诵闭。當(dāng)然量子力學(xué)中還存在復(fù)數(shù)域的概率,暫不做探討澎嚣。?
參見之前寫的《sequence labeling》?
不過現(xiàn)在只需要設(shè)計(jì)特征模板疏尿,算法可以自動(dòng)學(xué)習(xí)特征參數(shù)?
開塔蘭數(shù)(Catalan Numbers):有這樣一個(gè)問題:現(xiàn)有n對括號,一共有多少種合法的組合方式易桃?比如$n=3$褥琐,有$$((())) ;? ? ()(())? ;? ()()()?;? (())() ;? ? (()())$$種。描述這種組合方式的就是開塔蘭數(shù):$$C_{n}={2n \choose n}-{2n \choose n+1}={1 \over n+1}{2n \choose n}\quad {\text{ for }}n\geq 0,$$ 再比如:
還有n邊形被切分成三角形的方式:
作者:藝術(shù)叔
鏈接:http://www.reibang.com/p/37a114e13e7a
來源:簡書
簡書著作權(quán)歸作者所有晤郑,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處敌呈。