《自然語言處理》整理2

機(jī)器翻譯

源語言(Source language):需要翻譯的語言插勤;目標(biāo)語言(Target language):翻譯后的語言

基于規(guī)則的翻譯方法(Rule-based)

翻譯過程分成6個(gè)步驟:

(a) 對源語言句子進(jìn)行詞法分析

(b) 對源語言句子進(jìn)行句法/語義分析

(c) 源語言句子結(jié)構(gòu)到譯文結(jié)構(gòu)的轉(zhuǎn)換

(d) 譯文句法結(jié)構(gòu)生成

(e) 源語言詞匯到譯文詞匯的轉(zhuǎn)換

(f) 譯文詞法選擇與生成

優(yōu)點(diǎn):可以較好地保持原文的結(jié)構(gòu)狸涌,產(chǎn)生的譯文結(jié)構(gòu) 與源文的結(jié)構(gòu)關(guān)系密切,尤其對于語言現(xiàn)象已知的或 句法結(jié)構(gòu)規(guī)范的源語言語句具有較強(qiáng)的處理能力和較 好的翻譯效果纽甘。

弱點(diǎn):規(guī)則一般由人工編寫傻寂,工作量大帽揪,主觀性強(qiáng)拢肆, 一致性難以保障,不利于系統(tǒng)擴(kuò)充耐亏,對非規(guī)范語言現(xiàn) 象缺乏相應(yīng)的處理能力徊都。

統(tǒng)計(jì)機(jī)器翻譯

信道模型:

目標(biāo)語言經(jīng)過信道后,產(chǎn)生了元語言:

$$P(T|S)=\frac{P(T)P(S|T)}{P(S)}$$那么翻譯過程就是求解:

$$\hat{T}=\arg\max_T{P(T)P(S|T)}$$

這個(gè)公式涉及到三方面的計(jì)算:

$P(T)$: 目標(biāo)語言的語言模型

一般用短語或者詞的概率和n元條件獨(dú)立的Markov假設(shè)對一個(gè)完整句子的概率進(jìn)行估算广辰。

$P(S|T)$: 翻譯模型

注意暇矫,這個(gè)翻譯模型將原先的源語言到目標(biāo)語言的翻譯轉(zhuǎn)化成目標(biāo)語言到源語言的翻譯。(所以完全沒有減輕任務(wù)嘛-_-!!)

為了求解兩個(gè)不同語言句子之間的條件概率轨域,也是將句子拆成短語或詞為單位袱耽,然后利用連乘進(jìn)行估算(和語言模型一樣,為了解決直接求一個(gè)句子的概率的稀疏性)干发。這樣長句子的條件概率就成了詞的對位朱巨,這種對位關(guān)系模型為:在目標(biāo)語言句子$T$的長度(單詞的個(gè)數(shù))為 $l$,源語言句子$S$的長度為 $m$ 的情況下枉长,$T$ 和 $S$ 的單詞之間有 $l\times m$種不同的對應(yīng)關(guān)系冀续。對位模型 $A$是從源語言到目標(biāo)語言的對位表示。

IBM Model 1假設(shè)對位概率是均勻分布的必峰,即每一個(gè)$a_i$的值的概率分布是均勻的

根據(jù)IBM翻譯模型1洪唐,由英語句子$e$生成法語句子$f$ 的實(shí)現(xiàn)過程:

(1) 根據(jù)概率分布為法語句子$f$ 選擇一個(gè)長度$m$;

(2) 對于每一個(gè)$ j = 1,2,...,m $ ,根據(jù)均勻分布原則從 $0, 1, ..., l$ 中選擇一個(gè)值給$a_j$;

(3) 對于每一個(gè) $j = 1, 2, ..., m$吼蚁,根據(jù)概率$ p(f_j|e_{a_j}) $選擇一個(gè)法語單詞$f_j$凭需。

IBM Model2進(jìn)一步具體了對位概率$a(a_j|j,l,m) $

$\arg\max_T$: 搜索算法

beam search

這種翻譯模型就像是在破譯密碼,不是從語義層次進(jìn)行肝匆,而是根據(jù)大量明文粒蜈、編碼進(jìn)行對照,對于一些簡短的旗国、常見的翻譯還行枯怖。

基于短語的翻譯模型

在基于短語的模型中,直接將繁衍率信息能曾、上下文 信息以及局部對位調(diào)序信息記錄在翻譯規(guī)則中度硝。這里所說的短語指一個(gè)連續(xù)的詞串(n-gram)肿轨,不 一定是語言學(xué)中定義的短語(phrase, noun phrase, verb phrase)

短語劃分模型

目標(biāo):將一個(gè)詞序列如何劃分為短語序列

方法:一般假設(shè)每一種短語劃分方式都是等 概率的

短語翻譯模型

學(xué)習(xí)短語翻譯規(guī)則

借助雙語句對詞語對齊,滿足對齊一致性的就是一個(gè)短語翻譯規(guī)則蕊程。在詞對應(yīng)表格中體現(xiàn)為沒有空行和空列的矩形塊椒袍;

在詞對齊中表現(xiàn)為沒有源語言或者目標(biāo)語言對應(yīng)的詞在短語對外:

估計(jì)短語翻譯概率

短語調(diào)序模型

目標(biāo)語言模型

基于短語的翻譯模型缺陷

(1) 基于短語的翻譯模型能夠比較魯棒地翻譯較短的子串,當(dāng)短語長度擴(kuò)展到3個(gè)以上的單詞時(shí)存捺,翻譯系統(tǒng)的性能提高很少槐沼,短語長度增大以后曙蒸,數(shù)據(jù)稀疏問題變得非常嚴(yán)重捌治。

(2) 在很多情況下簡單的短語翻譯模型無法處理短語之間(尤其是長距離)的調(diào)序。

(3) 基于短語翻譯模型無法處理非連續(xù)短語翻譯現(xiàn)象纽窟,例如 (在 … 時(shí)肖油,when …)

基于層次化短語的翻譯模型

樹翻譯模型

樹到串模型

規(guī)則是源語言的句法結(jié)構(gòu)到目標(biāo)語言串(包含目標(biāo)語言替換變量)的替換。

先將源語言S進(jìn)行句法分析臂港,得到句法分析樹森枪。從枝葉到樹干(微觀尺度到宏觀尺度)地進(jìn)行規(guī)則匹配,最終生成目標(biāo)語言串审孽。

樹到串模型的優(yōu)勢:搜索空間小县袱、解碼效率高;句法分析質(zhì)量較高的前提下佑力,翻譯效果不錯(cuò)

樹到串模型的不足:強(qiáng)烈依賴于源語言句法分析的質(zhì)量式散;利用源語言端句法結(jié)構(gòu)精確匹配,數(shù)據(jù)稀疏 嚴(yán)重打颤;沒有使用任何目標(biāo)語言句法知識暴拄,無法保證目標(biāo)譯文符合文法

樹到樹模型

規(guī)則是源語言的句法結(jié)構(gòu)到目標(biāo)語言的句法結(jié)構(gòu)替換

給定源語言和目標(biāo)語言的雙語平行句對(經(jīng)過詞語對齊 、源語言和目標(biāo)語言端經(jīng)過句法分析)编饺, 抽取滿足詞語對齊的樹到樹翻譯規(guī)則乖篷。

樹到樹模型的優(yōu)勢:搜索空間小、解碼效率高

樹到樹模型的不足:強(qiáng)烈依賴于源語言和目標(biāo)語言句法分析的質(zhì)量透且;利用兩端句法結(jié)構(gòu)精確匹配撕蔼,數(shù)據(jù)稀疏非常嚴(yán)重; 翻譯質(zhì)量差

串到樹模型

串到樹模型的優(yōu)勢:搜索空間大秽誊,保證譯文符合文法鲸沮,翻譯質(zhì)量高

? 串到樹模型的不足:解碼速度受限;未使用源語言端句法知識养距,存在詞義消歧問題

基于規(guī)則的句法樹轉(zhuǎn)換

機(jī)器翻譯系統(tǒng)評價(jià)

主觀評價(jià)

主要是依賴人工诉探,從流暢性充分性兩個(gè)方面進(jìn)行打分。

客觀評價(jià)

是一種自動(dòng)評價(jià)系統(tǒng)/標(biāo)準(zhǔn)棍厌。雖然很好滿足標(biāo)準(zhǔn)的不一定是主觀上很好的翻譯肾胯,但是較好的翻譯一般都是很好滿足標(biāo)準(zhǔn)的竖席。因此制定標(biāo)準(zhǔn)只要滿足上述要求就行。

these metrics assume that valid responses have significant word overlap with the ground truth responses.

BLEU(BiLingual Evaluation Understudy)

系統(tǒng)譯文中的單詞計(jì)數(shù)不會超過該詞在某個(gè)參考譯文中出現(xiàn)次數(shù)的最大值敬肚。

N is the maximum length of n-grams considered. 也就是說BLEU-N考慮從1到N的語言模型毕荐。

借助參考譯文:

Greedy Matching. 句子中詞向量相似度匹配

Embedding Average. 利用詞向量計(jì)算整個(gè)句子的向量,再用歸一化余弦度量句子相似度艳馒。

不借助參考譯文:

將輸出語言輸入到語言模型憎亚、句法分析后得到和正常語句相近的概率值(流暢度評價(jià))

原文中詞對應(yīng)的詞典翻譯在系統(tǒng)譯文被覆蓋情況,與這個(gè)詞的頻率倒數(shù)進(jìn)行加權(quán)(充分性)

篇章特征與文本分類弄慰、檢索

與前面的章節(jié)不同第美,本章節(jié)處理的是以文本為單位,更加粗糙陆爽。從粗糙度方面來說什往,文本為單位信息量更加豐富、完整慌闭,更加方便别威、準(zhǔn)確進(jìn)行特征表示、提取驴剔。

篇章特征

首先需進(jìn)行文本表示省古。一般通過選取特征,量化特征值丧失,組成向量豺妓,也就是向量空間模型(vector space model, VSM). 特征可以是字、短語利花、或者是更加一般的用于匹配的規(guī)則科侈。由于不同特征的尺度不盡相同使用同樣的數(shù)值單位不合理,于是每個(gè)維度單獨(dú)分配一個(gè)權(quán)重炒事。

對于一個(gè)語料臀栈,文本的某個(gè)特征可能出現(xiàn)頻率很低,比如用一個(gè)確定的句子作為特征挠乳。過低的頻率代表性不足权薯,比如描述一個(gè)人,代表性強(qiáng)的特征是“個(gè)頭中等”或者“身高165~175”睡扬,代表性低的是“身高172.3mm”. 相反地盟蚣,特征的出現(xiàn)頻率過高,沒有區(qū)分度卖怜,我們不會描述一個(gè)人長著“一個(gè)鼻子屎开,兩只眼睛”。用于表示文本特征的向量一般都比較高马靠。

確定了準(zhǔn)備選取的特征后奄抽,接下來就是具體確一個(gè)文檔的特征值蔼两,也就是對于一個(gè)文檔和一個(gè)特征,確定這個(gè)特征對應(yīng)的標(biāo)量值逞度。很直觀地可以用這個(gè)歌在這個(gè)文檔中出現(xiàn)頻數(shù)(TF)作為標(biāo)量值额划,也可以用是否出現(xiàn)(bool值)作為標(biāo)量值。不過直接用特征出現(xiàn)頻數(shù)作為標(biāo)量值有一個(gè)局限性档泽,那就是沒有體現(xiàn)這個(gè)特征區(qū)分度俊戳。將特征出現(xiàn)頻數(shù)與特征在所有文本中覆蓋率的倒數(shù)進(jìn)行加權(quán)就是TF-IDF: $\text{tf}_{ij}\times \ln\frac{N}{n_i}$.

文本特征局限性

僅從統(tǒng)計(jì)的角度來分析,脫離語義馆匿、推理與常識抑胎。

特征離散

這里的圖像指的是自然圖像,非自然圖像比如文字的圖像甜熔、樂譜圆恤、表情突倍、手語腔稀,這些人類擅長、敏感的羽历、獨(dú)有的焊虏、需要借助經(jīng)驗(yàn)的才能解讀的。?

筆者個(gè)人覺得這個(gè)假設(shè)是正確的秕磷,能夠用于經(jīng)典物理學(xué)下概率事件诵闭。當(dāng)然量子力學(xué)中還存在復(fù)數(shù)域的概率,暫不做探討澎嚣。?

參見之前寫的《sequence labeling》?

不過現(xiàn)在只需要設(shè)計(jì)特征模板疏尿,算法可以自動(dòng)學(xué)習(xí)特征參數(shù)?

開塔蘭數(shù)(Catalan Numbers):有這樣一個(gè)問題:現(xiàn)有n對括號,一共有多少種合法的組合方式易桃?比如$n=3$褥琐,有$$((())) ;? ? ()(())? ;? ()()()?;? (())() ;? ? (()())$$種。描述這種組合方式的就是開塔蘭數(shù):$$C_{n}={2n \choose n}-{2n \choose n+1}={1 \over n+1}{2n \choose n}\quad {\text{ for }}n\geq 0,$$ 再比如:

還有n邊形被切分成三角形的方式:

?


作者:藝術(shù)叔

鏈接:http://www.reibang.com/p/37a114e13e7a

來源:簡書

簡書著作權(quán)歸作者所有晤郑,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處敌呈。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市造寝,隨后出現(xiàn)的幾起案子磕洪,更是在濱河造成了極大的恐慌,老刑警劉巖诫龙,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件析显,死亡現(xiàn)場離奇詭異,居然都是意外死亡签赃,警方通過查閱死者的電腦和手機(jī)谷异,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進(jìn)店門浑侥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人晰绎,你說我怎么就攤上這事寓落。” “怎么了荞下?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵伶选,是天一觀的道長。 經(jīng)常有香客問我尖昏,道長仰税,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任抽诉,我火速辦了婚禮陨簇,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘迹淌。我一直安慰自己河绽,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布唉窃。 她就那樣靜靜地躺著耙饰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪纹份。 梳的紋絲不亂的頭發(fā)上苟跪,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天,我揣著相機(jī)與錄音蔓涧,去河邊找鬼件已。 笑死,一個(gè)胖子當(dāng)著我的面吹牛元暴,可吹牛的內(nèi)容都是我干的篷扩。 我是一名探鬼主播,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼昨寞,長吁一口氣:“原來是場噩夢啊……” “哼瞻惋!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起援岩,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤歼狼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后享怀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體羽峰,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了梅屉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片值纱。...
    茶點(diǎn)故事閱讀 40,427評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡戳杀,死狀恐怖其馏,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情少态,我是刑警寧澤惰聂,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布疆偿,位于F島的核電站,受9級特大地震影響搓幌,放射性物質(zhì)發(fā)生泄漏杆故。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一溉愁、第九天 我趴在偏房一處隱蔽的房頂上張望处铛。 院中可真熱鬧,春花似錦拐揭、人聲如沸撤蟆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽枫疆。三九已至,卻和暖如春敷鸦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背寝贡。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工扒披, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人圃泡。 一個(gè)月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓碟案,卻偏偏與公主長得像,于是被迫代替她去往敵國和親颇蜡。 傳聞我的和親對象是個(gè)殘疾皇子价说,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容