機器翻譯三大核心技術(shù)原理 | AI知識科普

機器翻譯技術(shù)發(fā)展了80多年窖杀,巴別塔的傳說已經(jīng)成為過去漓摩,上天是不可能上天的了,但是讓你優(yōu)雅地和全世界討論世界杯入客,不再手舞足蹈管毙、雞同鴨講,這一點機器翻譯還是可以做到的痊项!

01機器翻譯和巴別塔的傳說

《圣經(jīng)》中記載了這樣一個故事:

人類曾經(jīng)聯(lián)合起來興建能通往天堂的高塔——巴別塔锅风,為了阻止人類的計劃,上帝讓人類說不同的語言鞍泉,使人類相互之間不能溝通皱埠,計劃因此失敗,人類自此各散東西咖驮。

實現(xiàn)不同語種之間的無障礙溝通边器,一直都是人類終極夢想之一。

在認識到不眠不休窮盡人類一生的力量托修,也只能掌握幾十種語言時忘巧,很多科學(xué)家開始思考,如何用機器來幫助人們?nèi)ソ鉀Q溝通問題睦刃,于是機器翻譯應(yīng)運而生砚嘴。

機器翻譯其實是利用計算機把一種自然語言翻譯成另一種自然語言的過程,基本流程大概分為三塊:預(yù)處理、核心翻譯际长、后處理耸采。

預(yù)處理是對語言文字進行規(guī)整,把過長的句子通過標點符號分成幾個短句子工育,過濾一些語氣詞和與意思無關(guān)的文字虾宇,將一些數(shù)字和表達不規(guī)范的地方,歸整成符合規(guī)范的句子如绸。

核心翻譯模塊是將輸入的字符單元嘱朽、序列翻譯成目標語言序列的過程,這是機器翻譯中最關(guān)鍵最核心的地方怔接。

后處理模塊是將翻譯結(jié)果進行大小寫的轉(zhuǎn)化搪泳、建模單元進行拼接,特殊符號進行處理蜕提,使得翻譯結(jié)果更加符合人們的閱讀習(xí)慣森书。

02曲折中前行的機器翻譯

機器翻譯的故事始于1933年,從最開始的只是科學(xué)家腦海中一個大膽設(shè)想谎势,到現(xiàn)在大規(guī)模的開始應(yīng)用凛膏,機器翻譯技術(shù)的發(fā)展道路大概有6個階段。

起源階段:

機器翻譯起源于1933年脏榆,由法國工程師G.B.阿爾楚尼提出機器翻譯設(shè)想猖毫,并獲得一項翻譯機專利;

萌芽時期

1954年须喂,美國喬治敦大學(xué)在IBM公司協(xié)同下用IBM-701計算機首次完成了英俄機器翻譯試驗吁断,拉開了機器翻譯研究的序幕;

沉寂階段:

美國科學(xué)院成立了語言自動處理咨詢委員會(ALPAC)于1966年公布了一份名為《語言與機器》的報告坞生,該研究否認機器翻譯可行性仔役,機器翻譯研究進入蕭條期;

復(fù)蘇階段:

1976年是己,加拿大蒙特利爾大學(xué)與加拿大聯(lián)邦政府翻譯局聯(lián)合開發(fā)的TAUM-METEO系統(tǒng)又兵,標志著機器翻譯的全面復(fù)蘇;

發(fā)展階段:

1993年,IBM的Brown等提出基于詞對齊的統(tǒng)計翻譯模型卒废,基于語料庫的方法開始盛行沛厨;

2003年,愛丁堡大學(xué)的Koehn提出短語翻譯模型摔认,使機器翻譯效果顯著提升逆皮,推動了工業(yè)應(yīng)用;

2005年参袱,David Chang進一步提出了層次短語模型电谣,同時基于語法樹的翻譯模型方面研究也取得了長足的進步秽梅;

繁榮階段:

2013年和14年,牛津大學(xué)辰企、谷歌风纠、蒙特利爾大學(xué)研究人員提出端到端的神經(jīng)機器翻譯,開創(chuàng)了深度學(xué)習(xí)翻譯新時代牢贸;

2015年,蒙特利爾大學(xué)引入Attention機制镐捧,神經(jīng)機器翻譯達到實用階段潜索;

2016年,谷歌GNMT發(fā)布懂酱,訊飛上線NMT系統(tǒng)竹习,神經(jīng)翻譯開始大規(guī)模應(yīng)用。

03機器翻譯的技術(shù)原理

在講機器翻譯的技術(shù)原理之前列牺,我們先來看一張機器翻譯技術(shù)發(fā)展歷史圖:

20世紀80年代基于規(guī)則的機器翻譯開始走向應(yīng)用整陌,這是第一代機器翻譯技術(shù)。隨著機器翻譯的應(yīng)用領(lǐng)域越來越復(fù)雜瞎领,基于規(guī)則的機器翻譯的局限性開始顯現(xiàn)泌辫,應(yīng)用場景越多,需要的規(guī)則也越來越多九默,規(guī)則之間的沖突也逐漸出現(xiàn)震放。

于是很多科研學(xué)家開始思考,是否能讓機器自動從數(shù)據(jù)庫里學(xué)習(xí)相應(yīng)的規(guī)則驼修,1993年IBM提出基于詞的統(tǒng)計翻譯模型標志著第二代機器翻譯技術(shù)的興起殿遂。

2014年谷歌和蒙特利爾大學(xué)提出的第三代機器翻譯技術(shù),也就是基于端到端的神經(jīng)機器翻譯乙各,標志著第三代機器翻譯技術(shù)的到來墨礁。

看完了機器翻譯技術(shù)的迭代發(fā)展,我們來了解下三代機器翻譯的核心技術(shù):規(guī)則機器翻譯耳峦、統(tǒng)計機器翻譯恩静、神經(jīng)機器翻譯。

規(guī)則機器翻譯

基于規(guī)則的機器翻譯大概有三種技術(shù)路線妇萄,第一種是直接翻譯的方法蜕企,對源語言做完分詞之后,將源語言的每個詞翻譯成目標語言的相關(guān)詞語冠句,然后拼接起來得出翻譯結(jié)果轻掩。

由于源語言和目標語言并不在同一體系下,句法順序有很大程度上的出入懦底,直接拼接起來的翻譯結(jié)果唇牧,效果往往并不理想罕扎。

于是科研人員提出了第二個規(guī)則機器翻譯的方法,引用語言學(xué)的相關(guān)知識丐重,對源語言的句子進行句法的分析腔召,由于應(yīng)用了相關(guān)句法語言學(xué)的知識,因此構(gòu)建出來的目標譯文是比較準確的扮惦。

但這里依然存在著另外一個問題臀蛛,只有當語言的規(guī)則性比較強,機器能夠做法分析的時候崖蜜,這套方法才比較有效浊仆。

因此在此基礎(chǔ)之上,還有科研人員提出豫领,能否借助于人的大腦翻譯來實現(xiàn)基于規(guī)則的機器翻譯抡柿?

這里面涉及到中間語言,首先將源語言用中間語言進行描述等恐,然后借助于中間語言翻譯成我們的目標語言洲劣。

但由于語言的復(fù)雜性,其實很難借助于一個中間語言來實現(xiàn)源語言和目標語言的精確描述课蔬。

講完了基于規(guī)則的機器翻譯的三種技術(shù)路線囱稽,我們用一張圖來總結(jié)下它的優(yōu)缺點

統(tǒng)計機器翻譯

機器翻譯的第二代技術(shù)路線,是基于統(tǒng)計的機器翻譯购笆,其核心在于設(shè)計概率模型對翻譯過程建模粗悯。

比如我們用x來表示原句子,用y來表示目標語言的句子同欠,任務(wù)就是找到一個翻譯模型

θ 样傍。

最早應(yīng)用于統(tǒng)計翻譯的模型是信源信道模型,在這個模型下假設(shè)我們看到的源語言文本 x是由一段目標語言文本 y? 經(jīng)過某種奇怪的編碼得到的铺遂,那么翻譯的目標就是要將 y 還原成 x衫哥,這也就是一個解碼的過程。

所以我們的翻譯目標函數(shù)可以設(shè)計成最大化Pr(??│??)襟锐,通過貝葉斯公式撤逢,我們可以把Pr(??│??)分成兩項,Pr(??) 的語言模型粮坞,Pr?(??|??)的翻譯模型

如果將這個目標函數(shù)兩邊同取log蚊荣,我們就可以得到對數(shù)線性模型,這也是我們在工程中實際采用的模型莫杈。

對數(shù)線性模型不僅包括了翻譯模型互例、語言模型,還包括了調(diào)序模型筝闹,扭曲模型和詞數(shù)懲罰模型媳叨,通過這些模型共同約束來實現(xiàn)源語言到目標語言的翻譯腥光。

講完了統(tǒng)計機器翻譯的相關(guān)知識,我們來看下基于短語的統(tǒng)計翻譯模型的三個基本步驟:

1糊秆、源短語切分:把源語言句子切分成若干短語

2武福、源短語翻譯:翻譯每一個源短語

3、目標短語調(diào)序:按某順序把目標短語組合成句子

最后痘番,我們依舊用一張圖來總結(jié)下基于統(tǒng)計機器翻譯的優(yōu)缺點

神經(jīng)機器翻譯

講完了基于規(guī)則的機器翻譯和基于統(tǒng)計的機器翻譯捉片,接下來我們來看下基于端到端的神經(jīng)機器翻譯。

神經(jīng)機器翻譯基本的建姆蚺迹框架是端到端序列生成模型界睁,是將輸入序列變換到輸出序列的一種框架和方法。

其核心部分有兩點兵拢,一是如何表征輸入序列(編碼),二是如何獲得輸出序列(解碼)逾礁。

對于機器翻譯而言不僅包括了編碼和解碼兩個部分说铃,還引入了額外的機制——注意力機制,來幫助我們進行調(diào)序嘹履。

下面我們用一張示意圖來看一下腻扇,基于RNN的神經(jīng)機器翻譯的流程:

首先我們通過分詞得到輸入源語言詞序列,接下來每個詞都用一個詞向量進行表示砾嫉,得到相應(yīng)的詞向量序列幼苛,然后用前向的RNN神經(jīng)網(wǎng)絡(luò)得到它的正向編碼表示。

再用一個反向的RNN焕刮,得到它的反向編碼表示舶沿,最后將正向和反向的編碼表示進行拼接,然后用注意力機制來預(yù)測哪個時刻需要翻譯哪個詞配并,通過不斷地預(yù)測和翻譯括荡,就可以得到目標語言的譯文。

04機器翻譯的基本應(yīng)用

機器翻譯的基本應(yīng)用可分為三大場景:信息獲取為目的場景溉旋、信息發(fā)布為目的的場景畸冲、信息交流為目的場景。

以信息獲取為目的的應(yīng)用場景观腊,可能大家都比較熟悉邑闲,比如說翻譯或是海外購物,遇到一些生僻的詞就可以借助機器翻譯技術(shù)梧油,來了解它的真正意思苫耸。

在信息發(fā)布為目的的場景中,典型的應(yīng)用是輔助筆譯婶溯。

大家應(yīng)該都還記得本科畢業(yè)論文需要用英文寫個摘要鲸阔。不少同學(xué)都是利用谷歌的翻譯偷霉,將中文摘要翻譯成英文摘要,然后再做一些簡單的調(diào)序褐筛,得出最終的英文摘要类少,其實這就是一個簡單的輔助筆譯的過程。

第三大場景就是以信息交流為目的場景渔扎,主要解決人與人之間的語言溝通問題硫狞。


作者:AI研究所

鏈接:http://www.reibang.com/p/4fc3fa8cdfe0

來源:簡書

簡書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處晃痴。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末残吩,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子倘核,更是在濱河造成了極大的恐慌泣侮,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件紧唱,死亡現(xiàn)場離奇詭異活尊,居然都是意外死亡,警方通過查閱死者的電腦和手機漏益,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門蛹锰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人绰疤,你說我怎么就攤上這事铜犬。” “怎么了轻庆?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵癣猾,是天一觀的道長。 經(jīng)常有香客問我榨了,道長煎谍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任龙屉,我火速辦了婚禮呐粘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘转捕。我一直安慰自己作岖,他們只是感情好,可當我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布五芝。 她就那樣靜靜地躺著痘儡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪枢步。 梳的紋絲不亂的頭發(fā)上沉删,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天渐尿,我揣著相機與錄音,去河邊找鬼矾瑰。 笑死砖茸,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的殴穴。 我是一名探鬼主播凉夯,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼采幌!你這毒婦竟也來了劲够?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤休傍,失蹤者是張志新(化名)和其女友劉穎征绎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體磨取,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡炒瘸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了寝衫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡拐邪,死狀恐怖慰毅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扎阶,我是刑警寧澤汹胃,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站东臀,受9級特大地震影響着饥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜惰赋,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一宰掉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧赁濒,春花似錦轨奄、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至击你,卻和暖如春玉组,著一層夾襖步出監(jiān)牢的瞬間谎柄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工惯雳, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留朝巫,地道東北人。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓吨凑,卻偏偏與公主長得像捍歪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鸵钝,可洞房花燭夜當晚...
    茶點故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內(nèi)容

  • References: 《speech and language processing 》2nd & 3rd 《統(tǒng)...
    藝術(shù)叔閱讀 7,480評論 1 8
  • 一對正在熱戀的情侶糙臼,在海上劃小木船度假時。發(fā)現(xiàn)一條鯊魚正尾隨他們的小木船恩商,眼看就要沖上來了变逃。 男孩卻拿起刀子指著女...
    A善哉閱讀 107評論 0 0
  • 姥爺大半輩子住在鄉(xiāng)下墙歪,跟土地特別有感情柠并,一年的吃穿都靠地里的莊稼。姥爺現(xiàn)在住的是一套一樓帶院的房子也閑不住...
    趙走走閱讀 976評論 0 2
  • 感賞今天是女兒的暑假的第一天弦讽,從昨晚到現(xiàn)在跟女兒的相處感覺就像天氣一樣粟矿,一會兒狂風暴雨凰棉,一會兒又陽光明媚,女兒她做...
    貴州六年級莊杰閱讀 160評論 0 2
  • 讀的什么書:《從零開始做運營》 閱讀有效時間:45min 閱讀中遇到了什么困難:讀完之后覺得自己懂了陌粹,可是晚上回想...
    陸薇閱讀 158評論 0 0