機器翻譯技術(shù)發(fā)展了80多年窖杀,巴別塔的傳說已經(jīng)成為過去漓摩,上天是不可能上天的了,但是讓你優(yōu)雅地和全世界討論世界杯入客,不再手舞足蹈管毙、雞同鴨講,這一點機器翻譯還是可以做到的痊项!
01機器翻譯和巴別塔的傳說
《圣經(jīng)》中記載了這樣一個故事:
人類曾經(jīng)聯(lián)合起來興建能通往天堂的高塔——巴別塔锅风,為了阻止人類的計劃,上帝讓人類說不同的語言鞍泉,使人類相互之間不能溝通皱埠,計劃因此失敗,人類自此各散東西咖驮。
實現(xiàn)不同語種之間的無障礙溝通边器,一直都是人類終極夢想之一。
在認識到不眠不休窮盡人類一生的力量托修,也只能掌握幾十種語言時忘巧,很多科學(xué)家開始思考,如何用機器來幫助人們?nèi)ソ鉀Q溝通問題睦刃,于是機器翻譯應(yīng)運而生砚嘴。
機器翻譯其實是利用計算機把一種自然語言翻譯成另一種自然語言的過程,基本流程大概分為三塊:預(yù)處理、核心翻譯际长、后處理耸采。
預(yù)處理是對語言文字進行規(guī)整,把過長的句子通過標點符號分成幾個短句子工育,過濾一些語氣詞和與意思無關(guān)的文字虾宇,將一些數(shù)字和表達不規(guī)范的地方,歸整成符合規(guī)范的句子如绸。
核心翻譯模塊是將輸入的字符單元嘱朽、序列翻譯成目標語言序列的過程,這是機器翻譯中最關(guān)鍵最核心的地方怔接。
后處理模塊是將翻譯結(jié)果進行大小寫的轉(zhuǎn)化搪泳、建模單元進行拼接,特殊符號進行處理蜕提,使得翻譯結(jié)果更加符合人們的閱讀習(xí)慣森书。
02曲折中前行的機器翻譯
機器翻譯的故事始于1933年,從最開始的只是科學(xué)家腦海中一個大膽設(shè)想谎势,到現(xiàn)在大規(guī)模的開始應(yīng)用凛膏,機器翻譯技術(shù)的發(fā)展道路大概有6個階段。
起源階段:
機器翻譯起源于1933年脏榆,由法國工程師G.B.阿爾楚尼提出機器翻譯設(shè)想猖毫,并獲得一項翻譯機專利;
萌芽時期:
1954年须喂,美國喬治敦大學(xué)在IBM公司協(xié)同下用IBM-701計算機首次完成了英俄機器翻譯試驗吁断,拉開了機器翻譯研究的序幕;
沉寂階段:
美國科學(xué)院成立了語言自動處理咨詢委員會(ALPAC)于1966年公布了一份名為《語言與機器》的報告坞生,該研究否認機器翻譯可行性仔役,機器翻譯研究進入蕭條期;
復(fù)蘇階段:
1976年是己,加拿大蒙特利爾大學(xué)與加拿大聯(lián)邦政府翻譯局聯(lián)合開發(fā)的TAUM-METEO系統(tǒng)又兵,標志著機器翻譯的全面復(fù)蘇;
發(fā)展階段:
1993年,IBM的Brown等提出基于詞對齊的統(tǒng)計翻譯模型卒废,基于語料庫的方法開始盛行沛厨;
2003年,愛丁堡大學(xué)的Koehn提出短語翻譯模型摔认,使機器翻譯效果顯著提升逆皮,推動了工業(yè)應(yīng)用;
2005年参袱,David Chang進一步提出了層次短語模型电谣,同時基于語法樹的翻譯模型方面研究也取得了長足的進步秽梅;
繁榮階段:
2013年和14年,牛津大學(xué)辰企、谷歌风纠、蒙特利爾大學(xué)研究人員提出端到端的神經(jīng)機器翻譯,開創(chuàng)了深度學(xué)習(xí)翻譯新時代牢贸;
2015年,蒙特利爾大學(xué)引入Attention機制镐捧,神經(jīng)機器翻譯達到實用階段潜索;
2016年,谷歌GNMT發(fā)布懂酱,訊飛上線NMT系統(tǒng)竹习,神經(jīng)翻譯開始大規(guī)模應(yīng)用。
03機器翻譯的技術(shù)原理
在講機器翻譯的技術(shù)原理之前列牺,我們先來看一張機器翻譯技術(shù)發(fā)展歷史圖:
20世紀80年代基于規(guī)則的機器翻譯開始走向應(yīng)用整陌,這是第一代機器翻譯技術(shù)。隨著機器翻譯的應(yīng)用領(lǐng)域越來越復(fù)雜瞎领,基于規(guī)則的機器翻譯的局限性開始顯現(xiàn)泌辫,應(yīng)用場景越多,需要的規(guī)則也越來越多九默,規(guī)則之間的沖突也逐漸出現(xiàn)震放。
于是很多科研學(xué)家開始思考,是否能讓機器自動從數(shù)據(jù)庫里學(xué)習(xí)相應(yīng)的規(guī)則驼修,1993年IBM提出基于詞的統(tǒng)計翻譯模型標志著第二代機器翻譯技術(shù)的興起殿遂。
2014年谷歌和蒙特利爾大學(xué)提出的第三代機器翻譯技術(shù),也就是基于端到端的神經(jīng)機器翻譯乙各,標志著第三代機器翻譯技術(shù)的到來墨礁。
看完了機器翻譯技術(shù)的迭代發(fā)展,我們來了解下三代機器翻譯的核心技術(shù):規(guī)則機器翻譯耳峦、統(tǒng)計機器翻譯恩静、神經(jīng)機器翻譯。
規(guī)則機器翻譯
基于規(guī)則的機器翻譯大概有三種技術(shù)路線妇萄,第一種是直接翻譯的方法蜕企,對源語言做完分詞之后,將源語言的每個詞翻譯成目標語言的相關(guān)詞語冠句,然后拼接起來得出翻譯結(jié)果轻掩。
由于源語言和目標語言并不在同一體系下,句法順序有很大程度上的出入懦底,直接拼接起來的翻譯結(jié)果唇牧,效果往往并不理想罕扎。
于是科研人員提出了第二個規(guī)則機器翻譯的方法,引用語言學(xué)的相關(guān)知識丐重,對源語言的句子進行句法的分析腔召,由于應(yīng)用了相關(guān)句法語言學(xué)的知識,因此構(gòu)建出來的目標譯文是比較準確的扮惦。
但這里依然存在著另外一個問題臀蛛,只有當語言的規(guī)則性比較強,機器能夠做法分析的時候崖蜜,這套方法才比較有效浊仆。
因此在此基礎(chǔ)之上,還有科研人員提出豫领,能否借助于人的大腦翻譯來實現(xiàn)基于規(guī)則的機器翻譯抡柿?
這里面涉及到中間語言,首先將源語言用中間語言進行描述等恐,然后借助于中間語言翻譯成我們的目標語言洲劣。
但由于語言的復(fù)雜性,其實很難借助于一個中間語言來實現(xiàn)源語言和目標語言的精確描述课蔬。
講完了基于規(guī)則的機器翻譯的三種技術(shù)路線囱稽,我們用一張圖來總結(jié)下它的優(yōu)缺點:
統(tǒng)計機器翻譯
機器翻譯的第二代技術(shù)路線,是基于統(tǒng)計的機器翻譯购笆,其核心在于設(shè)計概率模型對翻譯過程建模粗悯。
比如我們用x來表示原句子,用y來表示目標語言的句子同欠,任務(wù)就是找到一個翻譯模型
θ 样傍。
最早應(yīng)用于統(tǒng)計翻譯的模型是信源信道模型,在這個模型下假設(shè)我們看到的源語言文本 x是由一段目標語言文本 y? 經(jīng)過某種奇怪的編碼得到的铺遂,那么翻譯的目標就是要將 y 還原成 x衫哥,這也就是一個解碼的過程。
所以我們的翻譯目標函數(shù)可以設(shè)計成最大化Pr(??│??)襟锐,通過貝葉斯公式撤逢,我們可以把Pr(??│??)分成兩項,Pr(??) 的語言模型粮坞,Pr?(??|??)的翻譯模型
如果將這個目標函數(shù)兩邊同取log蚊荣,我們就可以得到對數(shù)線性模型,這也是我們在工程中實際采用的模型莫杈。
對數(shù)線性模型不僅包括了翻譯模型互例、語言模型,還包括了調(diào)序模型筝闹,扭曲模型和詞數(shù)懲罰模型媳叨,通過這些模型共同約束來實現(xiàn)源語言到目標語言的翻譯腥光。
講完了統(tǒng)計機器翻譯的相關(guān)知識,我們來看下基于短語的統(tǒng)計翻譯模型的三個基本步驟:
1糊秆、源短語切分:把源語言句子切分成若干短語
2武福、源短語翻譯:翻譯每一個源短語
3、目標短語調(diào)序:按某順序把目標短語組合成句子
最后痘番,我們依舊用一張圖來總結(jié)下基于統(tǒng)計機器翻譯的優(yōu)缺點:
神經(jīng)機器翻譯
講完了基于規(guī)則的機器翻譯和基于統(tǒng)計的機器翻譯捉片,接下來我們來看下基于端到端的神經(jīng)機器翻譯。
神經(jīng)機器翻譯基本的建姆蚺迹框架是端到端序列生成模型界睁,是將輸入序列變換到輸出序列的一種框架和方法。
其核心部分有兩點兵拢,一是如何表征輸入序列(編碼),二是如何獲得輸出序列(解碼)逾礁。
對于機器翻譯而言不僅包括了編碼和解碼兩個部分说铃,還引入了額外的機制——注意力機制,來幫助我們進行調(diào)序嘹履。
下面我們用一張示意圖來看一下腻扇,基于RNN的神經(jīng)機器翻譯的流程:
首先我們通過分詞得到輸入源語言詞序列,接下來每個詞都用一個詞向量進行表示砾嫉,得到相應(yīng)的詞向量序列幼苛,然后用前向的RNN神經(jīng)網(wǎng)絡(luò)得到它的正向編碼表示。
再用一個反向的RNN焕刮,得到它的反向編碼表示舶沿,最后將正向和反向的編碼表示進行拼接,然后用注意力機制來預(yù)測哪個時刻需要翻譯哪個詞配并,通過不斷地預(yù)測和翻譯括荡,就可以得到目標語言的譯文。
04機器翻譯的基本應(yīng)用
機器翻譯的基本應(yīng)用可分為三大場景:信息獲取為目的場景溉旋、信息發(fā)布為目的的場景畸冲、信息交流為目的場景。
以信息獲取為目的的應(yīng)用場景观腊,可能大家都比較熟悉邑闲,比如說翻譯或是海外購物,遇到一些生僻的詞就可以借助機器翻譯技術(shù)梧油,來了解它的真正意思苫耸。
在信息發(fā)布為目的的場景中,典型的應(yīng)用是輔助筆譯婶溯。
大家應(yīng)該都還記得本科畢業(yè)論文需要用英文寫個摘要鲸阔。不少同學(xué)都是利用谷歌的翻譯偷霉,將中文摘要翻譯成英文摘要,然后再做一些簡單的調(diào)序褐筛,得出最終的英文摘要类少,其實這就是一個簡單的輔助筆譯的過程。
第三大場景就是以信息交流為目的場景渔扎,主要解決人與人之間的語言溝通問題硫狞。
作者:AI研究所
鏈接:http://www.reibang.com/p/4fc3fa8cdfe0
來源:簡書
簡書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處晃痴。