Google機器翻譯已經(jīng)進化到什么程度

作者:降曉冉

轉(zhuǎn)載自http://promotion.zhihu.com/p/19701808

【嵌牛導(dǎo)讀】Google 的使命是讓所有人都能訪問信息呜笑。而自動涛碑、方便扣癣、準(zhǔn)確的翻譯服務(wù)是實現(xiàn)這個使命不可或缺的重要條件荒澡。這就是我們在 11 年前推出 Google 翻譯的原因姨蟋。

【嵌牛鼻子】Google機器翻譯屉凯、進化

【嵌牛提問】 Google機器翻譯已經(jīng)進化到什么程度?

【嵌牛正文】

綠蟻新醅酒眼溶,紅泥小火爐悠砚。

晚來天欲雪,能飲一杯無堂飞?

支起小火爐灌旧,放上新醅的米酒绑咱。冬夜即將飛大雪,何不坐在火爐旁枢泰,與我痛飲一杯描融?輕輕巧巧的二十字,讓平平無奇的雪夜變得有了顏色衡蚂,變得鮮活靈動窿克。

在地球的另一邊的雪夜,Henry Wadsworth Longfellow 這樣寫道:

Out of the bosom of the Air,Out of the cloud-folds of her garments shaken,Over the woodlands brown and bare,Over the harvest-fields forsaken,Silent, and soft, and slowDescends the snow.

從文字的呈現(xiàn)形式毛甲、表達(dá)含義年叮,到千變?nèi)f化的讀音、精彩絕倫的修辭玻募,每一種語言都有著獨特的魅力只损。這時,如果沒有翻譯告訴我們另一個半球發(fā)生的故事七咧,該是一件多么遺憾的事情跃惫。

尤其是現(xiàn)在互聯(lián)網(wǎng)內(nèi)容中,英文占到了 50%艾栋,而僅有 20% 的人口能夠看懂英文辈挂。一些使用人數(shù)眾多的語言如漢語、印地語裹粤、阿拉伯語等终蒂,盡管內(nèi)容在增加,但比例仍然較小遥诉。對于世界上大多數(shù)的人來說拇泣,互聯(lián)網(wǎng)上的大部分內(nèi)容是與他們絕緣的。

Google 的使命是讓所有人都能訪問信息矮锈。而自動霉翔、方便、準(zhǔn)確的翻譯服務(wù)是實現(xiàn)這個使命不可或缺的重要條件苞笨。這就是我們在 11 年前推出 Google 翻譯的原因债朵。

翻譯質(zhì)量一直是 Google 翻譯關(guān)注的核心。從 2006 年到現(xiàn)在瀑凝,我們持續(xù)提高翻譯質(zhì)量序芦,并不斷推進技術(shù)。特別是最近一年多以來粤咪,得益于 Google 開發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯谚中,翻譯質(zhì)量得到了巨大的提升。今天我們就跟大家介紹下這項技術(shù)。

一宪塔、神經(jīng)網(wǎng)絡(luò)翻譯的翻譯質(zhì)量提高了多少磁奖?

首先,讓我們概括看一看神經(jīng)網(wǎng)絡(luò)翻譯所帶來的翻譯質(zhì)量的相對提升某筐。我們對非專業(yè)人工翻譯比搭、神經(jīng)網(wǎng)絡(luò)翻譯與基于短語模型的傳統(tǒng)翻譯結(jié)果進行了人工評測。其中 6 分代表完美的翻譯結(jié)果南誊,而 0 分則代表完全不可理解敢辩。可以看到弟疆,神經(jīng)網(wǎng)絡(luò)翻譯的質(zhì)量要遠(yuǎn)高于傳統(tǒng)機器翻譯,甚至有時能取得同非專業(yè)人工翻譯同等質(zhì)量的譯文盗冷。

讓我們打一個比方怠苔,基于短語的機器翻譯模型就好比拼圖。通過對短語對的排列與組合仪糖,試圖找出較好的組合方式柑司。然而決定采用哪一塊拼圖,傳統(tǒng)模型也并不是根據(jù)整幅圖的構(gòu)思锅劝,而是根據(jù)周圍各個圖塊是否能夠契合攒驰。因此其決策過程是離散的、局部的故爵。

反觀神經(jīng)網(wǎng)絡(luò)機器翻譯模型玻粪,將源語言的句子投射為連續(xù)的高維空間張量,并在生成目標(biāo)語言句子中每一個詞的時候诬垂,都會考慮整個句子的信息劲室。因此其決策過程是連續(xù)的、全局的结窘。以下是一個典型的例子很洋。

在這個例子中,英語 like 這個詞被譯成漢語「像……一樣」隧枫,這個從句的譯文為「像世界其他地區(qū)的射電望遠(yuǎn)鏡一樣」喉磁。可以看到「像」和「一樣」之間官脓,相差了 12 個字协怒,距離非常遠(yuǎn)。在傳統(tǒng)翻譯模型中這樣的長程依賴很難解決卑笨。同時斤讥,英語從句結(jié)構(gòu)會讓詞序顯得比較復(fù)雜。若不考慮源語言句子的整句結(jié)構(gòu),往往翻譯結(jié)果會非常不自然芭商。

神經(jīng)網(wǎng)絡(luò)模型較好地解決了以上兩個問題派草。這一點在最近三年已經(jīng)得到了科研機構(gòu)的證明。然而铛楣,從實驗室的論證近迁,到服務(wù)十億用戶的產(chǎn)品,其中需要解決的問題還有很多簸州。

二鉴竭、多語言神經(jīng)網(wǎng)絡(luò)翻譯模型的成長之路

在 2015 年 9 月,我們決定投入神經(jīng)網(wǎng)絡(luò)翻譯模型的研發(fā)岸浑。面對眾多未獲得解答的問題搏存,我們?yōu)轫椖慷ㄏ碌哪P桶l(fā)布時間是 3 年。然而從 2015 年 9 月獲得第一個基于 TensorFlow 的模型開始矢洲,到 2016 年 9 月中英模型上線璧眠,僅僅過去了 1 年。

截至 2017 年 5 月读虏,我們已經(jīng)提供了 41 個語言對的翻譯责静,超過 50% 的翻譯流量已經(jīng)由神經(jīng)網(wǎng)絡(luò)模型提供,項目的進展大大超出我們的預(yù)期盖桥。

當(dāng)我們獲得第一個模型的時候灾螃,每個模型的訓(xùn)練時間需要 2-3 周。一個 20 詞的句子揩徊,翻譯耗時 10 秒腰鬼。面對可能需要 200 個以上的獨立模型,顯然這是無法達(dá)到上線要求的塑荒。Google 對機器學(xué)習(xí)的全面投入使得我們的彈藥庫頗為充足垃喊。正當(dāng)我們?yōu)樘岣咚俣龋龃笸掏铝颗r袜炕,張量處理器的成功研發(fā)使得響應(yīng)速度得以從 10 秒/句提高到 0.2 秒/句本谜。

同時高度優(yōu)化的代碼,通過根據(jù)句子長度優(yōu)化批處理任務(wù)偎窘,可以最大限度地享受 TPU 帶來的效率提升乌助。這使得為數(shù)億用戶提供服務(wù)成為可能∧爸可以說項目的成功他托,得益于 Google 在機器學(xué)習(xí)上的全面布局。

盡管如此仆葡,訓(xùn)練與維護數(shù)百個單獨的模型對我們來說仍然是一個巨大的挑戰(zhàn)赏参。因此志笼,我們進一步考慮將多個語言融合到一個多語言模型中去。這樣我們不但能夠在一次模型訓(xùn)練中就獲得多個模型把篓,也使得維護壓力大大減輕纫溃。同時,我們對多語言模型的研究還獲得了許多意想不到的性能提升韧掩。

所謂多語言模型紊浩,其結(jié)構(gòu)并不復(fù)雜。唯一的改變是將需要翻譯的目標(biāo)語言通過語言代碼「告訴」神經(jīng)網(wǎng)絡(luò)模型疗锐。例如坊谁,如果訓(xùn)練數(shù)據(jù)中目標(biāo)語言是韓語,則只需簡單地在源語言句子前加上「2ko」這樣的特殊符號滑臊。

這一簡單的方法被證明性能很好口芍,翻譯模型不但能夠同時進行英語到日語,英語到韓語的翻譯雇卷,其翻譯質(zhì)量甚至要好于單獨訓(xùn)練的英語到日語及英語到韓語模型鬓椭。

更為有趣的是,多語言模型甚至可以成功地翻譯系統(tǒng)從來沒有見過的語言對聋庵。例如此處的多語言模型,其中包括英日芙粱、英韓祭玉、韓英、日英四種語言的訓(xùn)練數(shù)據(jù)春畔,但是我們并沒有日語和韓語之間的直接訓(xùn)練數(shù)據(jù)脱货。也就是說,系統(tǒng)并沒有學(xué)習(xí)任何日韓律姨、韓日翻譯振峻。我們稱這種情況為零數(shù)據(jù)翻譯。

通過多語言模型择份,我們發(fā)現(xiàn)模型能夠成功地處理日韓之間的互譯扣孟。這使得我們無需經(jīng)過先翻譯到英語,再翻譯到其他語言作為中轉(zhuǎn)荣赶,就能夠得到兩種非英語語言的翻譯凤价。這為未來的統(tǒng)一翻譯模型開辟了道路。

如果我們將多語言模型中各個語言的句子在神經(jīng)網(wǎng)絡(luò)內(nèi)部的張量表示可視化拔创,我們會發(fā)現(xiàn)利诺,不同語言中意義接近的句子會被投射到相互接近的區(qū)域。這表明神經(jīng)網(wǎng)絡(luò)對多種語言的語義表示具有一定的普適性剩燥。是否這種表示方式就是我們所期待的通用語慢逾,這還有待我們進一步研究與論證。

通過張量處理器及多語言模型的幫助,以及 Google 多年在機器翻譯數(shù)據(jù)上的積累侣滩,我們在較短的時間內(nèi)發(fā)布了神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng)口注,并取得了極大的成功。Google 翻譯的使用量在各大市場都得到了很大的提升胜卤。同時這一產(chǎn)品的發(fā)布也使得機器翻譯在過去一年時間內(nèi)成為業(yè)界和學(xué)界研究的熱點疆导。據(jù)統(tǒng)計,在短短一年的時間內(nèi)葛躏,各大研究機構(gòu)發(fā)表了超過兩百篇的學(xué)術(shù)論文澈段。

然而這并不是機器翻譯模型的終點。事實上舰攒,當(dāng)我們回顧過去一年败富,新興的神經(jīng)網(wǎng)絡(luò)模型雖然帶來了進步,但是我們對它的理解還很粗淺摩窃。我們將進一步改進數(shù)字兽叮、日期、姓名猾愿、習(xí)語的翻譯以及不常見短句的翻譯鹦聪。而新的模型結(jié)構(gòu)以及訓(xùn)練方法也在不斷被挖掘。例如最近 Google 大腦發(fā)表的基于注意力的模型蒂秘。我們認(rèn)為泽本,這一革命性的新技術(shù)只是初露鋒芒,還遠(yuǎn)遠(yuǎn)沒有達(dá)到其能力的極限姻僧。

除了推進機器翻譯技術(shù)规丽,我們還推出了更適合移動時代的產(chǎn)品功能,Google 翻譯的即時相機翻譯功能通過攝像頭取詞撇贺,實現(xiàn)了實景翻譯赌莺,讓世界用你的語言展現(xiàn)在你面前。

生活在世界上的各個角落松嘶,不同國家的我們有著不同的文字艘狭。而翻譯正是通過在文字間架起橋梁,將他國精彩紛呈的文化拱手奉上翠订。希望未來機器翻譯的技術(shù)能夠繼續(xù)提高缓升,同翻譯家們一同建造更多、更結(jié)實的橋梁蕴轨。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末港谊,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子橙弱,更是在濱河造成了極大的恐慌歧寺,老刑警劉巖燥狰,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異斜筐,居然都是意外死亡龙致,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門顷链,熙熙樓的掌柜王于貴愁眉苦臉地迎上來目代,“玉大人,你說我怎么就攤上這事嗤练¢涣耍” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵煞抬,是天一觀的道長霜大。 經(jīng)常有香客問我,道長革答,這世上最難降的妖魔是什么战坤? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮残拐,結(jié)果婚禮上途茫,老公的妹妹穿的比我還像新娘。我一直安慰自己溪食,他們只是感情好囊卜,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著眠菇,像睡著了一般边败。 火紅的嫁衣襯著肌膚如雪袱衷。 梳的紋絲不亂的頭發(fā)上捎废,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機與錄音致燥,去河邊找鬼登疗。 笑死,一個胖子當(dāng)著我的面吹牛嫌蚤,可吹牛的內(nèi)容都是我干的辐益。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼脱吱,長吁一口氣:“原來是場噩夢啊……” “哼智政!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起箱蝠,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤续捂,失蹤者是張志新(化名)和其女友劉穎垦垂,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體牙瓢,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡劫拗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了矾克。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片页慷。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖胁附,靈堂內(nèi)的尸體忽然破棺而出酒繁,到底是詐尸還是另有隱情,我是刑警寧澤汉嗽,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布欲逃,位于F島的核電站,受9級特大地震影響饼暑,放射性物質(zhì)發(fā)生泄漏稳析。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一弓叛、第九天 我趴在偏房一處隱蔽的房頂上張望彰居。 院中可真熱鬧,春花似錦撰筷、人聲如沸陈惰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抬闯。三九已至,卻和暖如春关筒,著一層夾襖步出監(jiān)牢的瞬間溶握,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工蒸播, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留睡榆,地道東北人。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓袍榆,卻偏偏與公主長得像胀屿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子包雀,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容