姓名 符子龍东羹,學(xué)號(hào)14020120006
【嵌牛導(dǎo)讀】可能很快就有一個(gè)真正的通用翻譯剂桥,讓我們能夠與任何人用對(duì)方的母語(yǔ)交談了,這不再僅僅是科幻的東西属提。
【嵌牛鼻子】人工智能权逗,機(jī)器翻譯,無(wú)監(jiān)督學(xué)習(xí)
【嵌牛提問(wèn)】機(jī)器翻譯是如何工作的冤议,還要久才能看到機(jī)器自動(dòng)翻譯時(shí)代的到來(lái)斟薇?它的發(fā)展局限是什么?
【嵌牛正文】
結(jié)合人工智能神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯近年來(lái)取得了巨大的進(jìn)步恕酸,以谷歌翻譯為代表堪滨,足以讓印象還停留在“生硬死板、破綻百出”的人驚訝萬(wàn)分蕊温。但是總體來(lái)說(shuō)袱箱,也還是通過(guò)人類(lèi)的已存翻譯文本來(lái)學(xué)習(xí)遏乔。
據(jù)fastcompany報(bào)道,最新出現(xiàn)的兩個(gè)機(jī)器翻譯系統(tǒng)完成了嶄新的突破——可以在無(wú)需人類(lèi)翻譯文本的學(xué)習(xí)資料的情況下发笔,自主學(xué)習(xí)翻譯地球上的任何語(yǔ)言盟萨。
機(jī)器翻譯發(fā)展驚人,但是地球上還是有數(shù)以?xún)|計(jì)的人無(wú)法享受它的好處——因?yàn)樗麄兊恼Z(yǔ)言在翻譯器的下拉菜單中根本找不到了讨。 現(xiàn)在捻激,兩個(gè)新的人工智能系統(tǒng)——一個(gè)來(lái)自西班牙的delPaísVasco大學(xué)(UPV),另一個(gè)來(lái)自卡內(nèi)基梅隆大學(xué)(CMU)——承諾會(huì)改變這一切量蕊,為像《星際迷航》(Star Trek)中那樣的真正的宇宙通用譯者(universal translator)的到來(lái)打開(kāi)大門(mén)铺罢。
要了解這些新系統(tǒng)的潛力,首先要了解當(dāng)前的機(jī)器翻譯是如何工作的残炮。 目前機(jī)器翻譯的事實(shí)標(biāo)桿是谷歌翻譯韭赘,這個(gè)系統(tǒng)涵蓋了從南非語(yǔ)到祖魯語(yǔ)的103種語(yǔ)言,包括世界上前10種語(yǔ)言——順序?yàn)闈h語(yǔ)势就,西班牙語(yǔ)泉瞻,英語(yǔ)苞冯,印度語(yǔ)袖牙,孟加拉語(yǔ),葡萄牙語(yǔ)舅锄,俄語(yǔ)鞭达,日語(yǔ),德語(yǔ)皇忿, 和爪哇語(yǔ)畴蹭。 Google的系統(tǒng)使用人類(lèi)監(jiān)督的神經(jīng)網(wǎng)絡(luò),比較平行文本——以前由人類(lèi)翻譯過(guò)的書(shū)籍和文章鳍烁。 通過(guò)比較這些平行文本中的大量數(shù)據(jù)叨襟,Google翻譯可以學(xué)習(xí)任意兩種指定語(yǔ)言之間的對(duì)等關(guān)系,從而獲得在它們之間快速轉(zhuǎn)換的能力幔荒。有時(shí)候翻譯結(jié)果會(huì)很有趣糊闽,可能并不能真正反映原文的意思,但總的來(lái)說(shuō)爹梁,這些翻譯是功能性的右犹,隨著時(shí)間的推移,他們會(huì)越來(lái)越好姚垃。
Google的做法很好念链,而且很有效。但不幸的是,它并不是全球通用钓账。這是因?yàn)橛斜O(jiān)督的培訓(xùn)需要很長(zhǎng)的時(shí)間以及很多監(jiān)督人員——因?yàn)樘嗔耍雀枋褂昧吮姲惨驗(yàn)椴⒎鞘澜缢姓Z(yǔ)言之間都有足夠多的并行翻譯文本絮宁。想想看:根據(jù)世界語(yǔ)言民族學(xué)目錄梆暮,地球上有6,909種生活語(yǔ)言。其中414種的使用人數(shù)占人類(lèi)總數(shù)的94%绍昂。由于Google翻譯涵蓋了103個(gè)啦粹,因此會(huì)留下6,806種語(yǔ)言沒(méi)有機(jī)器翻譯——其中有311種語(yǔ)言的使用人數(shù)超過(guò)百萬(wàn)。總的來(lái)說(shuō)窘游,至少有八億人不能享受機(jī)器自動(dòng)翻譯的好處唠椭。
這兩個(gè)新的系統(tǒng)——可以在任何語(yǔ)言之間翻譯單詞和句子——無(wú)需通過(guò)比較大量由人類(lèi)翻譯的平行文本來(lái)學(xué)習(xí)。他們也不需要監(jiān)督忍饰。相反贪嫂,他們使用未監(jiān)督的機(jī)器學(xué)習(xí),并比較不同語(yǔ)言的隨機(jī)文本艾蓝。這是如何運(yùn)作的力崇?由于語(yǔ)言的詞語(yǔ)分類(lèi)是相似的,所以系統(tǒng)猜測(cè)這些詞是否相等赢织,用這些信息構(gòu)建翻譯詞典亮靴。他們從中找出句子結(jié)構(gòu),通過(guò)在不同的語(yǔ)言之間來(lái)回翻譯來(lái)評(píng)估他們猜測(cè)的結(jié)果于置。
正如UPV的研究員Mikel Artetxe所描述的那樣:“想象一下茧吊,你給了一個(gè)人很多的中文書(shū)籍和阿拉伯語(yǔ)書(shū)籍——這些書(shū)都不重疊——然后這個(gè)人必須學(xué)會(huì)把中文翻譯成阿拉伯語(yǔ)。 這似乎是不可能的八毯,對(duì)吧搓侄?“事實(shí)上,這看起來(lái)實(shí)在太不可能了宪彩,以至于微軟人工智能專(zhuān)家Di He(這兩個(gè)研究項(xiàng)目的啟發(fā)者)告訴科學(xué)界休讳,他得知”即使沒(méi)有人工監(jiān)控,電腦也可以學(xué)習(xí)翻譯”的時(shí)候尿孔,整個(gè)人都震驚了俊柔。
一個(gè)警告就是,這個(gè)系統(tǒng)并不像目前的平行文本深度學(xué)習(xí)系統(tǒng)那么精確——但是正如Di He指出的那樣活合,電腦能夠在沒(méi)有任何人類(lèi)指導(dǎo)的情況下猜測(cè)所有這些事實(shí)雏婶,這一事實(shí)本身簡(jiǎn)直不可思議。 我們只是接觸到了這種新的學(xué)習(xí)方法的表面白指×敉恚看起來(lái),可能很快就有一個(gè)真正的通用翻譯,讓我們能夠與任何人用對(duì)方的母語(yǔ)交談了错维,這不再僅僅是科幻的東西奖地。