姓名:李藝暄 ? 學號:14310116071
轉載自:https://www.quora.com/How-does-Google-translate-work-Do-they-have-database-for-all-words-of-a-particular-language
【嵌牛導讀】:當我們面對一種陌生的語言時彼城,最便捷的翻譯手段就是使用翻譯軟件,那么翻譯軟件是如何工作的呢?
【嵌牛鼻子】:Google翻譯
【嵌牛提問】:谷歌翻譯是如何做到高效準確地翻譯的嗤无。
【嵌牛正文】:
????2016年9月猴贰,谷歌宣布推出基于人工神經(jīng)網(wǎng)絡和深度學習的新型機器翻譯系統(tǒng) - 神經(jīng)機器翻譯系統(tǒng)Google Neural Machine Translation system(GNMT)对雪。
通過使用這套系統(tǒng),Google可以不斷提高翻譯質量米绕,Google使用的遞歸神經(jīng)網(wǎng)絡Recurrent Neural Networks(RNN)不僅要考慮源詞和短語瑟捣,還要考慮句子出現(xiàn)的地方等等這種更廣泛的背景馋艺,以及圍繞它們的其他詞和短語是什么。
長期以來迈套,人們已經(jīng)知道這些問題是人工翻譯和機器翻譯技術的關鍵區(qū)別捐祠。
此后不久,在2016年11月桑李,Google發(fā)布了Google的多語言機器翻譯系統(tǒng)(Zero-Shot Translation)踱蛀,它避免了繁瑣的對單個語句進行翻譯。也避免了將輸入短語翻譯為其假定含義的固定表述贵白,而與作者所要表達的東西無關星岗。
例如,他們在報告中使用日語 - 英語和韓語 - 英語對來訓練他們的多語言系統(tǒng)戒洼。然后他們可以要求系統(tǒng)進行它以前沒有進行過的翻譯俏橘,比如日文-韓文的翻譯。令人驚訝的是圈浇,即使如此寥掐,該系統(tǒng)也會對句子做出合理的翻譯。
這種進步是真正偉大的磷蜀,因為它清楚地表明了計算機翻譯的進步和使計算機理解語言的意義的最終目標方面的改進召耘。這不僅僅是在單個語言詞組對單個語言詞組的單詞或短語的簡單句法映射。
除了RNN之外褐隆,這種努力顯然受到最近突破性的詞語(和短語)分布式向量的表示法的啟發(fā)污它,它稱為詞嵌入。 Mikolov先生等人在其他們的論文“Word2Vec”中描述了一個系統(tǒng)庶弃,該系統(tǒng)可以將單詞從在相對較低維度的空間向多維實空間進行映射衫贬。
他們表明,具有相似含義的詞語的嵌入在目標空間中是緊密相連的歇攻。這無疑是一個巨大的進步固惯,因為簡單的句式文法會對小的句法差異產(chǎn)生截然不同的映射,而不介意使用同義詞之類的表達方式缴守。這種系統(tǒng)還有其他很大的好處葬毫,因為幾百個實數(shù)的向量比達數(shù)百萬級別的簡單的獨熱碼one-hot encodings更容易處理。
低維度的詞嵌入矢量被看作是短語的表示含義屡穗,這就是Google的零點多語翻譯(Zero-Shot Multi-Lingual Translation)所使用的贴捡。?
Word2vec不是一個真正的深度學習系統(tǒng),因為它不是基于多層人工神經(jīng)網(wǎng)絡(multi-layer artificial neural networks)村砂。它的強大功能來源于這樣一個事實:它是一種無需監(jiān)督的方法烂斋,不需要訓練數(shù)據(jù),可以很好地擴展到數(shù)十億個單詞,并且能夠在目標緊致矢量空間中保持距離上的語義相似性源祈。
Google的機器翻譯項目是深度學習取得驚人進展的一個很好的例子煎源,它不僅會使計算機翻譯更加準確,還會更加接近計算機香缺。