作者:Robert McMillan
原文:Wired
翻譯:haru
人聲的圖像亚隙,來自AndroSpectro app。
攝影:Ariel Zambelich / Wired
當(dāng)Google在開發(fā)它的Android移動操作系統(tǒng)的最新版本時,這位互聯(lián)網(wǎng)巨人對操作系統(tǒng)識別你的語音控制的方式進行了一些較大的改動歇父。它安裝了一個基于所謂“神經(jīng)網(wǎng)絡(luò)”的語音識別系統(tǒng)。“神經(jīng)網(wǎng)絡(luò)”是一個會像人腦一樣學(xué)習(xí)的計算系統(tǒng)蓖康。
Vincent Vanhoucke是Google的研究科學(xué)家,他參與了這項計劃垒手。他說蒜焊,對許多用戶來說,結(jié)果是戲劇性的科贬∮景穑“很意外,我們只是改變了模型榜掌,出來的效果卻好了很多优妙。”
Vanhoucke說Android的名為Jelly Bean的最新版本的語音錯誤率比之前版本低了25%憎账,這使得人們更愿意使用語音控制套硼。“現(xiàn)在的人們在對手機說話的時候會使用更自然的語言胞皱⌒耙猓”也就是說,他們沒有以前那么像在跟一個機器人說話了反砌∥砉恚“人們的使用方式真的改變了⊙缡鳎”
這只是神經(jīng)網(wǎng)絡(luò)算法改變科技以及我們?nèi)绾卫盟睦又弧?9世紀(jì)80年代對這一領(lǐng)域的研究非巢卟耍火熱,然后陷入了冷藏,現(xiàn)在又回來了又憨。微軟翠霍、IBM和Google都在探究這一領(lǐng)域的實際應(yīng)用。
當(dāng)你對著Android的語音識別軟件說話的時候蠢莺,你的聲譜會被切割然后送到八臺位于全世界各地的Google的服務(wù)器基地的不同的電腦寒匙。接著聲譜被由Vanhoucke和他的團隊制作的神經(jīng)網(wǎng)絡(luò)模型處理。Google恰好非常擅長于解決這類大型計算任務(wù)并快速處理它浪秘。Google依靠Jeff Dean和它的工程師團隊來研究解決方案蒋情。他的團隊以重新發(fā)明現(xiàn)代數(shù)據(jù)中心的工作方式聞名于世。
神經(jīng)網(wǎng)絡(luò)讓像Vanhoucke這樣的學(xué)者可以分析許多許多種模型——對Jelly Bean來說耸携,是對話的聲譜——然后預(yù)測一個全新的模型的發(fā)展方式棵癣。這就跟生物學(xué)類似,身體中的神經(jīng)細胞與其他細胞組成網(wǎng)絡(luò)夺衍,讓它們用特別的方式處理信號狈谊。Jelly Bean使用的那種神經(jīng)網(wǎng)絡(luò),可能是Google設(shè)計了許多種語言發(fā)生的模型沟沙,例如通過分析多種現(xiàn)實世界的數(shù)據(jù)寬度來處理英語語音搜索請求河劝。
“長久以外人們都認(rèn)為你必須使用很多層特征來形成一個足夠好的感知系統(tǒng),大概是基于你在腦中看到的矛紫∈晗梗”多倫多大學(xué)的計算機可續(xù)教授Geoffery Hinton說道,“但問題是你如何高效地掌握它們颊咬∥裆”
Android給語音控制拍一張照片,然后Google使用神經(jīng)網(wǎng)絡(luò)模型來處理并計算出它說的是什么喳篇。
Google的軟件首先試著挑選出語音中的獨立部分——組成單詞的不同類型的元音和輔音敞临。這是神經(jīng)網(wǎng)絡(luò)的第一層。然后它用第一層信息來構(gòu)建更復(fù)雜的猜測麸澜,這之間錯綜復(fù)雜的聯(lián)系的每一層都促使它更清晰理解到底說的是什么挺尿。
神經(jīng)網(wǎng)絡(luò)算法也可以用用來分析圖像〈栋睿“你需要做的是找到像素結(jié)構(gòu)的小碎片编矾,比如圖片的邊緣∠吃牛”Hinton說洽沟,“你或許會用一層特征探測器來探測像小邊緣這樣的東西。然后你會用另一層特征探測器來探測由邊緣組成的小組合蜗细,比如角落。一旦你完成了,就會有另一層來了炉媒,以此類推踪区。”
80年代的時候神經(jīng)網(wǎng)絡(luò)就試圖完成以上這一切吊骤,但像Hinton所描述的那種用許多層來分析的方法其實非常困難缎岗。
到了2006年,兩項重大的變化出現(xiàn)了白粉。首先传泊,Hinton和他的團隊找到了一個更好的設(shè)計出更深神經(jīng)網(wǎng)絡(luò)的方法——擁有多層連結(jié)的網(wǎng)絡(luò)。其次鸭巴,廉價的圖形處理單元出現(xiàn)了眷细,讓學(xué)者們使用很快更經(jīng)濟的方法來完成他們需要的上億次計算工作【樽妫“真的是個巨大的進步因為速度快了30倍溪椎,”Hinton說。
Google的Jeff Dean改善了Android的語音識別系統(tǒng)恬口。
攝影:Ariel Zambelich/Wired
現(xiàn)在校读,神經(jīng)網(wǎng)絡(luò)算法開始進入語音識別和圖像軟件領(lǐng)域,但Hinton認(rèn)為它會被擁有任何需要做預(yù)測的地方祖能。11月時歉秫,多倫多大學(xué)的一個團隊使用神經(jīng)網(wǎng)絡(luò)預(yù)測了毒品分子在現(xiàn)實生活中會如何作用。
Jeff Dean稱Google現(xiàn)正將神經(jīng)網(wǎng)絡(luò)算法用于許多不同的產(chǎn)品——某些是試驗性的养铸,但另一些并不是——但沒有一個目前能做到像Jelly Bean的語音識別軟件那么先進雁芙。“圖像搜索里肯定也用到了揭厚,”他說却特。“你會想要使用圖上的那些像素來識別圖上的物體是什么東西筛圆×衙鳎”Google街景搜索可以使用神經(jīng)網(wǎng)絡(luò)來識別他們拍攝的事物間的區(qū)別——比如一座房子和一個牌照。
不要以為這些不會影響普通人太援。去年闽晦,包括Dean在內(nèi)的Google研究員們設(shè)計了一個神經(jīng)網(wǎng)絡(luò)程序,它自己教會了自己如何在YouTube上識別貓提岔。
微軟和IBM也在研究神經(jīng)網(wǎng)絡(luò)仙蛉。10月,微軟的首席研究官Rick Rashid在中國北京展示了基于微軟的神經(jīng)網(wǎng)絡(luò)的語音處理軟件碱蒙。在演示中荠瘪,Rashid用英語說話并在每一個詞組后暫暫停夯巷。令觀眾驚訝的是,微軟的軟件同步翻譯了他說的話并用中文告訴了觀眾哀墓。這款軟件甚至調(diào)整了它的語調(diào)來顯得更像Rashid的聲音趁餐。
“在這個領(lǐng)域還有很多功課要做,”他說篮绰『罄祝“但這項技術(shù)非常有前景。我們希望在未來幾年我們可以打破人們之間的語言壁壘吠各。個人來講臀突,我認(rèn)為這將會帶來一個更好的世界〖致”