Neil Zhu剃袍,簡(jiǎn)書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist,致力于推進(jìn)世界人工智能化進(jìn)程。制定并實(shí)施 UAI 中長(zhǎng)期增長(zhǎng)戰(zhàn)略和目標(biāo)眶拉,帶領(lǐng)團(tuán)隊(duì)快速成長(zhǎng)為人工智能領(lǐng)域最專業(yè)的力量。
作為行業(yè)領(lǐng)導(dǎo)者憔儿,他和UAI一起在2014年創(chuàng)建了TASA(中國(guó)最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò))忆植,AI growth(行業(yè)智庫(kù)培訓(xùn))等,為中國(guó)的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分。此外朝刊,他還參與或者舉辦過(guò)各類國(guó)際性的人工智能峰會(huì)和活動(dòng)吴侦,產(chǎn)生了巨大的影響力,書寫了60萬(wàn)字的人工智能精品技術(shù)內(nèi)容坞古,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載劫樟。曾經(jīng)受邀為國(guó)內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程痪枫,均受學(xué)生和老師好評(píng)。
作者:Michael Nielsen叠艳,源地址:https://www.quantamagazine.org/20160329-why-alphago-is-really-such-a-big-deal/
圍棋程序刻畫了人類直覺(jué)的元素奶陈,這是能夠產(chǎn)生深遠(yuǎn)影響的進(jìn)步。
1997 年附较,IBM 的 Deep Blue 系統(tǒng)擊敗了國(guó)際象棋世界冠軍吃粒,Garry Kasparov。當(dāng)時(shí)拒课,這場(chǎng)勝利被廣泛當(dāng)做是人工智能發(fā)展中的里程碑徐勃。但是 Deep Blue 的技術(shù)僅僅對(duì)棋類有用,不可推廣早像。計(jì)算機(jī)科學(xué)并沒(méi)因此產(chǎn)生革命僻肖。
而近期打敗了歷史上最強(qiáng)的棋手的 AlphaGo 有沒(méi)有特別之處呢?
我相信答案是有卢鹦,但是并不是依照和你們可能聽(tīng)到的那些理由臀脏。很多的文章提出專家觀點(diǎn)認(rèn)為圍棋比國(guó)際象棋更難,從而讓這次勝利顯得更加令人矚目冀自∪嘀桑或者有人說(shuō)我們并沒(méi)有認(rèn)為在十年內(nèi)在圍棋中機(jī)器能夠打敗人類,所以這是一個(gè)重大突破熬粗。一些文章給出了正確的觀察搀玖,在圍棋中存在更多的可性位置狀態(tài),但是他們并沒(méi)有解釋為何這個(gè)是對(duì)機(jī)器而不是人類更難的問(wèn)題荐糜。
換言之巷怜,這些觀點(diǎn)都沒(méi)有解決核心問(wèn)題:AlphaGo 成功的技術(shù)進(jìn)步是否有更加廣泛的影響?為了回答這個(gè)問(wèn)題暴氏,我們必須認(rèn)識(shí)到 AlphaGo 的技術(shù)進(jìn)步比讓 Deep Blue 成功的技術(shù)是質(zhì)的飛躍同時(shí)也更加重要延塑。
在國(guó)際象棋中,初學(xué)棋手被教導(dǎo)棋子的值這個(gè)概念答渔。在一系統(tǒng)中关带,騎士或者象值三個(gè)卒。而車,因?yàn)槟軌蚋采w的移動(dòng)范圍很大宋雏,值五個(gè)卒芜飘。然后皇后有最大的范圍,值九個(gè)卒磨总。國(guó)王有無(wú)窮的值嗦明,因?yàn)槭?guó)王就輸了比賽。
你可以使用這些值來(lái)評(píng)估可行的走子蚪燕。棄掉一個(gè)象吃掉對(duì)手的車娶牌?通常是好的選擇。棄掉騎士和象換對(duì)手的車馆纳?那就不是一個(gè)好的選擇了诗良。
在計(jì)算機(jī)國(guó)際象棋中值的概念是很重要的。大多數(shù)計(jì)算機(jī)象棋程序搜索數(shù)以百萬(wàn)計(jì)或者數(shù)十億的走子的組合鲁驶。程序的目標(biāo)是找到一個(gè)走子的序列最大化最終程序的棋盤狀態(tài)的值鉴裹,而不管對(duì)手的走子的情況。
早期的國(guó)際象棋程序通過(guò)上面給出的規(guī)則來(lái)評(píng)價(jià)棋盤狀態(tài)钥弯。但后期的程序使用更加細(xì)節(jié)的象棋知識(shí)径荔。Deep Blue 組合了超過(guò) 8,000 種不同的因素在評(píng)價(jià)棋盤狀態(tài)的函數(shù)之中。Deep Blue 不會(huì)僅僅說(shuō)一個(gè)象等于五個(gè)卒脆霎。如果同一方的卒在象前面猖凛,卒實(shí)際上會(huì)限制象的移動(dòng),因此讓象本身的價(jià)值降低绪穆。如果卒是被捕獲的辨泳,意思是他可以通過(guò)捕獲一個(gè)敵方卒來(lái)打開(kāi)車的路,Deep Blue 將卒看做是半透明的玖院,并不會(huì)降低車的值太多菠红。
像這樣依賴細(xì)節(jié)知識(shí)的想法對(duì) Deep Blue 非常關(guān)鍵。根據(jù)他們團(tuán)隊(duì)的技術(shù)報(bào)告难菌,這種半透明施壓卒在他們和 Kasparov 第二場(chǎng)比賽中發(fā)揮了關(guān)鍵作用试溯。
最終,Deep Blue 團(tuán)隊(duì)使用了兩個(gè)主要的想法郊酒。第一個(gè)是構(gòu)建一個(gè)函數(shù)可以使用很多細(xì)節(jié)的象棋只是來(lái)評(píng)價(jià)任意給定的棋盤狀態(tài)遇绞。第二個(gè)是使用強(qiáng)大的計(jì)算資源來(lái)評(píng)價(jià)很多可能的位置,選擇最佳最終棋盤狀態(tài)的那個(gè)走子燎窘。
那么用這個(gè)策略來(lái)下圍棋呢摹闽?
使用這樣的策略你會(huì)很快進(jìn)入到一個(gè)困難的境地。問(wèn)題出在如何評(píng)價(jià)棋盤狀態(tài)上褐健。頂級(jí)的圍棋棋手使用很多的直覺(jué)來(lái)評(píng)判特定的棋盤狀態(tài)的好壞付鹿。例如,他們會(huì)做出關(guān)于一個(gè)棋盤位置是“好的形態(tài)”的模糊描述。并且也不會(huì)是像國(guó)際象棋那樣的非常清晰的表達(dá)直覺(jué)方式舵匾。
現(xiàn)在你可能會(huì)認(rèn)為這僅僅是多花時(shí)間精力就可以獲得很好的評(píng)價(jià)棋盤狀態(tài)的方法俊抵。不幸的是,并沒(méi)有顯而易見(jiàn)的方式能夠像國(guó)際象棋那樣成功坐梯,所以圍棋程序一直比較低迷徽诲。而所有的變化源自 2006 年 Monte Carlo Tree Search 算法的出現(xiàn),MCTS 基于一種更加聰明的隨機(jī)模擬比賽的方式進(jìn)行吵血。但是這種方式仍然離人類棋手的實(shí)力很遠(yuǎn)馏段。所以看起來(lái)對(duì)棋盤狀態(tài)很強(qiáng)的直覺(jué)感才是取得勝利的關(guān)鍵。
有關(guān) AlphaGo 中提出的新的和重要的東西是人們?cè)O(shè)計(jì)出了一種可以將直覺(jué)層面的概念刻畫的方式践瓷。
為了解釋其工作機(jī)制,我們先描述 AlphaGo 系統(tǒng)亡蓉,主要內(nèi)容參見(jiàn) AlphaGo 團(tuán)隊(duì)發(fā)表于今年一月份的 論文(系統(tǒng)的細(xì)節(jié)和 AlphaGo 與李世石的比賽有不同晕翠,但是主要的原理是一致的)。
AlphaGo 拿來(lái)了人類玩家的 150砍濒,000 比賽的數(shù)據(jù)淋肾,使用人工神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)其中的模式。特別地爸邢,它學(xué)會(huì)了預(yù)測(cè)人類玩家在任意給定的位置(狀態(tài))走子的概率樊卓。AlphaGo 的設(shè)計(jì)者們?nèi)缓笸ㄟ^(guò)和自己更早的版本進(jìn)行重復(fù)比賽來(lái)提升神經(jīng)網(wǎng)絡(luò)的性能,不斷調(diào)整網(wǎng)絡(luò)來(lái)逐步提升其勝利的機(jī)會(huì)杠河。
那么這個(gè)策略網(wǎng)絡(luò)如何學(xué)習(xí)預(yù)測(cè)好的走子的碌尔?
簡(jiǎn)而言之,神經(jīng)網(wǎng)絡(luò)是一個(gè)非常復(fù)雜的數(shù)學(xué)模型券敌,有數(shù)百萬(wàn)的參數(shù)可以調(diào)整來(lái)改變模型的行為唾戚。當(dāng)我說(shuō)這個(gè)網(wǎng)絡(luò)“學(xué)習(xí)了”的時(shí)候,我是指計(jì)算機(jī)一直在不斷地對(duì)模型的參數(shù)做出微小的調(diào)整待诅,試著找到一種在比賽時(shí)給出微小進(jìn)步的方式叹坦。學(xué)習(xí)的第一階段,網(wǎng)絡(luò)試著去提升做出和人類棋手同樣的走子的概率卑雁。而第二階段募书,網(wǎng)絡(luò)會(huì)嘗試提升在自我對(duì)弈中贏得比賽的概率。這看起來(lái)非常瘋狂——不斷重復(fù)對(duì)某個(gè)相當(dāng)復(fù)雜的函數(shù)進(jìn)行微小調(diào)整——但是如果持續(xù)足夠長(zhǎng)的時(shí)間學(xué)習(xí)测蹲,并借助足夠的計(jì)算資源莹捡,網(wǎng)絡(luò)會(huì)表現(xiàn)得越來(lái)越好。另外這兒有一個(gè)奇特的現(xiàn)象:網(wǎng)絡(luò)變得更好的原因無(wú)人理解扣甲,因?yàn)檫@些優(yōu)化是數(shù)十億微小的自動(dòng)調(diào)整產(chǎn)生的結(jié)果道盏。
在這兩個(gè)訓(xùn)練過(guò)程后,策略網(wǎng)絡(luò)就可以下中規(guī)中矩的一盤棋了,可能和人類的業(yè)余棋手水平相當(dāng)荷逞。但仍然離職業(yè)水平有很大的差距媒咳。在某種意義上,這是一種不對(duì)未來(lái)走子過(guò)程進(jìn)行搜索且不評(píng)估結(jié)果棋盤狀態(tài)的下法种远。為了超越業(yè)余水平涩澡,AlphaGo 需要一種衡量棋盤狀態(tài)的方法。
為了越過(guò)這個(gè)障礙坠敷,設(shè)計(jì)者們研究出了 AlphaGo 的核心想法——將策略網(wǎng)絡(luò)和自身進(jìn)行對(duì)弈妙同,來(lái)獲得一個(gè)給定的棋盤狀態(tài)是否為勝利的概率估計(jì)。勝利的概率就提供了一種關(guān)于棋盤狀態(tài)的評(píng)估的方法膝迎。(實(shí)際上粥帚,AlphaGo 使用了一個(gè)更加復(fù)雜的實(shí)現(xiàn)方式)接著,AlphaGo 將這個(gè)觀點(diǎn)和對(duì)很多可能的走子過(guò)程的搜索進(jìn)行組合限次,將搜索放在策略網(wǎng)絡(luò)認(rèn)為更加可能的路徑上芒涡。然后選擇那個(gè)給出最高棋盤狀態(tài)評(píng)價(jià)的走子。
我們可以從中看到 AlphaGo 并沒(méi)有像 Deep Blue 對(duì)國(guó)際象棋那樣從一個(gè)基于很多圍棋細(xì)節(jié)知識(shí)的評(píng)價(jià)系統(tǒng)開(kāi)始卖漫。相反费尽,通過(guò)預(yù)先分析成千場(chǎng)的比賽,并引入相當(dāng)多的自我對(duì)弈羊始,AlphaGo 通過(guò)數(shù)十億的微小調(diào)整不斷地做出微小改進(jìn)的方式構(gòu)建了策略網(wǎng)絡(luò)旱幼。然后,策略網(wǎng)絡(luò)幫助 AlphaGo 構(gòu)建了一個(gè)刻畫了非常類似于人類棋手所謂的關(guān)于不同棋盤狀態(tài)的直覺(jué)的概念突委。
按照這樣的方式柏卤,AlphaGo 比 Deep Blue 更具突破性。因?yàn)橛?jì)算機(jī)發(fā)展的早期匀油,計(jì)算機(jī)就已經(jīng)被用來(lái)搜索優(yōu)化已有的函數(shù)的方式闷旧。Deep Blue 的觀點(diǎn)僅僅是:搜索的目標(biāo)是優(yōu)化盡管復(fù)雜但是形式大多數(shù)由已有的國(guó)際象棋知識(shí)表達(dá)的函數(shù)。當(dāng)然完成搜索的方式也是很聰明的钧唐,但是與 1960 年代的多數(shù)程序相比卻沒(méi)什么不同忙灼。
盡管搜索方式上更加聰明一些,不過(guò) AlphaGo 也還是使用了搜索和優(yōu)化的思想钝侠。但是這里新穎且不同尋常之處是在前期(prior stage)使用了神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)幫助刻畫好的棋盤狀態(tài)的函數(shù)函數(shù)该园。通過(guò)組合這兩個(gè)部分,AlphaGo 才能達(dá)到現(xiàn)在的狀態(tài)帅韧。
復(fù)現(xiàn)直覺(jué)模式識(shí)別的能力其實(shí)非常重要的里初。這也是更加廣泛的趨勢(shì)的一部分。在更早的一篇論文 中忽舟,Google DeepMind 的團(tuán)隊(duì)構(gòu)建了神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)玩 49 種經(jīng)典的 Atari 2600 視頻游戲双妨,在很多的游戲中達(dá)到了超過(guò)人類專家玩家的水平淮阐。解決這個(gè)問(wèn)題的保守觀點(diǎn)和 Deep Blue 類似:人類程序員分析每個(gè)游戲然后給出游戲的細(xì)節(jié)控制策略。
對(duì)比看來(lái)刁品,DeepMind 的神經(jīng)網(wǎng)絡(luò)簡(jiǎn)單地探索了很多玩游戲的方式泣特。剛開(kāi)始,網(wǎng)絡(luò)和人類初學(xué)者很像挑随,玩得非常糟糕状您,完全是瞎玩。但是網(wǎng)絡(luò)偶然也會(huì)給出幾個(gè)精彩的操作兜挨。它學(xué)會(huì)了識(shí)別好的玩法——就是能夠獲得高分的玩法——這其實(shí)和 AlphaGo 學(xué)會(huì)好的棋盤狀態(tài)的方式很像膏孟。并且當(dāng)這個(gè)情況出現(xiàn)后,網(wǎng)絡(luò)會(huì)強(qiáng)化這個(gè)行為拌汇,不斷地提升玩游戲的水平柒桑。
這種獲得直覺(jué)和識(shí)別模式的能力也已經(jīng)被使用到其他的場(chǎng)景中了。在 2015 年噪舀,Leon Gatys魁淳、Alexander Ecker 和 Matthias Bethge 在 arXiv 上發(fā)表了一篇論文,描述了一種使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)藝術(shù)風(fēng)格并能夠應(yīng)用這種風(fēng)格到其他圖片上傅联。這個(gè)想法非常簡(jiǎn)單:網(wǎng)絡(luò)會(huì)展示給大量的圖片,獲得識(shí)別類似風(fēng)格的圖片的能力疚察。然后可以應(yīng)用風(fēng)格信息到新的圖像上蒸走。例如,下圖給出了當(dāng)你將中間那副梵高的畫的風(fēng)格作用在左邊的埃菲爾鐵塔的照片上時(shí)就得到了右邊的復(fù)合圖片貌嫡。
這雖然不是非常好的藝術(shù)比驻,但是對(duì)展示神經(jīng)網(wǎng)絡(luò)刻畫直覺(jué)并作用到各個(gè)領(lǐng)域確實(shí)是一個(gè)很棒的例子。
在過(guò)去的幾年里岛抄,神經(jīng)網(wǎng)絡(luò)已經(jīng)被用來(lái)在很多領(lǐng)域中刻畫直覺(jué)和識(shí)別模式别惦。很多使用這些網(wǎng)絡(luò)的項(xiàng)目都已經(jīng)出現(xiàn),涉及的任務(wù)包括比如識(shí)別藝術(shù)風(fēng)格或者開(kāi)發(fā)好的視頻游戲策略上夫椭。但是同樣也有在不同的領(lǐng)域如音頻和自然語(yǔ)言中驚人的例子掸掸。
由于這樣的多樣性,我認(rèn)為 AlphaGo 本身并不是一個(gè)革命性的突破蹭秋,但是更像是一種前沿的極度重要的發(fā)展:構(gòu)建能夠刻畫直覺(jué)并學(xué)會(huì)模式識(shí)別的系統(tǒng)的能力扰付。計(jì)算機(jī)科學(xué)家嘗試這個(gè)任務(wù)其實(shí)已有數(shù)十年,但并沒(méi)能取得大的進(jìn)展仁讨。但是現(xiàn)在羽莺,神經(jīng)網(wǎng)絡(luò)的成功表明有潛力去擴(kuò)大可以用計(jì)算機(jī)解決的問(wèn)題的范圍。
現(xiàn)在去瘋狂歡呼去聲稱通用人工智能在幾年后就會(huì)出現(xiàn)其實(shí)是危險(xiǎn)的洞豁⊙喂蹋總之荒给,假設(shè)你將思考的方式分解成合乎邏輯的計(jì)算機(jī)能夠勝任的方式和“直覺(jué)”。如果我們將 AlphaGo 和類似的系統(tǒng)看做是計(jì)算機(jī)可以模擬直覺(jué)的證據(jù)刁卜,看起來(lái)所有需要的基礎(chǔ)都已經(jīng)形成了:計(jì)算機(jī)現(xiàn)在可以執(zhí)行邏輯和直覺(jué)志电。那么肯定通用人工智能就在不遠(yuǎn)的地方了!
但是這里其實(shí)有個(gè)措辭上的錯(cuò)誤:我們將很多精神活動(dòng)都?xì)w為“直覺(jué)”了长酗。但僅僅因?yàn)樯窠?jīng)網(wǎng)絡(luò)可以刻畫某些特定類型的直覺(jué)就認(rèn)為它能夠在所有類型的直覺(jué)上可行那就不合適了溪北。可能神經(jīng)網(wǎng)絡(luò)在某些我們認(rèn)為需要直覺(jué)的任務(wù)上一點(diǎn)都沒(méi)有作用夺脾。
實(shí)際上之拨,我們現(xiàn)在對(duì)神經(jīng)網(wǎng)絡(luò)的理解上不少方面都很欠缺。例如咧叭,2014 年的一篇論文描述了某些可以欺騙神經(jīng)網(wǎng)絡(luò)的“對(duì)手樣本”蚀乔。作者從一個(gè)表現(xiàn)很好的神經(jīng)網(wǎng)絡(luò)模型開(kāi)始》撇纾看起來(lái)這樣的神經(jīng)網(wǎng)絡(luò)已經(jīng)具備刻畫出模式識(shí)別的能力了吉挣。但是他們的工作表明,通過(guò)對(duì)圖片進(jìn)行微小的改變是可以欺騙神經(jīng)網(wǎng)絡(luò)的婉弹。例如睬魂,下面的圖片中神經(jīng)網(wǎng)絡(luò)可以正確地識(shí)別左邊的小狗,但是如果加上中間突破中的微小的擾動(dòng)镀赌,得到的右邊那副圖片網(wǎng)絡(luò)就不能正確地識(shí)別了氯哮。
另一個(gè)現(xiàn)有系統(tǒng)的極限是他們通常需要對(duì)很多的人類樣本進(jìn)行學(xué)習(xí)。例如商佛,AlphaGo 從 150,000 場(chǎng)人類比賽中學(xué)習(xí)喉钢。這是相當(dāng)大的一個(gè)數(shù)目了!但是良姆,人類是可以從很少的比賽中學(xué)習(xí)非常多的肠虽。類似地,識(shí)別和操作圖像的網(wǎng)絡(luò)一般都需要數(shù)百萬(wàn)的樣本圖像玛追,每個(gè)圖像有著對(duì)應(yīng)的標(biāo)注信息税课。所以重要挑戰(zhàn)是讓系統(tǒng)不需要更少的輔助信息從少量的人類提供的樣本數(shù)據(jù)集中學(xué)習(xí)。
諸如 AlphaGo 這樣的系統(tǒng)是真正讓人興奮的痊剖。我們已經(jīng)學(xué)會(huì)使用計(jì)算機(jī)系統(tǒng)重現(xiàn)人類直覺(jué)的某些形式〔矗現(xiàn)在我們也面臨許多巨大的挑戰(zhàn):擴(kuò)展計(jì)算機(jī)能夠表示的直覺(jué)的范圍,讓系統(tǒng)更加穩(wěn)定邢笙,理解他們工作的原理和機(jī)制啸如,學(xué)習(xí)將這些模型和已有的計(jì)算機(jī)系統(tǒng)組合的更好的方式。我們可能很快就可以學(xué)會(huì)刻畫給出數(shù)學(xué)證明氮惯、寫出故事或者好的解釋的直覺(jué)判斷了嗎叮雳?現(xiàn)在正是人工智能最為光明的時(shí)刻想暗。