姓名:王正帥
學(xué)號(hào):14020120007
轉(zhuǎn)載自:mp.weixin.qq.com/s 句柠,有刪節(jié)
【嵌牛導(dǎo)讀】:2016 年咸包,Google 旗下 DeepMind 公司開(kāi)發(fā)的 AlphaGo 擊敗了韓國(guó)職業(yè)九段棋士李世石傻丝。今年 5 月,AlphaGo 以三戰(zhàn)全勝的紀(jì)錄贏了名列世界第一的棋王柯潔诉儒。隔了五個(gè)月后葡缰,DeepMind 公布了 AlphaGo Zero,它再度讓人類(lèi)感到震撼忱反》菏停“我沒(méi)有想過(guò)一個(gè)名詞能獲得所有人的認(rèn)同,從政治人物温算、科學(xué)家怜校、企業(yè)家、到學(xué)生甚至是小孩注竿,都覺(jué)得這件事明天會(huì)發(fā)生茄茁,這場(chǎng)完美風(fēng)暴的引爆點(diǎn)是 AlphaGo,黃士杰可能自己都沒(méi)想過(guò)巩割,他那只幫機(jī)器下棋的手裙顽,改變這個(gè)世界:讓大家相信或者憂慮機(jī)器會(huì)超越人類(lèi)”,Google 臺(tái)灣董事總經(jīng)理簡(jiǎn)立峰說(shuō)宣谈。人工智能愈犹,是簡(jiǎn)立峰口中的完美風(fēng)暴,AlphaGo 則是這一波 AI 風(fēng)潮的最佳代言人闻丑,那么漩怎,黃士杰呢?相信 DeepTech 的讀者們已經(jīng)對(duì)這個(gè)名字并不陌生嗦嗡,他是 DeepMind 資深研究員勋锤,是與人類(lèi)頂尖棋手對(duì)弈時(shí)代 AlphaGo 執(zhí)棋的“人肉臂”,更重要的是侥祭,他還是開(kāi)發(fā)這個(gè)神秘大腦的關(guān)鍵人物之一叁执。
【嵌牛鼻子】:AlphaGo茄厘、AlphaGo Zero、黃士杰徒恋、DeepMind
【嵌牛提問(wèn)】:AlphaGo Zero 是如何誕生的蚕断?黃士杰做了哪些突出貢獻(xiàn)欢伏?
【嵌牛正文】:
11 月 10 日入挣,黃士杰應(yīng)臺(tái)灣人工智能年會(huì)之邀來(lái)臺(tái)演講,演講主題是“AlphaGo—— 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利”硝拧,也是他首次公開(kāi)演講径筏。
不久前,在 DeepMind 發(fā)表了《Mastering the game of Go without human knowledge》的最新論文后障陶,黃士杰曾在 Facebook 寫(xiě)下: AlphaGo Zero 是完全脫離人類(lèi)知識(shí)的 AlphaGo 版本滋恬。這也就是取名為 AlphaGo Zero 的原因——AlphaGo 從零開(kāi)始。
在今天的演講上抱究,他強(qiáng)調(diào)恢氯,DeepMind 的目標(biāo)是要做出一個(gè)通用人工智能,也就是強(qiáng)人工智能鼓寺,但他也認(rèn)為勋拟,對(duì) DeepMind 來(lái)說(shuō),強(qiáng)人工智能還是很遙遠(yuǎn)妈候,現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍然在人類(lèi)大腦內(nèi)敢靡,有人說(shuō)強(qiáng)人工智能要到 2045 年,有人說(shuō)至少還要 100 年苦银,黃世杰的回答是:“大家不要太擔(dān)心啸胧,電影還是電影♂B玻”
從 DeepMind 為什么開(kāi)始做圍棋一直到最新的 AlphaGo Zero纺念,見(jiàn)證了這一切的他稱(chēng)“這幾年好像在做夢(mèng)”。
1想括、開(kāi)發(fā) Erica柠辞,獲邀加入 DeepMind
AlphaGo 怎么開(kāi)始的?其實(shí)是三組人馬走在一起主胧、串起來(lái)的結(jié)晶叭首,第一條線是 Demis Hassabis 和 DeepMind AlphaGo 項(xiàng)目負(fù)責(zé)人 David Silver,第二條線是我踪栋,第三條線是 Google Brain 的兩位人員 Chris Maddison 和 Ilya Sutskever焙格。Demis Hassabis 和 David Silver 是在劍橋大學(xué)的同學(xué),他們一起創(chuàng)業(yè)夷都。他們?yōu)槭裁聪胱鰢迥鼐彀Γ慨?dāng)年 IBM 深藍(lán)贏了西洋棋世界冠軍卡斯巴羅夫,就只剩下圍棋是人工智能最大的挑戰(zhàn)。因此他們一直就希望做出很強(qiáng)的圍棋程序冬阳,這是他們的夢(mèng)想蛤虐。一開(kāi)始,研究人員是將西洋棋的技術(shù)放進(jìn)圍棋肝陪,但這失敗了驳庭,2006 年蒙特卡洛樹(shù)出來(lái)之后,圍棋程序提升到業(yè)余三段氯窍,但離職業(yè)水平還是有極大的差距饲常。當(dāng)我開(kāi)發(fā)出的 Erica 在 2010 年的計(jì)算機(jī)奧林匹亞獲得 19 路圍棋的冠軍時(shí),我使用的硬件是 8 cores狼讨,Zen 用了 6 臺(tái) PC,美國(guó)的 Many Faces of GO 是用 12 cores政供,其他對(duì)手都是用大機(jī)器播聪,但小蝦米卻贏了大鯨魚(yú)。不久布隔,Demis Hassabis 就寫(xiě)了一封信問(wèn)我要不要加入离陶,面試時(shí)他們告訴我,他們的夢(mèng)想就是強(qiáng)人工智慧执泰。隔年我就加入 DeepMind枕磁。當(dāng)我們開(kāi)始做 GO Project 時(shí),大家都有一個(gè)共識(shí)——不復(fù)制 Erica术吝,因?yàn)闆](méi)有意義计济,我們決定要把深度學(xué)習(xí)應(yīng)用進(jìn)來(lái)。
2排苍、AlphaGo 的成功是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利
我們?cè)趺磁袛嗌疃葘W(xué)習(xí)可能可以用在圍棋呢沦寂?如果說(shuō),人看一個(gè)棋盤(pán)淘衙,幾秒內(nèi)大概可以知道下這里传藏、下那里會(huì)是好棋,這種任務(wù)神經(jīng)網(wǎng)絡(luò)就辦得到彤守,但如果要想好幾分鐘后怎么走毯侦,那神經(jīng)網(wǎng)絡(luò)就可能辦不到。當(dāng)初我們就有這 么一個(gè)直覺(jué):要以深度學(xué)習(xí)建構(gòu)策略網(wǎng)絡(luò)具垫。
AlphaGo 的主要突破是價(jià)值網(wǎng)絡(luò)侈离,有一天,David Silver 跟我說(shuō)他有這樣一個(gè)想法筝蚕,當(dāng)時(shí)我還有點(diǎn)質(zhì)疑卦碾。我們把策略網(wǎng)絡(luò)做出來(lái)后铺坞,勝率就提高到 70~80%,后來(lái)加入了 David Silver 提出的價(jià)值網(wǎng)絡(luò)洲胖,要讓機(jī)器進(jìn)行不斷左右互搏的自我學(xué)習(xí)济榨,一開(kāi)始不太成功,過(guò)了一個(gè)月我們克服 over fitting 的問(wèn)題后绿映,AlphaGo 的勝率大大提升到 95%擒滑,而這也是后面 AlphaGo Zero 的主要核心。
后來(lái)老板就說(shuō)绘梦,要跟人類(lèi)面對(duì)面下棋橘忱,就得跟樊麾老師比賽赴魁。我記得卸奉,當(dāng)樊麾第二盤(pán)棋輸了之后,他就說(shuō):我要出去走走颖御,因?yàn)楝F(xiàn)場(chǎng)只有我和他說(shuō)中文榄棵,我就說(shuō):我陪你,他回答:不用潘拱,我自己透透氣疹鳄。樊麾回來(lái)后,他變得很正面芦岂,他不覺(jué)得這東西很可怕瘪弓,而是很正面也很值得期待,因此他后來(lái)也變成 DeepMind 團(tuán)隊(duì)的一員禽最。再后來(lái)腺怯,我們選擇公開(kāi)發(fā)表這個(gè)研究的論文,因?yàn)榭茖W(xué)的精神就是互相分享川无,希望推動(dòng)整個(gè)研究領(lǐng)域進(jìn)步呛占。之后,加入 Google 也為我們帶來(lái)很大幫助懦趋,特別是硬件上晾虑,從 GPU 到 TPU 都沒(méi)有后顧之憂。但 TPU 對(duì)我們有極大幫助仅叫,把勝率提高了很多帜篇。
另外,大家不要忘記诫咱,AlphaGo 在跟李世石比賽時(shí)笙隙,第四盤(pán)棋輸?shù)暮軕K,我當(dāng)時(shí)想說(shuō)遂跟,我自己來(lái)下都比較好逃沿。盡管最后我們贏了婴渡,但回去后就一定要解決這個(gè)弱點(diǎn),不是只解決當(dāng)初第四盤(pán)的弱點(diǎn)凯亮,必須全面性地解決边臼,否則以后還是沒(méi)有人敢用 AI 系統(tǒng)。進(jìn)化后的版本就是 AlphaGo Master假消。
我們到底怎么解決呢柠并?還是用深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的方法,而不是用人類(lèi)知識(shí)方法富拗。
我們把 AlphaGo 的學(xué)習(xí)能力變強(qiáng)臼予,從神經(jīng)網(wǎng)絡(luò)加深:從 13 層變成了 40 層,并改成 ResNet啃沪。
把 2 個(gè)網(wǎng)絡(luò)(決策網(wǎng)絡(luò)粘拾、價(jià)值網(wǎng)絡(luò))結(jié)合成 1 個(gè)網(wǎng)絡(luò),讓 AlphaGo 的直覺(jué)和判斷同時(shí)得到訓(xùn)練创千,更有一致性缰雇。
?改進(jìn)訓(xùn)練的 pipeline。
解決了模仿期追驴、循環(huán)期等特別情況械哟。
3、超越以往的 AlphaGo Zero
AlphaGo Zero 是連我們自己都很驚訝的版本殿雪,因?yàn)樗谝徊骄褪前阉腥祟?lèi)知識(shí)的部分都拋掉暇咆,它是脫離“人類(lèi)知識(shí)”,不是脫離“規(guī)則知識(shí)丙曙,我們一樣是給要它 19X19 的盤(pán)面訓(xùn)練爸业。
從零開(kāi)始的 AlphaGo 還真的是全部亂下、徹底亂下河泳,所以最初我們預(yù)期 AlphaGo Zero 應(yīng)該是贏不了 AlphaGo Master沃呢,后來(lái)我們用了一些方法把卡住的地方解決了,細(xì)節(jié)可以參考論文拆挥,沒(méi)想到 AlphaGo Master 進(jìn)一步超越原先的版本薄霜,3 天就走完人類(lèi)幾千年圍棋研究的歷程。深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的威力真是太大纸兔。
AlphaGo Zero 用了 2000 個(gè) TPU 惰瓜、訓(xùn)練了 40 天。第 40 天還沒(méi)有到達(dá)其極限汉矿,但因?yàn)槲覀儥C(jī)器要做其他事情就停下了崎坊,所以它還有很大的潛力。AlphaGo Zero 論文的目的不是要做出很強(qiáng)的程序洲拇,也沒(méi)有想要跟人類(lèi)知識(shí)比較奈揍、或是討論人類(lèi)知識(shí)有沒(méi)有用這些問(wèn)題曲尸,而是想證明程序不需要人類(lèi)知識(shí)也可以擁有很強(qiáng)的能力。
我觀察到男翰,計(jì)算機(jī)圍棋 AI 的價(jià)值在于幫助人類(lèi)或棋手?jǐn)U展圍棋的理論和思路另患,未來(lái) AI 是人類(lèi)的工具,跟人類(lèi)合作蛾绎,而非跟人類(lèi)對(duì)抗昆箕。強(qiáng)人工智能還是 Far Away,現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍在人類(lèi)的腦袋里租冠。
4鹏倘、總結(jié)
也就是說(shuō),從一個(gè)不知道圍棋游戲規(guī)則的神經(jīng)網(wǎng)絡(luò)開(kāi)始顽爹,沒(méi)有任何人類(lèi)指導(dǎo)或人類(lèi)智能的參與纤泵,僅僅通過(guò)全新的強(qiáng)化學(xué)習(xí)算法,讓程序自我對(duì)弈话原,自己成為自己的老師夕吻,在這過(guò)程中神經(jīng)網(wǎng)絡(luò)不斷被更新和調(diào)整诲锹。沒(méi)想到的是繁仁,機(jī)器訓(xùn)練的時(shí)間更短,但卻更聰明归园,例如黄虱,AlphaGo Zero 在 3 天內(nèi)進(jìn)行過(guò) 490 萬(wàn)次自我對(duì)弈,就達(dá)到了先前擊敗李世石的程度庸诱,但之前他們訓(xùn)練與李世石對(duì)戰(zhàn)的 AlphaGo 卻花費(fèi)了長(zhǎng)達(dá)數(shù)個(gè)月的時(shí)間捻浦。另外,AlphaGo Zero 21 天就達(dá)到了在烏鎮(zhèn)圍棋峰會(huì)打敗柯潔的 AlphaGo Master 的水平桥爽。