AlphaGo “人肉臂”黃士杰首度公開(kāi)演講：Zero版本并未到達(dá)極限，加入DeepMind這四件事對(duì)我影響最大

姓名：王正帥

學(xué)號(hào)：14020120007

轉(zhuǎn)載自：mp.weixin.qq.com/s 句柠，有刪節(jié)

【嵌牛導(dǎo)讀】：2016 年咸包，Google 旗下 DeepMind 公司開(kāi)發(fā)的 AlphaGo 擊敗了韓國(guó)職業(yè)九段棋士李世石傻丝。今年 5 月，AlphaGo 以三戰(zhàn)全勝的紀(jì)錄贏了名列世界第一的棋王柯潔诉儒。隔了五個(gè)月后葡缰，DeepMind 公布了 AlphaGo Zero，它再度讓人類(lèi)感到震撼忱反》菏停“我沒(méi)有想過(guò)一個(gè)名詞能獲得所有人的認(rèn)同，從政治人物温算、科學(xué)家怜校、企業(yè)家、到學(xué)生甚至是小孩注竿，都覺(jué)得這件事明天會(huì)發(fā)生茄茁，這場(chǎng)完美風(fēng)暴的引爆點(diǎn)是 AlphaGo，黃士杰可能自己都沒(méi)想過(guò)巩割，他那只幫機(jī)器下棋的手裙顽，改變這個(gè)世界：讓大家相信或者憂慮機(jī)器會(huì)超越人類(lèi)”，Google 臺(tái)灣董事總經(jīng)理簡(jiǎn)立峰說(shuō)宣谈。人工智能愈犹，是簡(jiǎn)立峰口中的完美風(fēng)暴，AlphaGo 則是這一波 AI 風(fēng)潮的最佳代言人闻丑，那么漩怎，黃士杰呢？相信 DeepTech 的讀者們已經(jīng)對(duì)這個(gè)名字并不陌生嗦嗡，他是 DeepMind 資深研究員勋锤，是與人類(lèi)頂尖棋手對(duì)弈時(shí)代 AlphaGo 執(zhí)棋的“人肉臂”，更重要的是侥祭，他還是開(kāi)發(fā)這個(gè)神秘大腦的關(guān)鍵人物之一叁执。

【嵌牛鼻子】：AlphaGo茄厘、AlphaGo Zero、黃士杰徒恋、DeepMind

【嵌牛提問(wèn)】：AlphaGo Zero 是如何誕生的蚕断？黃士杰做了哪些突出貢獻(xiàn)欢伏？

【嵌牛正文】：

11 月 10 日入挣，黃士杰應(yīng)臺(tái)灣人工智能年會(huì)之邀來(lái)臺(tái)演講，演講主題是“AlphaGo—— 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利”硝拧，也是他首次公開(kāi)演講径筏。

不久前，在 DeepMind 發(fā)表了《Mastering the game of Go without human knowledge》的最新論文后障陶，黃士杰曾在 Facebook 寫(xiě)下： AlphaGo Zero 是完全脫離人類(lèi)知識(shí)的 AlphaGo 版本滋恬。這也就是取名為 AlphaGo Zero 的原因——AlphaGo 從零開(kāi)始。

在今天的演講上抱究，他強(qiáng)調(diào)恢氯，DeepMind 的目標(biāo)是要做出一個(gè)通用人工智能，也就是強(qiáng)人工智能鼓寺，但他也認(rèn)為勋拟，對(duì) DeepMind 來(lái)說(shuō)，強(qiáng)人工智能還是很遙遠(yuǎn)妈候，現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍然在人類(lèi)大腦內(nèi)敢靡，有人說(shuō)強(qiáng)人工智能要到 2045 年，有人說(shuō)至少還要 100 年苦银，黃世杰的回答是：“大家不要太擔(dān)心啸胧，電影還是電影♂Ｂ玻”

從 DeepMind 為什么開(kāi)始做圍棋一直到最新的 AlphaGo Zero纺念，見(jiàn)證了這一切的他稱(chēng)“這幾年好像在做夢(mèng)”。

1想括、開(kāi)發(fā) Erica柠辞，獲邀加入 DeepMind

AlphaGo 怎么開(kāi)始的？其實(shí)是三組人馬走在一起主胧、串起來(lái)的結(jié)晶叭首，第一條線是 Demis Hassabis 和 DeepMind AlphaGo 項(xiàng)目負(fù)責(zé)人 David Silver，第二條線是我踪栋，第三條線是 Google Brain 的兩位人員 Chris Maddison 和 Ilya Sutskever焙格。Demis Hassabis 和 David Silver 是在劍橋大學(xué)的同學(xué)，他們一起創(chuàng)業(yè)夷都。他們?yōu)槭裁聪胱鰢迥鼐彀Γ慨?dāng)年 IBM 深藍(lán)贏了西洋棋世界冠軍卡斯巴羅夫，就只剩下圍棋是人工智能最大的挑戰(zhàn)。因此他們一直就希望做出很強(qiáng)的圍棋程序冬阳，這是他們的夢(mèng)想蛤虐。一開(kāi)始，研究人員是將西洋棋的技術(shù)放進(jìn)圍棋肝陪，但這失敗了驳庭，2006 年蒙特卡洛樹(shù)出來(lái)之后，圍棋程序提升到業(yè)余三段氯窍，但離職業(yè)水平還是有極大的差距饲常。當(dāng)我開(kāi)發(fā)出的 Erica 在 2010 年的計(jì)算機(jī)奧林匹亞獲得 19 路圍棋的冠軍時(shí)，我使用的硬件是 8 cores狼讨，Zen 用了 6 臺(tái) PC，美國(guó)的 Many Faces of GO 是用 12 cores政供，其他對(duì)手都是用大機(jī)器播聪，但小蝦米卻贏了大鯨魚(yú)。不久布隔，Demis Hassabis 就寫(xiě)了一封信問(wèn)我要不要加入离陶，面試時(shí)他們告訴我，他們的夢(mèng)想就是強(qiáng)人工智慧执泰。隔年我就加入 DeepMind枕磁。當(dāng)我們開(kāi)始做 GO Project 時(shí)，大家都有一個(gè)共識(shí)——不復(fù)制 Erica术吝，因?yàn)闆](méi)有意義计济，我們決定要把深度學(xué)習(xí)應(yīng)用進(jìn)來(lái)。

2排苍、AlphaGo 的成功是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利

我們?cè)趺磁袛嗌疃葘W(xué)習(xí)可能可以用在圍棋呢沦寂？如果說(shuō)，人看一個(gè)棋盤(pán)淘衙，幾秒內(nèi)大概可以知道下這里传藏、下那里會(huì)是好棋，這種任務(wù)神經(jīng)網(wǎng)絡(luò)就辦得到彤守，但如果要想好幾分鐘后怎么走毯侦，那神經(jīng)網(wǎng)絡(luò)就可能辦不到。當(dāng)初我們就有這么一個(gè)直覺(jué)：要以深度學(xué)習(xí)建構(gòu)策略網(wǎng)絡(luò)具垫。

AlphaGo 的主要突破是價(jià)值網(wǎng)絡(luò)侈离，有一天，David Silver 跟我說(shuō)他有這樣一個(gè)想法筝蚕，當(dāng)時(shí)我還有點(diǎn)質(zhì)疑卦碾。我們把策略網(wǎng)絡(luò)做出來(lái)后铺坞，勝率就提高到 70～80％，后來(lái)加入了 David Silver 提出的價(jià)值網(wǎng)絡(luò)洲胖，要讓機(jī)器進(jìn)行不斷左右互搏的自我學(xué)習(xí)济榨，一開(kāi)始不太成功，過(guò)了一個(gè)月我們克服 over fitting 的問(wèn)題后绿映，AlphaGo 的勝率大大提升到 95％擒滑，而這也是后面 AlphaGo Zero 的主要核心。

后來(lái)老板就說(shuō)绘梦，要跟人類(lèi)面對(duì)面下棋橘忱，就得跟樊麾老師比賽赴魁。我記得卸奉，當(dāng)樊麾第二盤(pán)棋輸了之后，他就說(shuō)：我要出去走走颖御，因?yàn)楝F(xiàn)場(chǎng)只有我和他說(shuō)中文榄棵，我就說(shuō)：我陪你，他回答：不用潘拱，我自己透透氣疹鳄。樊麾回來(lái)后，他變得很正面芦岂，他不覺(jué)得這東西很可怕瘪弓，而是很正面也很值得期待，因此他后來(lái)也變成 DeepMind 團(tuán)隊(duì)的一員禽最。再后來(lái)腺怯，我們選擇公開(kāi)發(fā)表這個(gè)研究的論文，因?yàn)榭茖W(xué)的精神就是互相分享川无，希望推動(dòng)整個(gè)研究領(lǐng)域進(jìn)步呛占。之后，加入 Google 也為我們帶來(lái)很大幫助懦趋，特別是硬件上晾虑，從 GPU 到 TPU 都沒(méi)有后顧之憂。但 TPU 對(duì)我們有極大幫助仅叫，把勝率提高了很多帜篇。

另外，大家不要忘記诫咱，AlphaGo 在跟李世石比賽時(shí)笙隙，第四盤(pán)棋輸?shù)暮軕K，我當(dāng)時(shí)想說(shuō)遂跟，我自己來(lái)下都比較好逃沿。盡管最后我們贏了婴渡，但回去后就一定要解決這個(gè)弱點(diǎn)，不是只解決當(dāng)初第四盤(pán)的弱點(diǎn)凯亮，必須全面性地解決边臼，否則以后還是沒(méi)有人敢用 AI 系統(tǒng)。進(jìn)化后的版本就是 AlphaGo Master假消。

我們到底怎么解決呢柠并？還是用深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的方法，而不是用人類(lèi)知識(shí)方法富拗。

我們把 AlphaGo 的學(xué)習(xí)能力變強(qiáng)臼予，從神經(jīng)網(wǎng)絡(luò)加深：從 13 層變成了 40 層，并改成 ResNet啃沪。

把 2 個(gè)網(wǎng)絡(luò)（決策網(wǎng)絡(luò)粘拾、價(jià)值網(wǎng)絡(luò)）結(jié)合成 1 個(gè)網(wǎng)絡(luò)，讓 AlphaGo 的直覺(jué)和判斷同時(shí)得到訓(xùn)練创千，更有一致性缰雇。

?改進(jìn)訓(xùn)練的 pipeline。

解決了模仿期追驴、循環(huán)期等特別情況械哟。

3、超越以往的 AlphaGo Zero

AlphaGo Zero 是連我們自己都很驚訝的版本殿雪，因?yàn)樗谝徊骄褪前阉腥祟?lèi)知識(shí)的部分都拋掉暇咆，它是脫離“人類(lèi)知識(shí)”，不是脫離“規(guī)則知識(shí)丙曙，我們一樣是給要它 19X19 的盤(pán)面訓(xùn)練爸业。

從零開(kāi)始的 AlphaGo 還真的是全部亂下、徹底亂下河泳，所以最初我們預(yù)期 AlphaGo Zero 應(yīng)該是贏不了 AlphaGo Master沃呢，后來(lái)我們用了一些方法把卡住的地方解決了，細(xì)節(jié)可以參考論文拆挥，沒(méi)想到 AlphaGo Master 進(jìn)一步超越原先的版本薄霜，3 天就走完人類(lèi)幾千年圍棋研究的歷程。深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的威力真是太大纸兔。

AlphaGo Zero 用了 2000 個(gè) TPU 惰瓜、訓(xùn)練了 40 天。第 40 天還沒(méi)有到達(dá)其極限汉矿，但因?yàn)槲覀儥C(jī)器要做其他事情就停下了崎坊，所以它還有很大的潛力。AlphaGo Zero 論文的目的不是要做出很強(qiáng)的程序洲拇，也沒(méi)有想要跟人類(lèi)知識(shí)比較奈揍、或是討論人類(lèi)知識(shí)有沒(méi)有用這些問(wèn)題曲尸，而是想證明程序不需要人類(lèi)知識(shí)也可以擁有很強(qiáng)的能力。

我觀察到男翰，計(jì)算機(jī)圍棋 AI 的價(jià)值在于幫助人類(lèi)或棋手?jǐn)U展圍棋的理論和思路另患，未來(lái) AI 是人類(lèi)的工具，跟人類(lèi)合作蛾绎，而非跟人類(lèi)對(duì)抗昆箕。強(qiáng)人工智能還是 Far Away，現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍在人類(lèi)的腦袋里租冠。

4鹏倘、總結(jié)

也就是說(shuō)，從一個(gè)不知道圍棋游戲規(guī)則的神經(jīng)網(wǎng)絡(luò)開(kāi)始顽爹，沒(méi)有任何人類(lèi)指導(dǎo)或人類(lèi)智能的參與纤泵，僅僅通過(guò)全新的強(qiáng)化學(xué)習(xí)算法，讓程序自我對(duì)弈话原，自己成為自己的老師夕吻，在這過(guò)程中神經(jīng)網(wǎng)絡(luò)不斷被更新和調(diào)整诲锹。沒(méi)想到的是繁仁，機(jī)器訓(xùn)練的時(shí)間更短，但卻更聰明归园，例如黄虱，AlphaGo Zero 在 3 天內(nèi)進(jìn)行過(guò) 490 萬(wàn)次自我對(duì)弈，就達(dá)到了先前擊敗李世石的程度庸诱，但之前他們訓(xùn)練與李世石對(duì)戰(zhàn)的 AlphaGo 卻花費(fèi)了長(zhǎng)達(dá)數(shù)個(gè)月的時(shí)間捻浦。另外，AlphaGo Zero 21 天就達(dá)到了在烏鎮(zhèn)圍棋峰會(huì)打敗柯潔的 AlphaGo Master 的水平桥爽。

最后編輯于：2017.12.11 13:43:06

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末朱灿，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子钠四，更是在濱河造成了極大的恐慌盗扒，老刑警劉巖，帶你破解...
沈念sama閱讀 218,941評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件缀去，死亡現(xiàn)場(chǎng)離奇詭異侣灶，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)缕碎，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,397評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)褥影，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人咏雌，你說(shuō)我怎么就攤上這事凡怎⌒＝梗” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,345評(píng)論 0贊 356
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵统倒，是天一觀的道長(zhǎng)斟湃。經(jīng)常有香客問(wèn)我，道長(zhǎng)檐薯，這世上最難降的妖魔是什么凝赛？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,851評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮坛缕，結(jié)果婚禮上墓猎，老公的妹妹穿的比我還像新娘。我一直安慰自己赚楚，他們只是感情好毙沾，可當(dāng)我...
茶點(diǎn)故事閱讀 67,868評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著宠页，像睡著了一般左胞。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上举户，一...
開(kāi)封第一講書(shū)人閱讀 51,688評(píng)論 1贊 305
城市分裂傳說(shuō)
那天烤宙，我揣著相機(jī)與錄音，去河邊找鬼俭嘁。笑死躺枕，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的供填。我是一名探鬼主播拐云，決...
沈念sama閱讀 40,414評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼近她！你這毒婦竟也來(lái)了叉瘩？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,319評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤粘捎，失蹤者是張志新（化名）和其女友劉穎薇缅，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體晌端，經(jīng)...
沈念sama閱讀 45,775評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡捅暴，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,945評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了咧纠。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蓬痒。...
茶點(diǎn)故事閱讀 40,096評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖漆羔，靈堂內(nèi)的尸體忽然破棺而出梧奢，到底是詐尸還是另有隱情狱掂，我是刑警寧澤，帶...
沈念sama閱讀 35,789評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布亲轨，位于F島的核電站趋惨，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏惦蚊。R本人自食惡果不足惜器虾，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,437評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蹦锋。院中可真熱鬧兆沙，春花似錦、人聲如沸莉掂。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,993評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)憎妙。三九已至库正，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間厘唾，已是汗流浹背褥符。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,107評(píng)論 1贊 271
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留阅嘶，地道東北人属瓣。一個(gè)月前我還...
沈念sama閱讀 48,308評(píng)論 3贊 372
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像讯柔，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子护昧，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,037評(píng)論 2贊 355

AlphaGo “人肉臂”黃士杰首度公開(kāi)演講：Zero版本并未到達(dá)極限恩尾，加入DeepMind這四件事對(duì)我影響最大

AlphaGo “人肉臂”黃士杰首度公開(kāi)演講：Zero版本并未到達(dá)極限，加入DeepMind這四件事對(duì)我影響最大

推薦閱讀更多精彩內(nèi)容