AlphaGo “人肉臂”黃士杰首度公開(kāi)演講:Zero版本并未到達(dá)極限,加入DeepMind這四件事對(duì)我影響最大

姓名:王正帥

學(xué)號(hào):14020120007

轉(zhuǎn)載自:mp.weixin.qq.com/s 句柠,有刪節(jié)

【嵌牛導(dǎo)讀】:2016 年咸包,Google 旗下 DeepMind 公司開(kāi)發(fā)的 AlphaGo 擊敗了韓國(guó)職業(yè)九段棋士李世石傻丝。今年 5 月,AlphaGo 以三戰(zhàn)全勝的紀(jì)錄贏了名列世界第一的棋王柯潔诉儒。隔了五個(gè)月后葡缰,DeepMind 公布了 AlphaGo Zero,它再度讓人類(lèi)感到震撼忱反》菏停“我沒(méi)有想過(guò)一個(gè)名詞能獲得所有人的認(rèn)同,從政治人物温算、科學(xué)家怜校、企業(yè)家、到學(xué)生甚至是小孩注竿,都覺(jué)得這件事明天會(huì)發(fā)生茄茁,這場(chǎng)完美風(fēng)暴的引爆點(diǎn)是 AlphaGo,黃士杰可能自己都沒(méi)想過(guò)巩割,他那只幫機(jī)器下棋的手裙顽,改變這個(gè)世界:讓大家相信或者憂慮機(jī)器會(huì)超越人類(lèi)”,Google 臺(tái)灣董事總經(jīng)理簡(jiǎn)立峰說(shuō)宣谈。人工智能愈犹,是簡(jiǎn)立峰口中的完美風(fēng)暴,AlphaGo 則是這一波 AI 風(fēng)潮的最佳代言人闻丑,那么漩怎,黃士杰呢?相信 DeepTech 的讀者們已經(jīng)對(duì)這個(gè)名字并不陌生嗦嗡,他是 DeepMind 資深研究員勋锤,是與人類(lèi)頂尖棋手對(duì)弈時(shí)代 AlphaGo 執(zhí)棋的“人肉臂”,更重要的是侥祭,他還是開(kāi)發(fā)這個(gè)神秘大腦的關(guān)鍵人物之一叁执。

【嵌牛鼻子】:AlphaGo茄厘、AlphaGo Zero、黃士杰徒恋、DeepMind

【嵌牛提問(wèn)】:AlphaGo Zero 是如何誕生的蚕断?黃士杰做了哪些突出貢獻(xiàn)欢伏?

【嵌牛正文】:


11 月 10 日入挣,黃士杰應(yīng)臺(tái)灣人工智能年會(huì)之邀來(lái)臺(tái)演講,演講主題是“AlphaGo—— 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利硝拧,也是他首次公開(kāi)演講径筏。

不久前,在 DeepMind 發(fā)表了《Mastering the game of Go without human knowledge》的最新論文后障陶,黃士杰曾在 Facebook 寫(xiě)下: AlphaGo Zero 是完全脫離人類(lèi)知識(shí)的 AlphaGo 版本滋恬。這也就是取名為 AlphaGo Zero 的原因——AlphaGo 從零開(kāi)始。

在今天的演講上抱究,他強(qiáng)調(diào)恢氯,DeepMind 的目標(biāo)是要做出一個(gè)通用人工智能,也就是強(qiáng)人工智能鼓寺,但他也認(rèn)為勋拟,對(duì) DeepMind 來(lái)說(shuō),強(qiáng)人工智能還是很遙遠(yuǎn)妈候,現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍然在人類(lèi)大腦內(nèi)敢靡,有人說(shuō)強(qiáng)人工智能要到 2045 年,有人說(shuō)至少還要 100 年苦银,黃世杰的回答是:“大家不要太擔(dān)心啸胧,電影還是電影♂B玻”

從 DeepMind 為什么開(kāi)始做圍棋一直到最新的 AlphaGo Zero纺念,見(jiàn)證了這一切的他稱(chēng)“這幾年好像在做夢(mèng)”。

1想括、開(kāi)發(fā) Erica柠辞,獲邀加入 DeepMind

AlphaGo 怎么開(kāi)始的?其實(shí)是三組人馬走在一起主胧、串起來(lái)的結(jié)晶叭首,第一條線是 Demis Hassabis 和 DeepMind AlphaGo 項(xiàng)目負(fù)責(zé)人 David Silver,第二條線是我踪栋,第三條線是 Google Brain 的兩位人員 Chris Maddison 和 Ilya Sutskever焙格。Demis Hassabis 和 David Silver 是在劍橋大學(xué)的同學(xué),他們一起創(chuàng)業(yè)夷都。他們?yōu)槭裁聪胱鰢迥鼐彀Γ慨?dāng)年 IBM 深藍(lán)贏了西洋棋世界冠軍卡斯巴羅夫,就只剩下圍棋是人工智能最大的挑戰(zhàn)。因此他們一直就希望做出很強(qiáng)的圍棋程序冬阳,這是他們的夢(mèng)想蛤虐。一開(kāi)始,研究人員是將西洋棋的技術(shù)放進(jìn)圍棋肝陪,但這失敗了驳庭,2006 年蒙特卡洛樹(shù)出來(lái)之后,圍棋程序提升到業(yè)余三段氯窍,但離職業(yè)水平還是有極大的差距饲常。當(dāng)我開(kāi)發(fā)出的 Erica 在 2010 年的計(jì)算機(jī)奧林匹亞獲得 19 路圍棋的冠軍時(shí),我使用的硬件是 8 cores狼讨,Zen 用了 6 臺(tái) PC,美國(guó)的 Many Faces of GO 是用 12 cores政供,其他對(duì)手都是用大機(jī)器播聪,但小蝦米卻贏了大鯨魚(yú)。不久布隔,Demis Hassabis 就寫(xiě)了一封信問(wèn)我要不要加入离陶,面試時(shí)他們告訴我,他們的夢(mèng)想就是強(qiáng)人工智慧执泰。隔年我就加入 DeepMind枕磁。當(dāng)我們開(kāi)始做 GO Project 時(shí),大家都有一個(gè)共識(shí)——不復(fù)制 Erica术吝,因?yàn)闆](méi)有意義计济,我們決定要把深度學(xué)習(xí)應(yīng)用進(jìn)來(lái)。

2排苍、AlphaGo 的成功是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的勝利

我們?cè)趺磁袛嗌疃葘W(xué)習(xí)可能可以用在圍棋呢沦寂?如果說(shuō),人看一個(gè)棋盤(pán)淘衙,幾秒內(nèi)大概可以知道下這里传藏、下那里會(huì)是好棋,這種任務(wù)神經(jīng)網(wǎng)絡(luò)就辦得到彤守,但如果要想好幾分鐘后怎么走毯侦,那神經(jīng)網(wǎng)絡(luò)就可能辦不到。當(dāng)初我們就有這 么一個(gè)直覺(jué):要以深度學(xué)習(xí)建構(gòu)策略網(wǎng)絡(luò)具垫。

AlphaGo 的主要突破是價(jià)值網(wǎng)絡(luò)侈离,有一天,David Silver 跟我說(shuō)他有這樣一個(gè)想法筝蚕,當(dāng)時(shí)我還有點(diǎn)質(zhì)疑卦碾。我們把策略網(wǎng)絡(luò)做出來(lái)后铺坞,勝率就提高到 70~80%,后來(lái)加入了 David Silver 提出的價(jià)值網(wǎng)絡(luò)洲胖,要讓機(jī)器進(jìn)行不斷左右互搏的自我學(xué)習(xí)济榨,一開(kāi)始不太成功,過(guò)了一個(gè)月我們克服 over fitting 的問(wèn)題后绿映,AlphaGo 的勝率大大提升到 95%擒滑,而這也是后面 AlphaGo Zero 的主要核心。

后來(lái)老板就說(shuō)绘梦,要跟人類(lèi)面對(duì)面下棋橘忱,就得跟樊麾老師比賽赴魁。我記得卸奉,當(dāng)樊麾第二盤(pán)棋輸了之后,他就說(shuō):我要出去走走颖御,因?yàn)楝F(xiàn)場(chǎng)只有我和他說(shuō)中文榄棵,我就說(shuō):我陪你,他回答:不用潘拱,我自己透透氣疹鳄。樊麾回來(lái)后,他變得很正面芦岂,他不覺(jué)得這東西很可怕瘪弓,而是很正面也很值得期待,因此他后來(lái)也變成 DeepMind 團(tuán)隊(duì)的一員禽最。再后來(lái)腺怯,我們選擇公開(kāi)發(fā)表這個(gè)研究的論文,因?yàn)榭茖W(xué)的精神就是互相分享川无,希望推動(dòng)整個(gè)研究領(lǐng)域進(jìn)步呛占。之后,加入 Google 也為我們帶來(lái)很大幫助懦趋,特別是硬件上晾虑,從 GPU 到 TPU 都沒(méi)有后顧之憂。但 TPU 對(duì)我們有極大幫助仅叫,把勝率提高了很多帜篇。

另外,大家不要忘記诫咱,AlphaGo 在跟李世石比賽時(shí)笙隙,第四盤(pán)棋輸?shù)暮軕K,我當(dāng)時(shí)想說(shuō)遂跟,我自己來(lái)下都比較好逃沿。盡管最后我們贏了婴渡,但回去后就一定要解決這個(gè)弱點(diǎn),不是只解決當(dāng)初第四盤(pán)的弱點(diǎn)凯亮,必須全面性地解決边臼,否則以后還是沒(méi)有人敢用 AI 系統(tǒng)。進(jìn)化后的版本就是 AlphaGo Master假消。

我們到底怎么解決呢柠并?還是用深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的方法,而不是用人類(lèi)知識(shí)方法富拗。

我們把 AlphaGo 的學(xué)習(xí)能力變強(qiáng)臼予,從神經(jīng)網(wǎng)絡(luò)加深:從 13 層變成了 40 層,并改成 ResNet啃沪。

把 2 個(gè)網(wǎng)絡(luò)(決策網(wǎng)絡(luò)粘拾、價(jià)值網(wǎng)絡(luò))結(jié)合成 1 個(gè)網(wǎng)絡(luò),讓 AlphaGo 的直覺(jué)和判斷同時(shí)得到訓(xùn)練创千,更有一致性缰雇。

?改進(jìn)訓(xùn)練的 pipeline。

解決了模仿期追驴、循環(huán)期等特別情況械哟。

3、超越以往的 AlphaGo Zero

AlphaGo Zero 是連我們自己都很驚訝的版本殿雪,因?yàn)樗谝徊骄褪前阉腥祟?lèi)知識(shí)的部分都拋掉暇咆,它是脫離“人類(lèi)知識(shí)”,不是脫離“規(guī)則知識(shí)丙曙,我們一樣是給要它 19X19 的盤(pán)面訓(xùn)練爸业。

從零開(kāi)始的 AlphaGo 還真的是全部亂下、徹底亂下河泳,所以最初我們預(yù)期 AlphaGo Zero 應(yīng)該是贏不了 AlphaGo Master沃呢,后來(lái)我們用了一些方法把卡住的地方解決了,細(xì)節(jié)可以參考論文拆挥,沒(méi)想到 AlphaGo Master 進(jìn)一步超越原先的版本薄霜,3 天就走完人類(lèi)幾千年圍棋研究的歷程。深度學(xué)習(xí)跟強(qiáng)化學(xué)習(xí)的威力真是太大纸兔。

AlphaGo Zero 用了 2000 個(gè) TPU 惰瓜、訓(xùn)練了 40 天。第 40 天還沒(méi)有到達(dá)其極限汉矿,但因?yàn)槲覀儥C(jī)器要做其他事情就停下了崎坊,所以它還有很大的潛力。AlphaGo Zero 論文的目的不是要做出很強(qiáng)的程序洲拇,也沒(méi)有想要跟人類(lèi)知識(shí)比較奈揍、或是討論人類(lèi)知識(shí)有沒(méi)有用這些問(wèn)題曲尸,而是想證明程序不需要人類(lèi)知識(shí)也可以擁有很強(qiáng)的能力。

我觀察到男翰,計(jì)算機(jī)圍棋 AI 的價(jià)值在于幫助人類(lèi)或棋手?jǐn)U展圍棋的理論和思路另患,未來(lái) AI 是人類(lèi)的工具,跟人類(lèi)合作蛾绎,而非跟人類(lèi)對(duì)抗昆箕。強(qiáng)人工智能還是 Far Away,現(xiàn)在最強(qiáng)的學(xué)習(xí)技能仍在人類(lèi)的腦袋里租冠。

4鹏倘、總結(jié)

也就是說(shuō),從一個(gè)不知道圍棋游戲規(guī)則的神經(jīng)網(wǎng)絡(luò)開(kāi)始顽爹,沒(méi)有任何人類(lèi)指導(dǎo)或人類(lèi)智能的參與纤泵,僅僅通過(guò)全新的強(qiáng)化學(xué)習(xí)算法,讓程序自我對(duì)弈话原,自己成為自己的老師夕吻,在這過(guò)程中神經(jīng)網(wǎng)絡(luò)不斷被更新和調(diào)整诲锹。沒(méi)想到的是繁仁,機(jī)器訓(xùn)練的時(shí)間更短,但卻更聰明归园,例如黄虱,AlphaGo Zero 在 3 天內(nèi)進(jìn)行過(guò) 490 萬(wàn)次自我對(duì)弈,就達(dá)到了先前擊敗李世石的程度庸诱,但之前他們訓(xùn)練與李世石對(duì)戰(zhàn)的 AlphaGo 卻花費(fèi)了長(zhǎng)達(dá)數(shù)個(gè)月的時(shí)間捻浦。另外,AlphaGo Zero 21 天就達(dá)到了在烏鎮(zhèn)圍棋峰會(huì)打敗柯潔的 AlphaGo Master 的水平桥爽。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末朱灿,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子钠四,更是在濱河造成了極大的恐慌盗扒,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缀去,死亡現(xiàn)場(chǎng)離奇詭異侣灶,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)缕碎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)褥影,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人咏雌,你說(shuō)我怎么就攤上這事凡怎⌒=梗” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵统倒,是天一觀的道長(zhǎng)斟湃。 經(jīng)常有香客問(wèn)我,道長(zhǎng)檐薯,這世上最難降的妖魔是什么凝赛? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮坛缕,結(jié)果婚禮上墓猎,老公的妹妹穿的比我還像新娘。我一直安慰自己赚楚,他們只是感情好毙沾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著宠页,像睡著了一般左胞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上举户,一...
    開(kāi)封第一講書(shū)人閱讀 51,688評(píng)論 1 305
  • 那天烤宙,我揣著相機(jī)與錄音,去河邊找鬼俭嘁。 笑死躺枕,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的供填。 我是一名探鬼主播拐云,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼近她!你這毒婦竟也來(lái)了叉瘩?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤粘捎,失蹤者是張志新(化名)和其女友劉穎薇缅,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體晌端,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡捅暴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了咧纠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蓬痒。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖漆羔,靈堂內(nèi)的尸體忽然破棺而出梧奢,到底是詐尸還是另有隱情狱掂,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布亲轨,位于F島的核電站趋惨,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏惦蚊。R本人自食惡果不足惜器虾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蹦锋。 院中可真熱鬧兆沙,春花似錦、人聲如沸莉掂。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)憎妙。三九已至库正,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間厘唾,已是汗流浹背褥符。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留阅嘶,地道東北人属瓣。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像讯柔,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子护昧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容