http://mp.weixin.qq.com/s/68GTn-BaiRPmzi9F-0sCyw
? ? 學(xué)號:? 17011223216? ? ? 姓名:宋艷玲
嵌牛導(dǎo)讀:去年蕉毯,有個(gè)小孩讀遍人世所有的棋譜,辛勤打譜此衅,苦思冥想抢蚀,棋藝精進(jìn)地沮,4-1打敗世界冠軍李世石,從此人間無敵手嘉汰。他的名字叫阿法狗丹禀。
今年,他的弟弟只靠一副棋盤和黑白兩子鞋怀,沒看過一個(gè)棋譜双泪,也沒有一個(gè)人指點(diǎn),從零開始密似,自娛自樂焙矛,自己參悟,100-0打敗哥哥阿法狗残腌。他的名字叫阿法元村斟。
嵌牛鼻子:AlphaGo zero贫导,AI,深度學(xué)習(xí)
嵌牛提問:AlphaGo zero是怎么自己學(xué)習(xí)的?
嵌牛正文:
? ? ? 去年蟆盹,有個(gè)小孩讀遍人世所有的棋譜孩灯,辛勤打譜,苦思冥想逾滥,棋藝精進(jìn)峰档,4-1打敗世界冠軍李世石,從此人間無敵手寨昙。他的名字叫阿法狗讥巡。今年熙涤,他的弟弟只靠一副棋盤和黑白兩子逆航,沒看過一個(gè)棋譜,也沒有一個(gè)人指點(diǎn)墓怀,從零開始捉蚤,自娛自樂吱涉,自己參悟,100-0打敗哥哥阿法狗外里。他的名字叫阿法元。
DeepMind這項(xiàng)偉大的突破特石,今天以Mastering the game of Go without human knowledge為題盅蝗,發(fā)表于Nature,引起轟動姆蘸。知社特邀國內(nèi)外幾位人工智能專家墩莫,給予深度解析和點(diǎn)評。文末有DeepMind David Silver博士專訪視頻逞敷。特別致謝Nature和DeepMind提供訊息和資料授權(quán)狂秦。
Nature今天上線的這篇重磅論文,詳細(xì)介紹了谷歌DeepMind團(tuán)隊(duì)最新的研究成果推捐。人工智能的一項(xiàng)重要目標(biāo)裂问,是在沒有任何先驗(yàn)知識的前提下,通過完全的自學(xué)牛柒,在極具挑戰(zhàn)的領(lǐng)域堪簿,達(dá)到超人的境地。去年皮壁,阿法狗(AlphaGo)代表人工智能在圍棋領(lǐng)域首次戰(zhàn)勝了人類的世界冠軍椭更,但其棋藝的精進(jìn),是建立在計(jì)算機(jī)通過海量的歷史棋譜學(xué)習(xí)參悟人類棋藝的基礎(chǔ)之上蛾魄,進(jìn)而自我訓(xùn)練虑瀑,實(shí)現(xiàn)超越湿滓。
阿法狗元棋力的增長與積分比較
可是今天,我們發(fā)現(xiàn)舌狗,人類其實(shí)把阿法狗教壞了叽奥! 新一代的阿法元(AlphaGo Zero), 完全從零開始,不需要任何歷史棋譜的指引把夸,更不需要參考人類任何的先驗(yàn)知識而线,完全靠自己一個(gè)人強(qiáng)化學(xué)習(xí)(reinforcement learning)和參悟,? 棋藝增長遠(yuǎn)超阿法狗,百戰(zhàn)百勝恋日,擊潰阿法狗100-0膀篮。
達(dá)到這樣一個(gè)水準(zhǔn),阿法元只需要在4個(gè)TPU上岂膳,花三天時(shí)間誓竿,自己左右互搏490萬棋局。而它的哥哥阿法狗谈截,需要在48個(gè)TPU上筷屡,花幾個(gè)月的時(shí)間,學(xué)習(xí)三千萬棋局簸喂,才打敗人類毙死。
這篇論文的第一和通訊作者是DeepMind的David Silver博士,? 阿法狗項(xiàng)目負(fù)責(zé)人。他介紹說阿法元遠(yuǎn)比阿法狗強(qiáng)大喻鳄,因?yàn)樗辉俦蝗祟愓J(rèn)知所局限扼倘,而能夠發(fā)現(xiàn)新知識,發(fā)展新策略:
This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa? from the strongest player in the world: AlphaGo itself. AlphaGo Zero also discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.
DeepMind聯(lián)合創(chuàng)始人和CEO則說這一新技術(shù)能夠用于解決諸如蛋白質(zhì)折疊和新材料開發(fā)這樣的重要問題:
AlphaGo Zero is now the strongest version of our program and shows how much progress we can make even with less computing power and zero use of human data. Ultimately we want to harness algorithmic breakthroughs like this to help solve all sorts of pressing real world problems like protein folding or designing new materials.
美國的兩位棋手在Nature對阿法元的棋局做了點(diǎn)評:它的開局和收官和專業(yè)棋手的下法并無區(qū)別除呵,人類幾千年的智慧結(jié)晶再菊,看起來并非全錯(cuò)。但是中盤看起來則非常詭異:
the AI’s open?ing choices and end-game methods have converged on ours — seeing it arrive at our sequences from first principles suggests that we haven’t been on entirely the wrong track. By contrast, some of its middle-game judgements are truly mysterious.
為更深入了解阿法元的技術(shù)細(xì)節(jié)颜曾,知社采訪了美國杜克大學(xué)人工智能專家陳怡然教授纠拔。他向知社介紹說:
DeepMind最新推出的AlphaGo Zero降低了訓(xùn)練復(fù)雜度,擺脫了對人類標(biāo)注樣本(人類歷史棋局)的依賴泛豪,讓深度學(xué)習(xí)用于復(fù)雜決策更加方便可行稠诲。我個(gè)人覺得最有趣的是證明了人類經(jīng)驗(yàn)由于樣本空間大小的限制,往往都收斂于局部最優(yōu)而不自知(或無法發(fā)現(xiàn))诡曙,而機(jī)器學(xué)習(xí)可以突破這個(gè)限制吕粹。之前大家隱隱約約覺得應(yīng)該如此,而現(xiàn)在是鐵的量化事實(shí)擺在面前岗仑!
他進(jìn)一步解釋道:
這篇論文數(shù)據(jù)顯示學(xué)習(xí)人類選手的下法雖然能在訓(xùn)練之初獲得較好的棋力匹耕,但在訓(xùn)練后期所能達(dá)到的棋力卻只能與原版的AlphaGo相近,而不學(xué)習(xí)人類下法的AlphaGo Zero最終卻能表現(xiàn)得更好荠雕。這或許說明人類的下棋數(shù)據(jù)將算法導(dǎo)向了局部最優(yōu)(local optima)稳其,而實(shí)際更優(yōu)或者最優(yōu)的下法與人類的下法存在一些本質(zhì)的不同驶赏,人類實(shí)際’誤導(dǎo)’了AlphaGo。有趣的是如果AlphaGo Zero放棄學(xué)習(xí)人類而使用完全隨機(jī)的初始下法既鞠,訓(xùn)練過程也一直朝著收斂的方向進(jìn)行煤傍,而沒有產(chǎn)生難以收斂的現(xiàn)象。
阿法元是如何實(shí)現(xiàn)無師自通的呢嘱蛋? 杜克大學(xué)博士研究生吳春鵬向知社介紹了技術(shù)細(xì)節(jié):
之前戰(zhàn)勝李世石的AlphaGo基本采用了傳統(tǒng)增強(qiáng)學(xué)習(xí)技術(shù)再加上深度神經(jīng)網(wǎng)絡(luò)DNN完成搭建蚯姆,而AlphaGo Zero吸取了最新成果做出了重大改進(jìn)。
首先洒敏,在AlphaGo Zero出現(xiàn)之前龄恋,基于深度學(xué)習(xí)的增強(qiáng)學(xué)習(xí)方法按照使用的網(wǎng)絡(luò)模型數(shù)量可以分為兩類: 一類使用一個(gè)DNN"端到端"地完成全部決策過程(比如DQN),這類方法比較輕便凶伙,對于離散動作決策更適用; 另一類使用多個(gè)DNN分別學(xué)習(xí)policy和value等(比如之前戰(zhàn)勝李世石的AlphaGoGo)郭毕,這類方法比較復(fù)雜,對于各種決策更通用函荣。此次的AlphaGo Zero綜合了二者長處显押,采用類似DQN的一個(gè)DNN網(wǎng)絡(luò)實(shí)現(xiàn)決策過程,并利用這個(gè)DNN得到兩種輸出policy和value傻挂,然后利用一個(gè)蒙特卡羅搜索樹完成當(dāng)前步驟選擇乘碑。
其次,AlphaGo Zero沒有再利用人類歷史棋局金拒,訓(xùn)練過程從完全隨機(jī)開始兽肤。隨著近幾年深度學(xué)習(xí)研究和應(yīng)用的深入,DNN的一個(gè)缺點(diǎn)日益明顯: 訓(xùn)練過程需要消耗大量人類標(biāo)注樣本殖蚕,而這對于小樣本應(yīng)用領(lǐng)域(比如醫(yī)療圖像處理)是不可能辦到的。所以Few-shot learning和Transfer learning等減少樣本和人類標(biāo)注的方法得到普遍重視沉迹。AlphaGo Zero是在雙方博弈訓(xùn)練過程中嘗試解決對人類標(biāo)注樣本的依賴睦疫,這是以往沒有的。
第三鞭呕,AlphaGo Zero在DNN網(wǎng)絡(luò)結(jié)構(gòu)上吸收了最新進(jìn)展蛤育,采用了ResNet網(wǎng)絡(luò)中的Residual結(jié)構(gòu)作為基礎(chǔ)模塊。近幾年流行的ResNet加大了網(wǎng)絡(luò)深度葫松,而GoogLeNet加大了網(wǎng)絡(luò)寬度瓦糕。之前大量論文表明,ResNet使用的Residual結(jié)構(gòu)比GoogLeNet使用的Inception結(jié)構(gòu)在達(dá)到相同預(yù)測精度條件下的運(yùn)行速度更快腋么。AlphaGo Zero采用了Residual應(yīng)該有速度方面的考慮咕娄。
杜克大學(xué)博士研究生謝知遙對此做了進(jìn)一步闡述:
DeepMind的新算法AlphaGo Zero開始擺脫對人類知識的依賴:在學(xué)習(xí)開始階段無需先學(xué)習(xí)人類選手的走法,另外輸入中沒有了人工提取的特征 珊擂。
在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)上圣勒,新的算法與之前的AlphaGo有兩個(gè)大的區(qū)別费变。首先,與之前將走子策略(policy)網(wǎng)絡(luò)和勝率值(value)網(wǎng)絡(luò)分開訓(xùn)練不同圣贸,新的網(wǎng)絡(luò)結(jié)構(gòu)可以同時(shí)輸出該步的走子策略(policy)和當(dāng)前情形下的勝率值(value)挚歧。實(shí)際上 policy與value網(wǎng)絡(luò)相當(dāng)于共用了之前大部分的特征提取層,輸出階段的最后幾層結(jié)構(gòu)仍然是相互獨(dú)立的吁峻。訓(xùn)練的損失函數(shù)也同時(shí)包含了policy和value兩部分滑负。這樣的顯然能夠節(jié)省訓(xùn)練時(shí)間,更重要的是混合的policy與value網(wǎng)絡(luò)也許能適應(yīng)更多種不同情況用含。
另外一個(gè)大的區(qū)別在于特征提取層采用了20或40個(gè)殘差模塊矮慕,每個(gè)模塊包含2個(gè)卷積層。與之前采用的12層左右的卷積層相比耕餐,殘差模塊的運(yùn)用使網(wǎng)絡(luò)深度獲得了很大的提升凡傅。AlphaGo Zero不再需要人工提取的特征應(yīng)該也是由于更深的網(wǎng)絡(luò)能更有效地直接從棋盤上提取特征。根據(jù)文章提供的數(shù)據(jù)肠缔,這兩點(diǎn)結(jié)構(gòu)上的改進(jìn)對棋力的提升貢獻(xiàn)大致相等夏跷。
因?yàn)檫@些改進(jìn),AlphaGo Zero的表現(xiàn)和訓(xùn)練效率都有了很大的提升明未,僅通過4塊TPU和72小時(shí)的訓(xùn)練就能夠勝過之前訓(xùn)練用時(shí)幾個(gè)月的原版AlphaGo槽华。在放棄學(xué)習(xí)人類棋手的走法以及人工提取特征之后,算法能夠取得更優(yōu)秀的表現(xiàn)趟妥,這體現(xiàn)出深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力以及尋找更優(yōu)解的能力猫态。更重要的是,通過擺脫對人類經(jīng)驗(yàn)和輔助的依賴披摄,類似的深度強(qiáng)化學(xué)習(xí)算法或許能更容易地被廣泛應(yīng)用到其他人類缺乏了解或是缺乏大量標(biāo)注數(shù)據(jù)的領(lǐng)域亲雪。
這個(gè)工作意義何在呢?人工智能專家疚膊、美國北卡羅萊納大學(xué)夏洛特分校洪韜教授也對知社發(fā)表了看法:
我非常仔細(xì)從頭到尾讀了這篇論文义辕。首先要肯定工作本身的價(jià)值。從用棋譜(supervised learning)到扔棋譜寓盗,是重大貢獻(xiàn)(contribution)灌砖!干掉了當(dāng)前最牛的棋手(變身前的阿法狗),是advancing state-of-the-art 傀蚌。神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)和訓(xùn)練方法都有改進(jìn)基显,是創(chuàng)新(novelty)。從應(yīng)用角度善炫,以后可能不再需要耗費(fèi)人工去為AI的產(chǎn)品做大量的前期準(zhǔn)備工作撩幽,這是其意義(significance)所在!
接著箩艺,洪教授也簡單回顧了人工神經(jīng)網(wǎng)絡(luò)的歷史:
人工神經(jīng)網(wǎng)絡(luò)在上世紀(jì)四十年代就出來了摸航,小火了一下就撐不下去了制跟,其中一個(gè)原因是大家發(fā)現(xiàn)這東西解決不了“異或問題”,而且訓(xùn)練起來太麻煩酱虎。到了上世紀(jì)七十年代雨膨,Paul Werbos讀博時(shí)候拿backpropagation的算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò),提高了效率读串,用多層神經(jīng)網(wǎng)絡(luò)把異或問題解決了聊记,也把神經(jīng)網(wǎng)絡(luò)帶入一個(gè)新紀(jì)元。上世紀(jì)八九十年代恢暖,人工神經(jīng)網(wǎng)絡(luò)的研究迎來了一場大火排监,學(xué)術(shù)圈發(fā)了成千上萬篇關(guān)于神經(jīng)網(wǎng)絡(luò)的論文,從設(shè)計(jì)到訓(xùn)練到優(yōu)化再到各行各業(yè)的應(yīng)用杰捂。
Jim Burke教授舆床,一個(gè)五年前退休的IEEE Life Fellow,曾經(jīng)講過那個(gè)年代的故事:去開電力系統(tǒng)的學(xué)術(shù)會議嫁佳,每討論一個(gè)工程問題挨队,不管是啥,總會有一幫人說這可以用神經(jīng)網(wǎng)絡(luò)解決蒿往,當(dāng)然最后也就不了了之了盛垦。簡單的說是大家挖坑灌水吹泡泡,最后沒啥可忽悠的了瓤漏,就找個(gè)別的地兒再繼續(xù)挖坑灌水吹泡泡腾夯。上世紀(jì)末的學(xué)術(shù)圈,如果出門不說自己搞神經(jīng)網(wǎng)絡(luò)的都不好意思跟人打招呼蔬充,就和如今的深度學(xué)習(xí)蝶俱、大數(shù)據(jù)分析一樣。
然后饥漫,洪教授對人工智能做了并不十分樂觀的展望:
回到阿法狗下棋這個(gè)事兒榨呆,伴隨著大數(shù)據(jù)的浪潮,數(shù)據(jù)挖掘趾浅、機(jī)器學(xué)習(xí)愕提、神經(jīng)網(wǎng)絡(luò)和人工智能突然間又火了起來馒稍。這次火的有沒有料呢皿哨?我認(rèn)為是有的,有海量的數(shù)據(jù)纽谒、有計(jì)算能力的提升证膨、有算法的改進(jìn)。這就好比當(dāng)年把backpropagation用在神經(jīng)網(wǎng)絡(luò)上鼓黔,的確是個(gè)突破央勒。
最終這個(gè)火能燒多久不见,還得看神經(jīng)網(wǎng)絡(luò)能解決多少實(shí)際問題。二十年前的大火之后崔步,被神經(jīng)網(wǎng)絡(luò)“解決”的實(shí)際問題寥寥無幾稳吮,其中一個(gè)比較知名的是電力負(fù)荷預(yù)測問題,就是用電量預(yù)測井濒,剛好是我的專業(yè)灶似。由于當(dāng)年神經(jīng)網(wǎng)絡(luò)過于火爆,導(dǎo)致科研重心幾乎完全離開了傳統(tǒng)的統(tǒng)計(jì)方法瑞你。等我剛進(jìn)入這個(gè)領(lǐng)域做博士論文的時(shí)候酪惭,就拿傳統(tǒng)的多元回歸模型秒殺了市面上的各種神經(jīng)網(wǎng)絡(luò)遺傳算法的。我一貫的看法者甲,對于眼前流行的東西春感,不要盲目追逐,要先審時(shí)度勢虏缸,看看自己擅長啥鲫懒、有啥積累,看準(zhǔn)了坑再跳寇钉。
美國密歇根大學(xué)人工智能實(shí)驗(yàn)室主任Satinder Singh也表達(dá)了和洪教授類似的觀點(diǎn):這并非任何結(jié)束的開始刀疙,因?yàn)槿斯ぶ悄芎腿松踔羷游锵啾龋芤廊粯O端有限:
This is not the beginning of any end because AlphaGo Zero, like all other successful AI so far, is extremely limited in what it knows and in what it can do compared with humans and even other animals.
不過扫倡,Singh教授仍然對阿法元大加贊賞:這是一項(xiàng)重大成就, 顯示強(qiáng)化學(xué)習(xí)而不依賴人的經(jīng)驗(yàn)谦秧,可以做的更好:
The improvement in training time and computational complex?ity of AlphaGo Zero relative to AlphaGo, achieved in about a year, is a major achieve?ment… the results suggest that AIs based on reinforcement learning can perform much better than those that rely on human expertise.
陳怡然教授則對人工智能的未來做了進(jìn)一步的思考:
AlphaGo Zero沒有使用人類標(biāo)注,只靠人類給定的圍棋規(guī)則撵溃,就可以推演出高明的走法疚鲤。有趣的是,我們還在論文中看到了AlphaGo Zero掌握圍棋的過程缘挑。比如如何逐漸學(xué)會一些常見的定式與開局方法 集歇,如第一手點(diǎn)三三。相信這也能對圍棋愛好者理解AlphaGo的下棋風(fēng)格有所啟發(fā)语淘。
除了技術(shù)創(chuàng)新之外诲宇,AlphaGo Zero又一次引發(fā)了一個(gè)值得所有人工智能研究者思考的問題: 在未來發(fā)展中,我們究竟應(yīng)該如何看待人類經(jīng)驗(yàn)的作用惶翻。在AlphaGo Zero自主學(xué)會的走法中姑蓝,有一些與人類走法一致,區(qū)別主要在中間相持階段吕粗。AlphaGo Zero已經(jīng)可以給人類當(dāng)圍棋老師纺荧,指導(dǎo)人類思考之前沒見過的走法,而不用完全拘泥于圍棋大師的經(jīng)驗(yàn)。也就是說AlphaGo Zero再次打破了人類經(jīng)驗(yàn)的神秘感宙暇,讓人腦中形成的經(jīng)驗(yàn)也是可以被探測和學(xué)習(xí)的输枯。
陳教授最后也提出一個(gè)有趣的命題:
未來我們要面對的一個(gè)挑戰(zhàn)可能就是: 在一些與日常生活有關(guān)的決策問題上,人類經(jīng)驗(yàn)和機(jī)器經(jīng)驗(yàn)同時(shí)存在占贫,而機(jī)器經(jīng)驗(yàn)與人類經(jīng)驗(yàn)有很大差別桃熄,我們又該如何去選擇和利用呢?
不過David Silver對此并不擔(dān)心型奥,而對未來充滿信心蜻拨。他指出:
If similar techniques can be applied to other structured problems, such as protein folding, reducing energy consumption or searching for revolutionary new materials, the resulting breakthroughs have the potential to positively impact society.
以下為DeepMind David Silver 博士專訪視頻,中文字幕由Nature上海辦公室制作:您覺得哪一個(gè)突破更加關(guān)鍵呢桩引?是阿法狗拜人為師最后打敗老師缎讼,還是阿法元無師自通打敗阿法狗?不妨留言告訴我們坑匠,并和大伙分享您對人工智能何去何從的看法血崭。