今日Nature: 人工智能從0到1, 無師自通完爆阿法狗100-0 | 深度解析

原創(chuàng)2017-10-19?知社?知社學(xué)術(shù)圈

去年廓啊,有個小孩讀遍人世所有的棋譜欢搜,辛勤打譜,苦思冥想谴轮,棋藝精進炒瘟,4-1打敗世界冠軍李世石,從此人間無敵手第步。他的名字叫阿法狗疮装。

今年,他的弟弟只靠一副棋盤和黑白兩子粘都,沒看過一個棋譜廓推,也沒有一個人指點,從零開始翩隧,自娛自樂樊展,自己參悟,100-0打敗哥哥阿法狗堆生。他的名字叫阿法元专缠。

DeepMind這項偉大的突破,今天以Mastering the game of Gowithout human knowledge為題顽频,發(fā)表于Nature,引起轟動太闺。知社特邀國內(nèi)外幾位人工智能專家糯景,給予深度解析和點評。文末有DeepMind David Silver博士專訪視頻。特別致謝NatureDeepMind提供訊息和資料授權(quán)蟀淮。

Nature今天上線的這篇重磅論文最住,詳細介紹了谷歌DeepMind團隊最新的研究成果怠惶。人工智能的一項重要目標脓魏,是在沒有任何先驗知識的前提下茂翔,通過完全的自學(xué),在極具挑戰(zhàn)的領(lǐng)域,達到超人的境地谋国。去年,阿法狗(AlphaGo)代表人工智能在圍棋領(lǐng)域首次戰(zhàn)勝了人類的世界冠軍弯洗,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學(xué)習(xí)參悟人類棋藝的基礎(chǔ)之上谣辞,進而自我訓(xùn)練,實現(xiàn)超越躯嫉。

阿法狗元棋力的增長與積分比較

可是今天,我們發(fā)現(xiàn),人類其實把阿法狗教壞了山宾!新一代的阿法元(AlphaGo Zero), 完全從零開始,不需要任何歷史棋譜的指引台妆,更不需要參考人類任何的先驗知識,完全靠自己一個人強化學(xué)習(xí)(reinforcement learning)和參悟,? 棋藝增長遠超阿法狗懊缺,百戰(zhàn)百勝,擊潰阿法狗100-0俊扳。

達到這樣一個水準馋记,阿法元只需要在4個TPU上,花三天時間茸习,自己左右互搏490萬棋局代箭。而它的哥哥阿法狗乙帮,需要在48個TPU上驾茴,花幾個月的時間,學(xué)習(xí)三千萬棋局峡捡,才打敗人類。

這篇論文的第一和通訊作者是DeepMind的David Silver博士,? 阿法狗項目負責人突勇。他介紹說阿法元遠比阿法狗強大埂奈,因為它不再被人類認知所局限共屈,而能夠發(fā)現(xiàn)新知識矾削,發(fā)展新策略

This technique is more powerful than previous versions of AlphaGo because it isno longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa? from the strongest player in the world: AlphaGo itself. AlphaGo Zero alsodiscovered new knowledge, developing unconventional strategies and creative new movesthat echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.

DeepMind聯(lián)合創(chuàng)始人和CEO則說這一新技術(shù)能夠用于解決諸如蛋白質(zhì)折疊和新材料開發(fā)這樣的重要問題:

AlphaGo Zero is now the strongest version of our program and shows how much progress we can make evenwith less computing power and zero use of human data. Ultimately we want to harness algorithmic breakthroughs like this to help solve all sorts of pressing real world problems like protein foldingor designing new materials.

美國的兩位棋手在Nature對阿法元的棋局做了點評:它的開局和收官和專業(yè)棋手的下法并無區(qū)別豁护,人類幾千年的智慧結(jié)晶,看起來并非全錯欲间。但是中盤看起來則非常詭異:

the AI’s open?ing choices and end-game methods have converged on ours — seeing it arrive at our sequences from first principles suggests that we haven’t been on entirely the wrong track. By contrast, some of its middle-game judgements are truly mysterious.

為更深入了解阿法元的技術(shù)細節(jié)楚里,知社采訪了美國杜克大學(xué)人工智能專家陳怡然教授。他向知社介紹說:

DeepMind最新推出的AlphaGo Zero降低了訓(xùn)練復(fù)雜度猎贴,擺脫了對人類標注樣本(人類歷史棋局)的依賴班缎,讓深度學(xué)習(xí)用于復(fù)雜決策更加方便可行。我個人覺得最有趣的是證明了人類經(jīng)驗由于樣本空間大小的限制她渴,往往都收斂于局部最優(yōu)而不自知(或無法發(fā)現(xiàn))达址,而機器學(xué)習(xí)可以突破這個限制。之前大家隱隱約約覺得應(yīng)該如此趁耗,而現(xiàn)在是鐵的量化事實擺在面前沉唠!

他進一步解釋道:

這篇論文數(shù)據(jù)顯示學(xué)習(xí)人類選手的下法雖然能在訓(xùn)練之初獲得較好的棋力,但在訓(xùn)練后期所能達到的棋力卻只能與原版的AlphaGo相近苛败,而不學(xué)習(xí)人類下法的AlphaGo Zero最終卻能表現(xiàn)得更好满葛。這或許說明人類的下棋數(shù)據(jù)將算法導(dǎo)向了局部最優(yōu)(local optima),而實際更優(yōu)或者最優(yōu)的下法與人類的下法存在一些本質(zhì)的不同罢屈,人類實際’誤導(dǎo)’了AlphaGo纱扭。有趣的是如果AlphaGo Zero放棄學(xué)習(xí)人類而使用完全隨機的初始下法,訓(xùn)練過程也一直朝著收斂的方向進行儡遮,而沒有產(chǎn)生難以收斂的現(xiàn)象乳蛾。

阿法元是如何實現(xiàn)無師自通的呢? 杜克大學(xué)博士研究生吳春鵬向知社介紹了技術(shù)細節(jié):

之前戰(zhàn)勝李世石的AlphaGo基本采用了傳統(tǒng)增強學(xué)習(xí)技術(shù)再加上深度神經(jīng)網(wǎng)絡(luò)DNN完成搭建鄙币,而AlphaGo Zero吸取了最新成果做出了重大改進肃叶。

首先,在AlphaGo Zero出現(xiàn)之前十嘿,基于深度學(xué)習(xí)的增強學(xué)習(xí)方法按照使用的網(wǎng)絡(luò)模型數(shù)量可以分為兩類:一類使用一個DNN"端到端"地完成全部決策過程(比如DQN)因惭,這類方法比較輕便,對于離散動作決策更適用; 另一類使用多個DNN分別學(xué)習(xí)policy和value等(比如之前戰(zhàn)勝李世石的AlphaGoGo)绩衷,這類方法比較復(fù)雜蹦魔,對于各種決策更通用。此次的AlphaGo Zero綜合了二者長處咳燕,采用類似DQN的一個DNN網(wǎng)絡(luò)實現(xiàn)決策過程勿决,并利用這個DNN得到兩種輸出policy和value,然后利用一個蒙特卡羅搜索樹完成當前步驟選擇招盲。

其次低缩,AlphaGo Zero沒有再利用人類歷史棋局,訓(xùn)練過程從完全隨機開始曹货。隨著近幾年深度學(xué)習(xí)研究和應(yīng)用的深入咆繁,DNN的一個缺點日益明顯: 訓(xùn)練過程需要消耗大量人類標注樣本讳推,而這對于小樣本應(yīng)用領(lǐng)域(比如醫(yī)療圖像處理)是不可能辦到的。所以Few-shot learning和Transfer learning等減少樣本和人類標注的方法得到普遍重視玩般。AlphaGo Zero是在雙方博弈訓(xùn)練過程中嘗試解決對人類標注樣本的依賴银觅,這是以往沒有的。

第三坏为,AlphaGo Zero在DNN網(wǎng)絡(luò)結(jié)構(gòu)上吸收了最新進展设拟,采用了ResNet網(wǎng)絡(luò)中的Residual結(jié)構(gòu)作為基礎(chǔ)模塊。近幾年流行的ResNet加大了網(wǎng)絡(luò)深度久脯,而GoogLeNet加大了網(wǎng)絡(luò)寬度。之前大量論文表明镰吆,ResNet使用的Residual結(jié)構(gòu)比GoogLeNet使用的Inception結(jié)構(gòu)在達到相同預(yù)測精度條件下的運行速度更快帘撰。AlphaGo Zero采用了Residual應(yīng)該有速度方面的考慮。

杜克大學(xué)博士研究生謝知遙對此做了進一步闡述:

DeepMind的新算法AlphaGo Zero開始擺脫對人類知識的依賴:在學(xué)習(xí)開始階段無需先學(xué)習(xí)人類選手的走法万皿,另外輸入中沒有了人工提取的特征 摧找。

在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計上,新的算法與之前的AlphaGo有兩個大的區(qū)別牢硅。首先蹬耘,與之前將走子策略(policy)網(wǎng)絡(luò)和勝率值(value)網(wǎng)絡(luò)分開訓(xùn)練不同,新的網(wǎng)絡(luò)結(jié)構(gòu)可以同時輸出該步的走子策略(policy)和當前情形下的勝率值(value)减余。實際上 policy與value網(wǎng)絡(luò)相當于共用了之前大部分的特征提取層综苔,輸出階段的最后幾層結(jié)構(gòu)仍然是相互獨立的。訓(xùn)練的損失函數(shù)也同時包含了policy和value兩部分位岔。這樣的顯然能夠節(jié)省訓(xùn)練時間如筛,更重要的是混合的policy與value網(wǎng)絡(luò)也許能適應(yīng)更多種不同情況。

另外一個大的區(qū)別在于特征提取層采用了20或40個殘差模塊抒抬,每個模塊包含2個卷積層杨刨。與之前采用的12層左右的卷積層相比,殘差模塊的運用使網(wǎng)絡(luò)深度獲得了很大的提升擦剑。AlphaGo Zero不再需要人工提取的特征應(yīng)該也是由于更深的網(wǎng)絡(luò)能更有效地直接從棋盤上提取特征妖胀。根據(jù)文章提供的數(shù)據(jù),這兩點結(jié)構(gòu)上的改進對棋力的提升貢獻大致相等惠勒。

因為這些改進赚抡,AlphaGo Zero的表現(xiàn)和訓(xùn)練效率都有了很大的提升,僅通過4塊TPU和72小時的訓(xùn)練就能夠勝過之前訓(xùn)練用時幾個月的原版AlphaGo纠屋。在放棄學(xué)習(xí)人類棋手的走法以及人工提取特征之后怕品,算法能夠取得更優(yōu)秀的表現(xiàn),這體現(xiàn)出深度神經(jīng)網(wǎng)絡(luò)強大的特征提取能力以及尋找更優(yōu)解的能力巾遭。更重要的是肉康,通過擺脫對人類經(jīng)驗和輔助的依賴闯估,類似的深度強化學(xué)習(xí)算法或許能更容易地被廣泛應(yīng)用到其他人類缺乏了解或是缺乏大量標注數(shù)據(jù)的領(lǐng)域

這個工作意義何在呢吼和?人工智能專家涨薪、美國北卡羅萊納大學(xué)夏洛特分校洪韜教授也對知社發(fā)表了看法:

我非常仔細從頭到尾讀了這篇論文。首先要肯定工作本身的價值炫乓。從用棋譜(supervised learning)到扔棋譜刚夺,是重大貢獻(contribution)!干掉了當前最牛的棋手(變身前的阿法狗)末捣,是advancing state-of-the-art 侠姑。神經(jīng)網(wǎng)絡(luò)的設(shè)計和訓(xùn)練方法都有改進,是創(chuàng)新(novelty)箩做。從應(yīng)用角度莽红,以后可能不再需要耗費人工去為AI的產(chǎn)品做大量的前期準備工作,這是其意義(significance)所在邦邦!

接著安吁,洪教授也簡單回顧了人工神經(jīng)網(wǎng)絡(luò)的歷史:

人工神經(jīng)網(wǎng)絡(luò)在上世紀四十年代就出來了,小火了一下就撐不下去了燃辖,其中一個原因是大家發(fā)現(xiàn)這東西解決不了“異或問題”鬼店,而且訓(xùn)練起來太麻煩。到了上世紀七十年代黔龟,Paul Werbos讀博時候拿backpropagation的算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)妇智,提高了效率,用多層神經(jīng)網(wǎng)絡(luò)把異或問題解決了氏身,也把神經(jīng)網(wǎng)絡(luò)帶入一個新紀元俘陷。上世紀八九十年代,人工神經(jīng)網(wǎng)絡(luò)的研究迎來了一場大火观谦,學(xué)術(shù)圈發(fā)了成千上萬篇關(guān)于神經(jīng)網(wǎng)絡(luò)的論文拉盾,從設(shè)計到訓(xùn)練到優(yōu)化再到各行各業(yè)的應(yīng)用。

Jim Burke教授豁状,一個五年前退休的IEEE Life Fellow捉偏,曾經(jīng)講過那個年代的故事:去開電力系統(tǒng)的學(xué)術(shù)會議,每討論一個工程問題泻红,不管是啥夭禽,總會有一幫人說這可以用神經(jīng)網(wǎng)絡(luò)解決,當然最后也就不了了之了谊路。簡單的說是大家挖坑灌水吹泡泡讹躯,最后沒啥可忽悠的了,就找個別的地兒再繼續(xù)挖坑灌水吹泡泡。上世紀末的學(xué)術(shù)圈潮梯,如果出門不說自己搞神經(jīng)網(wǎng)絡(luò)的都不好意思跟人打招呼骗灶,就和如今的深度學(xué)習(xí)、大數(shù)據(jù)分析一樣秉馏。

然后耙旦,洪教授對人工智能做了并不十分樂觀的展望:

回到阿法狗下棋這個事兒,伴隨著大數(shù)據(jù)的浪潮萝究,數(shù)據(jù)挖掘免都、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和人工智能突然間又火了起來帆竹。這次火的有沒有料呢绕娘?我認為是有的,有海量的數(shù)據(jù)栽连、有計算能力的提升险领、有算法的改進。這就好比當年把backpropagation用在神經(jīng)網(wǎng)絡(luò)上升酣,的確是個突破。

最終這個火能燒多久态罪,還得看神經(jīng)網(wǎng)絡(luò)能解決多少實際問題噩茄。二十年前的大火之后,被神經(jīng)網(wǎng)絡(luò)“解決”的實際問題寥寥無幾复颈,其中一個比較知名的是電力負荷預(yù)測問題绩聘,就是用電量預(yù)測,剛好是我的專業(yè)耗啦。由于當年神經(jīng)網(wǎng)絡(luò)過于火爆凿菩,導(dǎo)致科研重心幾乎完全離開了傳統(tǒng)的統(tǒng)計方法。等我剛進入這個領(lǐng)域做博士論文的時候帜讲,就拿傳統(tǒng)的多元回歸模型秒殺了市面上的各種神經(jīng)網(wǎng)絡(luò)遺傳算法的衅谷。我一貫的看法,對于眼前流行的東西似将,不要盲目追逐获黔,要先審時度勢,看看自己擅長啥在验、有啥積累玷氏,看準了坑再跳

美國密歇根大學(xué)人工智能實驗室主任Satinder Singh也表達了和洪教授類似的觀點:這并非任何結(jié)束的開始腋舌,因為人工智能和人甚至動物相比盏触,所知所能依然極端有限

This is not the beginning of any endbecause AlphaGo Zero, like all other successful AI so far, isextremely limitedin what it knows and in what it can do compared with humans and even other animals.

不過,Singh教授仍然對阿法元大加贊賞:這是一項重大成就, 顯示強化學(xué)習(xí)而不依賴人的經(jīng)驗,可以做的更好:

The improvement in training time and computational complex?ity of AlphaGo Zero relative to AlphaGo, achieved in about a year, is a major achieve?ment… the results suggest that AIs based on reinforcement learning can perform much better than those that rely on human expertise.

陳怡然教授則對人工智能的未來做了進一步的思考:

AlphaGo Zero沒有使用人類標注赞辩,只靠人類給定的圍棋規(guī)則雌芽,就可以推演出高明的走法。有趣的是诗宣,我們還在論文中看到了AlphaGo Zero掌握圍棋的過程膘怕。比如如何逐漸學(xué)會一些常見的定式與開局方法 ,如第一手點三三召庞。相信這也能對圍棋愛好者理解AlphaGo的下棋風格有所啟發(fā)岛心。

除了技術(shù)創(chuàng)新之外,AlphaGo Zero又一次引發(fā)了一個值得所有人工智能研究者思考的問題:在未來發(fā)展中篮灼,我們究竟應(yīng)該如何看待人類經(jīng)驗的作用忘古。在AlphaGo Zero自主學(xué)會的走法中,有一些與人類走法一致诅诱,區(qū)別主要在中間相持階段髓堪。AlphaGo Zero已經(jīng)可以給人類當圍棋老師,指導(dǎo)人類思考之前沒見過的走法娘荡,而不用完全拘泥于圍棋大師的經(jīng)驗干旁。也就是說AlphaGo Zero再次打破了人類經(jīng)驗的神秘感污抬,讓人腦中形成的經(jīng)驗也是可以被探測和學(xué)習(xí)的介劫。

陳教授最后也提出一個有趣的命題:

未來我們要面對的一個挑戰(zhàn)可能就是: 在一些與日常生活有關(guān)的決策問題上,人類經(jīng)驗和機器經(jīng)驗同時存在店量,而機器經(jīng)驗與人類經(jīng)驗有很大差別大年,我們又該如何去選擇和利用呢换薄?

不過David Silver對此并不擔心,而對未來充滿信心翔试。他指出:

If similar techniques can be applied to other structured problems, such as protein folding, reducing energy consumption or searching for revolutionary new materials, the resulting breakthroughs have the potential to positively impact society.

以下為DeepMind David Silver 博士專訪視頻轻要,中文字幕由Nature上海辦公室制作:

您覺得哪一個突破更加關(guān)鍵呢?是阿法狗拜人為師最后打敗老師垦缅,還是阿法元無師自通打敗阿法狗冲泥?不妨留言告訴我們,并和大伙分享您對人工智能何去何從的看法壁涎。

更多訊息柏蘑,請參見Nature論文鏈接http://nature.com/articles/doi:10.1038/nature24270

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市粹庞,隨后出現(xiàn)的幾起案子咳焚,更是在濱河造成了極大的恐慌,老刑警劉巖庞溜,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件革半,死亡現(xiàn)場離奇詭異碑定,居然都是意外死亡,警方通過查閱死者的電腦和手機又官,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門延刘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人六敬,你說我怎么就攤上這事碘赖。” “怎么了外构?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵普泡,是天一觀的道長。 經(jīng)常有香客問我审编,道長撼班,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任垒酬,我火速辦了婚禮砰嘁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘勘究。我一直安慰自己矮湘,他們只是感情好,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布口糕。 她就那樣靜靜地躺著缅阳,像睡著了一般。 火紅的嫁衣襯著肌膚如雪走净。 梳的紋絲不亂的頭發(fā)上券时,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天孤里,我揣著相機與錄音伏伯,去河邊找鬼。 笑死捌袜,一個胖子當著我的面吹牛说搅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播虏等,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼弄唧,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了霍衫?” 一聲冷哼從身側(cè)響起候引,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎敦跌,沒想到半個月后澄干,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年麸俘,在試婚紗的時候發(fā)現(xiàn)自己被綠了辩稽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡从媚,死狀恐怖逞泄,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情拜效,我是刑警寧澤喷众,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站拂檩,受9級特大地震影響侮腹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜稻励,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一父阻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧望抽,春花似錦加矛、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至辑奈,卻和暖如春苛茂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鸠窗。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工妓羊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人稍计。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓躁绸,卻偏偏與公主長得像,于是被迫代替她去往敵國和親臣嚣。 傳聞我的和親對象是個殘疾皇子净刮,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容