姓名:周雪寧
學號:1702110196
轉載:https://mp.weixin.qq.com/s/68GTn-BaiRPmzi9F-0sCyw
【嵌牛導讀】:去年这揣,有個小孩讀遍人世所有的棋譜,辛勤打譜,苦思冥想,棋藝精進,4-1打敗世界冠軍李世石,從此人間無敵手。他的名字叫阿法狗摄杂。今年,他的弟弟只靠一副棋盤和黑白兩子循榆,沒看過一個棋譜析恢,也沒有一個人指點,從零開始秧饮,自娛自樂映挂,自己參悟,100-0打敗哥哥阿法狗盗尸。他的名字叫AlphaGo Zero(阿法元)柑船。DeepMind這項偉大的突破,今天以Mastering the game of Go without human knowledge為題泼各,發(fā)表于Nature鞍时。
【嵌牛鼻子】:人工智能,深度學習
【嵌牛提問】:新的AlphaGo Zero與去年火遍世界的阿爾法狗相比到底有何優(yōu)勢扣蜻?如何實現(xiàn)自動學習逆巍?
【嵌牛正文】:
Nature今天上線的這篇重磅論文,詳細介紹了谷歌DeepMind團隊最新的研究成果莽使。人工智能的一項重要目標锐极,是在沒有任何先驗知識的前提下,通過完全的自學芳肌,在極具挑戰(zhàn)的領域灵再,達到超人的境地。去年亿笤,阿法狗(AlphaGo)代表人工智能在圍棋領域首次戰(zhàn)勝了人類的世界冠軍翎迁,但其棋藝的精進,是建立在計算機通過海量的歷史棋譜學習參悟人類棋藝的基礎之上净薛,進而自我訓練汪榔,實現(xiàn)超越。
阿法狗元棋力的增長與積分比較
可是今天罕拂,我們發(fā)現(xiàn)揍异,人類其實把阿法狗教壞了全陨!新一代的阿法元(AlphaGo Zero), 完全從零開始爆班,不需要任何歷史棋譜的指引衷掷,更不需要參考人類任何的先驗知識,完全靠自己一個人強化學習(reinforcement learning)和參悟,? 棋藝增長遠超阿法狗柿菩,百戰(zhàn)百勝戚嗅,擊潰阿法狗100-0。
達到這樣一個水準枢舶,阿法元只需要在4個TPU上懦胞,花三天時間,自己左右互搏490萬棋局凉泄。而它的哥哥阿法狗躏尉,需要在48個TPU上,花幾個月的時間后众,學習三千萬棋局胀糜,才打敗人類。
這篇論文的第一和通訊作者是DeepMind的David Silver博士,? 阿法狗項目負責人蒂誉。他介紹說阿法元遠比阿法狗強大教藻,因為它不再被人類認知所局限,而能夠發(fā)現(xiàn)新知識右锨,發(fā)展新策略:
This technique is more powerful than previous versions of AlphaGo because it isno longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa? from the strongest player in the world: AlphaGo itself. AlphaGo Zero alsodiscovered new knowledge, developing unconventional strategies and creative new movesthat echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.
DeepMind聯(lián)合創(chuàng)始人和CEO則說這一新技術能夠用于解決諸如蛋白質折疊和新材料開發(fā)這樣的重要問題:
AlphaGo Zero is now the strongest version of our program and shows how much progress we can make evenwith less computing power and zero use of human data. Ultimately we want to harness algorithmic breakthroughs like this to help solve all sorts of pressing real world problems like protein foldingor designing new materials.
美國的兩位棋手在Nature對阿法元的棋局做了點評:它的開局和收官和專業(yè)棋手的下法并無區(qū)別括堤,人類幾千年的智慧結晶,看起來并非全錯绍移。但是中盤看起來則非常詭異:
the AI’s open?ing choices and end-game methods have converged on ours — seeing it arrive at our sequences from first principles suggests that we haven’t been on entirely the wrong track. By contrast, some of its middle-game judgements are truly mysterious.
為更深入了解阿法元的技術細節(jié)悄窃,知社采訪了美國杜克大學人工智能專家陳怡然教授。他向知社介紹說:
DeepMind最新推出的AlphaGo Zero降低了訓練復雜度蹂窖,擺脫了對人類標注樣本(人類歷史棋局)的依賴广匙,讓深度學習用于復雜決策更加方便可行。我個人覺得最有趣的是證明了人類經驗由于樣本空間大小的限制恼策,往往都收斂于局部最優(yōu)而不自知(或無法發(fā)現(xiàn))鸦致,而機器學習可以突破這個限制。之前大家隱隱約約覺得應該如此涣楷,而現(xiàn)在是鐵的量化事實擺在面前分唾!
他進一步解釋道:
這篇論文數據顯示學習人類選手的下法雖然能在訓練之初獲得較好的棋力,但在訓練后期所能達到的棋力卻只能與原版的AlphaGo相近狮斗,而不學習人類下法的AlphaGo Zero最終卻能表現(xiàn)得更好绽乔。這或許說明人類的下棋數據將算法導向了局部最優(yōu)(local optima),而實際更優(yōu)或者最優(yōu)的下法與人類的下法存在一些本質的不同碳褒,人類實際’誤導’了AlphaGo折砸。有趣的是如果AlphaGo Zero放棄學習人類而使用完全隨機的初始下法看疗,訓練過程也一直朝著收斂的方向進行,而沒有產生難以收斂的現(xiàn)象睦授。
阿法元是如何實現(xiàn)無師自通的呢两芳? 杜克大學博士研究生吳春鵬向知社介紹了技術細節(jié):
之前戰(zhàn)勝李世石的AlphaGo基本采用了傳統(tǒng)增強學習技術再加上深度神經網絡DNN完成搭建,而AlphaGo Zero吸取了最新成果做出了重大改進去枷。
首先怖辆,在AlphaGo Zero出現(xiàn)之前,基于深度學習的增強學習方法按照使用的網絡模型數量可以分為兩類:一類使用一個DNN"端到端"地完成全部決策過程(比如DQN)删顶,這類方法比較輕便竖螃,對于離散動作決策更適用; 另一類使用多個DNN分別學習policy和value等(比如之前戰(zhàn)勝李世石的AlphaGoGo),這類方法比較復雜逗余,對于各種決策更通用特咆。此次的AlphaGo Zero綜合了二者長處,采用類似DQN的一個DNN網絡實現(xiàn)決策過程录粱,并利用這個DNN得到兩種輸出policy和value腻格,然后利用一個蒙特卡羅搜索樹完成當前步驟選擇。
其次关摇,AlphaGo Zero沒有再利用人類歷史棋局荒叶,訓練過程從完全隨機開始。隨著近幾年深度學習研究和應用的深入输虱,DNN的一個缺點日益明顯: 訓練過程需要消耗大量人類標注樣本些楣,而這對于小樣本應用領域(比如醫(yī)療圖像處理)是不可能辦到的。所以Few-shot learning和Transfer learning等減少樣本和人類標注的方法得到普遍重視宪睹。AlphaGo Zero是在雙方博弈訓練過程中嘗試解決對人類標注樣本的依賴愁茁,這是以往沒有的。
第三亭病,AlphaGo Zero在DNN網絡結構上吸收了最新進展鹅很,采用了ResNet網絡中的Residual結構作為基礎模塊。近幾年流行的ResNet加大了網絡深度罪帖,而GoogLeNet加大了網絡寬度促煮。之前大量論文表明,ResNet使用的Residual結構比GoogLeNet使用的Inception結構在達到相同預測精度條件下的運行速度更快整袁。AlphaGo Zero采用了Residual應該有速度方面的考慮菠齿。
杜克大學博士研究生謝知遙對此做了進一步闡述:
DeepMind的新算法AlphaGo Zero開始擺脫對人類知識的依賴:在學習開始階段無需先學習人類選手的走法,另外輸入中沒有了人工提取的特征 坐昙。
在網絡結構的設計上绳匀,新的算法與之前的AlphaGo有兩個大的區(qū)別。首先,與之前將走子策略(policy)網絡和勝率值(value)網絡分開訓練不同疾棵,新的網絡結構可以同時輸出該步的走子策略(policy)和當前情形下的勝率值(value)戈钢。實際上 policy與value網絡相當于共用了之前大部分的特征提取層,輸出階段的最后幾層結構仍然是相互獨立的是尔。訓練的損失函數也同時包含了policy和value兩部分殉了。這樣的顯然能夠節(jié)省訓練時間,更重要的是混合的policy與value網絡也許能適應更多種不同情況嗜历。
另外一個大的區(qū)別在于特征提取層采用了20或40個殘差模塊宣渗,每個模塊包含2個卷積層抖所。與之前采用的12層左右的卷積層相比梨州,殘差模塊的運用使網絡深度獲得了很大的提升。AlphaGo Zero不再需要人工提取的特征應該也是由于更深的網絡能更有效地直接從棋盤上提取特征田轧。根據文章提供的數據暴匠,這兩點結構上的改進對棋力的提升貢獻大致相等。
因為這些改進傻粘,AlphaGo Zero的表現(xiàn)和訓練效率都有了很大的提升每窖,僅通過4塊TPU和72小時的訓練就能夠勝過之前訓練用時幾個月的原版AlphaGo。在放棄學習人類棋手的走法以及人工提取特征之后弦悉,算法能夠取得更優(yōu)秀的表現(xiàn)窒典,這體現(xiàn)出深度神經網絡強大的特征提取能力以及尋找更優(yōu)解的能力。更重要的是稽莉,通過擺脫對人類經驗和輔助的依賴瀑志,類似的深度強化學習算法或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標注數據的領域。
這個工作意義何在呢污秆?人工智能專家劈猪、美國北卡羅萊納大學夏洛特分校洪韜教授也對知社發(fā)表了看法:
我非常仔細從頭到尾讀了這篇論文。首先要肯定工作本身的價值良拼。從用棋譜(supervised learning)到扔棋譜战得,是重大貢獻(contribution)!干掉了當前最牛的棋手(變身前的阿法狗)庸推,是advancing state-of-the-art 常侦。神經網絡的設計和訓練方法都有改進,是創(chuàng)新(novelty)贬媒。從應用角度聋亡,以后可能不再需要耗費人工去為AI的產品做大量的前期準備工作,這是其意義(significance)所在掖蛤!
接著杀捻,洪教授也簡單回顧了人工神經網絡的歷史:
人工神經網絡在上世紀四十年代就出來了,小火了一下就撐不下去了,其中一個原因是大家發(fā)現(xiàn)這東西解決不了“異或問題”致讥,而且訓練起來太麻煩仅仆。到了上世紀七十年代,Paul Werbos讀博時候拿backpropagation的算法來訓練神經網絡垢袱,提高了效率墓拜,用多層神經網絡把異或問題解決了,也把神經網絡帶入一個新紀元请契。上世紀八九十年代咳榜,人工神經網絡的研究迎來了一場大火,學術圈發(fā)了成千上萬篇關于神經網絡的論文爽锥,從設計到訓練到優(yōu)化再到各行各業(yè)的應用涌韩。
Jim Burke教授,一個五年前退休的IEEE Life Fellow氯夷,曾經講過那個年代的故事:去開電力系統(tǒng)的學術會議臣樱,每討論一個工程問題,不管是啥腮考,總會有一幫人說這可以用神經網絡解決雇毫,當然最后也就不了了之了。簡單的說是大家挖坑灌水吹泡泡踩蔚,最后沒啥可忽悠的了棚放,就找個別的地兒再繼續(xù)挖坑灌水吹泡泡。上世紀末的學術圈馅闽,如果出門不說自己搞神經網絡的都不好意思跟人打招呼飘蚯,就和如今的深度學習、大數據分析一樣捞蛋。
然后孝冒,洪教授對人工智能做了并不十分樂觀的展望:
回到阿法狗下棋這個事兒,伴隨著大數據的浪潮拟杉,數據挖掘庄涡、機器學習、神經網絡和人工智能突然間又火了起來搬设。這次火的有沒有料呢穴店?我認為是有的,有海量的數據拿穴、有計算能力的提升泣洞、有算法的改進。這就好比當年把backpropagation用在神經網絡上默色,的確是個突破球凰。
最終這個火能燒多久,還得看神經網絡能解決多少實際問題。二十年前的大火之后呕诉,被神經網絡“解決”的實際問題寥寥無幾缘厢,其中一個比較知名的是電力負荷預測問題,就是用電量預測甩挫,剛好是我的專業(yè)贴硫。由于當年神經網絡過于火爆,導致科研重心幾乎完全離開了傳統(tǒng)的統(tǒng)計方法伊者。等我剛進入這個領域做博士論文的時候英遭,就拿傳統(tǒng)的多元回歸模型秒殺了市面上的各種神經網絡遺傳算法的。我一貫的看法亦渗,對于眼前流行的東西挖诸,不要盲目追逐,要先審時度勢央碟,看看自己擅長啥税灌、有啥積累均函,看準了坑再跳亿虽。
美國密歇根大學人工智能實驗室主任Satinder Singh也表達了和洪教授類似的觀點:這并非任何結束的開始,因為人工智能和人甚至動物相比苞也,所知所能依然極端有限:
This is not the beginning of any endbecause AlphaGo Zero, like all other successful AI so far, isextremely limitedin what it knows and in what it can do compared with humans and even other animals.
不過洛勉,Singh教授仍然對阿法元大加贊賞:這是一項重大成就, 顯示強化學習而不依賴人的經驗,可以做的更好:
The improvement in training time and computational complex?ity of AlphaGo Zero relative to AlphaGo, achieved in about a year, is a major achieve?ment… the results suggest that AIs based on reinforcement learning can perform much better than those that rely on human expertise.
陳怡然教授則對人工智能的未來做了進一步的思考:
AlphaGo Zero沒有使用人類標注如迟,只靠人類給定的圍棋規(guī)則收毫,就可以推演出高明的走法。有趣的是殷勘,我們還在論文中看到了AlphaGo Zero掌握圍棋的過程此再。比如如何逐漸學會一些常見的定式與開局方法 ,如第一手點三三玲销。相信這也能對圍棋愛好者理解AlphaGo的下棋風格有所啟發(fā)输拇。
除了技術創(chuàng)新之外,AlphaGo Zero又一次引發(fā)了一個值得所有人工智能研究者思考的問題:在未來發(fā)展中贤斜,我們究竟應該如何看待人類經驗的作用策吠。在AlphaGo Zero自主學會的走法中,有一些與人類走法一致瘩绒,區(qū)別主要在中間相持階段猴抹。AlphaGo Zero已經可以給人類當圍棋老師,指導人類思考之前沒見過的走法锁荔,而不用完全拘泥于圍棋大師的經驗蟀给。也就是說AlphaGo Zero再次打破了人類經驗的神秘感,讓人腦中形成的經驗也是可以被探測和學習的。
陳教授最后也提出一個有趣的命題:
未來我們要面對的一個挑戰(zhàn)可能就是: 在一些與日常生活有關的決策問題上跋理,人類經驗和機器經驗同時存在拍霜,而機器經驗與人類經驗有很大差別,我們又該如何去選擇和利用呢薪介?
不過David Silver對此并不擔心祠饺,而對未來充滿信心。他指出:
If similar techniques can be applied to other structured problems, such as protein folding, reducing energy consumption or searching for revolutionary new materials, the resulting breakthroughs have the potential to positively impact society.
你覺得哪一個突破更加關鍵呢汁政?是阿法狗拜人為師最后打敗老師道偷,還是阿法元無師自通打敗阿法狗?不妨留言告訴我們记劈,并和大伙分享您對人工智能何去何從的看法勺鸦。