一年多以前,阿爾法狗是2016年1月28日期間的封面故事痕惋。Deepmind發(fā)布了一篇重磅紙区宇,并介紹了擊敗歐洲圍棋冠軍范劍的人工智能程序。倫敦當(dāng)?shù)貢r間18日18時(北京時間19日01:00)值戳,阿爾法狗再次登上世界頂級科學(xué)雜志 - 《自然》议谷。
今年5月,在中國選手柯潔以3-0獲勝后堕虹,阿爾法狗宣布退役卧晓,但DeepMind并未停止研究芬首。 10月18日,在倫敦當(dāng)?shù)貢r間逼裆,DeepMind團(tuán)隊(duì)宣布了代號為AlphaGo Zero的最強(qiáng)版阿爾法狗(http://www.afa-gou.com/)郁稍。其獨(dú)特的秘密是“自我教育”。而且波附,從一張白紙開始艺晴,零基學(xué)習(xí)在短短三天內(nèi)就成為了一名頂尖選手昼钻。
該團(tuán)隊(duì)表示掸屡,AlphaGo Zero的水平已經(jīng)超過了AlphaGo的所有以前的版本。對于贏得韓國選手李世石的AlphaGo然评,AlphaGo Zero取得了100:0的壓倒性紀(jì)錄仅财。 DeepMind團(tuán)隊(duì)在10月18日的“自然”雜志上發(fā)表了關(guān)于AlphaGo Zero的研究成果。
“AlphaGo在兩年內(nèi)取得了令人矚目的成果碗淌,現(xiàn)在AlphaGo Zero(http://www.afa-gou.com/alphago-zero/)是我們最強(qiáng)大的版本盏求,它已經(jīng)有了很大的提升,Zero提高了計(jì)算效率亿眠,并且沒有使用任何人類Go數(shù)據(jù)碎罚,”DeepMind的創(chuàng)始人兼首席執(zhí)行官Demis神父AlphaGo Hassabis說:“最終,我們希望利用其算法突破來幫助解決緊急的現(xiàn)實(shí)問題纳像,如蛋白質(zhì)折疊或設(shè)計(jì)新材料荆烈。如果我們通過AlphaGo可以在這些問題上取得進(jìn)展,那么它有可能促進(jìn)人們的理解并以積極的方式影響我們的生活竟趾°竟海“
不再受人類知識的限制,只有4個TPU
先前版本的AlphaGo通過結(jié)合數(shù)百萬人類Go專家的簽名和強(qiáng)化學(xué)習(xí)的監(jiān)督學(xué)習(xí)進(jìn)行自我訓(xùn)練岔帽。在擊敗專業(yè)大師之前玫鸟,它已經(jīng)接受了幾個月的培訓(xùn),依靠多臺機(jī)器和48個熱塑性聚氨酯(http://www.afa-gou.com/alphago%E8%B5%84%E8%AE%AF/)犀勒。
AlphaGo Zero的功能在此基礎(chǔ)上得到了質(zhì)的改進(jìn)屎飘。最大的區(qū)別是它不再需要人類數(shù)據(jù)。換句話說贾费,它一開始并沒有接觸到人類的國際象棋钦购。研發(fā)團(tuán)隊(duì)只需讓它在棋盤上自由移動,然后玩自己的游戲铸本。值得一提的是肮雨,AlphaGo Zero也非常“低碳”箱玷,僅使用一臺機(jī)器和四個TPU怨规,這大大節(jié)省了資源陌宿。
AlphaGo Zero增強(qiáng)了學(xué)習(xí)中的自我娛樂。
經(jīng)過幾天的培訓(xùn)波丰,AlphaGo Zero已經(jīng)完成了近500萬套自我游戲壳坪,并且能夠超越人類并擊敗AlphaGo的所有以前版本。 DeepMind團(tuán)隊(duì)在官方博客上表示掰烟,Zero采用更新的神經(jīng)網(wǎng)絡(luò)和搜索算法進(jìn)行重組爽蝴,隨著培訓(xùn)的深入,系統(tǒng)的性能逐漸提高纫骑。自我游戲的結(jié)果也越來越好蝎亚。同時,阿爾法狗神經(jīng)網(wǎng)絡(luò)變得更加準(zhǔn)確先馆。