AI大事記
圍棋作為一款完全信息博弈游戲乒验,因其復(fù)雜性,從人工智能初期便吸引了無數(shù)的計(jì)算機(jī)專業(yè)人士的興趣电媳,并設(shè)計(jì)各種算法與職業(yè)棋手進(jìn)行挑戰(zhàn)踏揣。
隨著2016年3月份AlphaGo以4:1戰(zhàn)勝職業(yè)選手李世乭,今年5月推出Master以3:0戰(zhàn)勝世界第一的柯杰匾乓,再到2017年10月18日推出阿法元(在國際頂級期刊Nature發(fā)表文章)捞稿,完全自主學(xué)習(xí)100:0完勝M(fèi)ater,標(biāo)志著圍棋人工智能經(jīng)過多年的發(fā)展拼缝,徹底碾壓了人類娱局。
接下來我就從圍棋人工智能的難度、阿法元的核心技術(shù)和未來幾個(gè)方面做一個(gè)梳理和介紹咧七。
1. 圍棋人工智能的難度
圍棋人工智能的難度在于以下兩點(diǎn):
- 搜索空間巨大:合法的圍棋變化(10^170) 大于宇宙中原子數(shù)(10^80)
- 局面判斷難:局面的判斷分為三個(gè)層次衰齐,首先是對當(dāng)前雙方盤面的正確理解,其次是能夠識別對方意圖的識別继阻,最后是評估耻涛,對對方各種意圖造成的后果進(jìn)行客觀的評估。這三點(diǎn)逐層遞進(jìn)穴翩,難于形式化犬第,因此也是圍棋AI的一個(gè)重要挑戰(zhàn)。
2. 阿法元的技術(shù)思路
最新出爐的阿法元芒帕,仔細(xì)閱讀DeepMind發(fā)布的文章歉嗓,其核心的思路如下圖所示,即
利用當(dāng)前最優(yōu)模型自主博弈產(chǎn)生大量訓(xùn)練樣本->利用訓(xùn)練樣本進(jìn)行深度強(qiáng)化學(xué)習(xí)背蟆,更新當(dāng)前訓(xùn)練的決策模型->當(dāng)前訓(xùn)練模型和最優(yōu)模型進(jìn)行多輪對弈鉴分,利用結(jié)果評估兩個(gè)模型的優(yōu)劣,并決定是否替換最優(yōu)模型带膀。然后依次迭代志珍。
2.1 基于蒙特卡洛樹搜索的對弈數(shù)據(jù)生成
蒙特卡洛算法基于大數(shù)定理,即采樣點(diǎn)越多垛叨,則結(jié)果越接近于真實(shí)分布伦糯。那么在圍棋中,即每一步都通過選取最大可能的若干種走子嗽元,依次迭代從而產(chǎn)生了一個(gè)從當(dāng)前局面出發(fā)的搜索樹敛纲。在若干步之后,再采用快走的方式從葉節(jié)點(diǎn)到本局結(jié)束剂癌,得出最終的雙方輸贏淤翔。然后反傳路徑到數(shù)的頂端,經(jīng)過的每一個(gè)節(jié)點(diǎn)都修改其上的輸贏概率佩谷。那么最終的走子就是贏得概率最大的那一步棋旁壮。這就是蒙特卡洛搜索樹的基本步驟监嗜。
在阿法元中,比較精妙的是抡谐,它采用MCTS(蒙特卡洛搜索樹)依次生成最優(yōu)的白方走子裁奇,黑方走子一直到分出輸贏,將整個(gè)過程作為若干的模型訓(xùn)練樣本童叠,即讓模型朝著最優(yōu)模型的走棋方式逼近框喳。這種self-play方式,在alphaGo中也使用過厦坛,只是之前進(jìn)行self-play的模型是完成監(jiān)督學(xué)習(xí)后采用的方法五垮,將模型從業(yè)余4段提升到職業(yè)水平,并且在之前的文章提到如果初期就采用self-play進(jìn)行學(xué)習(xí)效果并不好杜秸。這個(gè)從邏輯上也是成立的:讓兩個(gè)臭棋簍子天天下放仗,肯定無法達(dá)到專業(yè)水平。現(xiàn)在看來撬碟,這種邏輯的漏洞在于诞挨,臭棋簍子相互下無法提升的原因在于他們沒有一直和比自己稍微高一點(diǎn)點(diǎn)的對手博弈,而且博弈的時(shí)間不夠長呢蛤。阿法元?jiǎng)t不同惶傻,足有模型就相當(dāng)于對手,一旦決策模型水平稍微超過了最優(yōu)模型其障,那么就把最有模型換成當(dāng)前的決策模型银室。也就有點(diǎn)兒像乒乓球的循環(huán)賽,誰的水平最高励翼,誰就當(dāng)指導(dǎo)蜈敢,一旦你不行了,就立刻換上更優(yōu)秀的汽抚。這樣一來就避免了窩里斗的局部最優(yōu)抓狭。
2.2 基于卷積神經(jīng)網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)的特征抽取與模型訓(xùn)練
阿法元采用了目前較為流行的CNN+ResNet進(jìn)行特征抽取,較少的應(yīng)用人為設(shè)計(jì)的特征造烁,只是把1919的圍棋落子和雙方過去8步的走子歷史形成1919*17的三圍矩陣做輸入否过,最終的特征輸出一方面輸入到策略網(wǎng)絡(luò),同時(shí)又輸入到價(jià)值網(wǎng)絡(luò)惭蟋,也就是價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)公用一套特征抽取叠纹,這個(gè)也好理解,同一個(gè)大腦不可能在判斷當(dāng)前局勢和走子策略時(shí)進(jìn)行兩次不同特征抽取敞葛。這樣做的好處一方面降低了訓(xùn)練時(shí)間,同時(shí)也提高了兩個(gè)網(wǎng)絡(luò)的和諧度(前期處理結(jié)果一致与涡,差別僅在后期功能)惹谐。當(dāng)然這個(gè)并非阿法元的創(chuàng)新持偏,幾個(gè)月前在deepmind公布星際爭霸baseline時(shí)已經(jīng)采用這種網(wǎng)絡(luò)架構(gòu)了。
2.3 基于對抗評估的策略模型更新
模型更新那就計(jì)較好理解氨肌,用訓(xùn)練好的新模型和最優(yōu)模型進(jìn)行多場較量(500局)鸿秆,如果新模型勝率超過55%,也就是比最優(yōu)模型好一點(diǎn)點(diǎn)怎囚,那么就用新模型更換最有模型卿叽。然后開始新的一輪迭代。如果新模型勝率不夠恳守,說明學(xué)的還不夠好考婴,繼續(xù)跟著學(xué)。
這里頭有一點(diǎn)就是催烘,萬一新模型訓(xùn)練總是超不過最優(yōu)模型怎么辦沥阱?這里算法也進(jìn)行了一下小trick(這個(gè)也比較關(guān)鍵),就是在生成策略時(shí)伊群,加入了噪聲信息考杉,也就是新模型除了跟著最優(yōu)模型學(xué)習(xí)外,還會自己在嘗試新的走法舰始。這應(yīng)該也是能左右互搏的關(guān)鍵點(diǎn)之一崇棠。
3. 阿法元的意義
好了,算法的核心點(diǎn)介紹完丸卷,是不是覺得很簡單枕稀。在AI領(lǐng)域就是這樣,越是經(jīng)典好用的算法及老,往往思路和過程都比較簡單抽莱。那么這次阿法元的橫空出世,到底有哪些重要影響呢骄恶?
3.1 擺脫人類知識的自主學(xué)習(xí)
AI的三個(gè)階段分別是專家系統(tǒng)->監(jiān)督學(xué)習(xí)->自主學(xué)習(xí)食铐。自從2015年Deepmind提出DQN,將強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)結(jié)合在一起,在atari多款游戲上超過人類僧鲁,就已經(jīng)宣告一個(gè)全新的機(jī)器智能時(shí)代來臨虐呻。然而任何新興事物和技術(shù)的發(fā)展都不會一蹴而就,都會經(jīng)歷一個(gè)從懷疑到半信半疑寞秃,到嘗試到應(yīng)用到接受的過程斟叼。隨著這兩年DRL技術(shù)在游戲、機(jī)器人等多個(gè)領(lǐng)域的擴(kuò)展春寿,尤其是alphaGo朗涩、阿法元的沖擊,相信很快就會掀起繼深度學(xué)習(xí)后的又一波AI狂潮绑改。無疑谢床,阿法元的出現(xiàn)兄一,進(jìn)一步刷新大家的認(rèn)知,加速DRL识腿、自主學(xué)習(xí)技術(shù)發(fā)展的進(jìn)程出革。
3.2 自我提升的從0到1
selp-play技術(shù)在理論上是有一定可行性的,當(dāng)然也有人質(zhì)疑渡讼。AI作為一個(gè)應(yīng)用科學(xué)骂束,最終還是需要實(shí)驗(yàn)和應(yīng)用來證明。alphaGo的self-play驗(yàn)證了從1到10的可行性成箫,這次展箱,阿法元?jiǎng)t更加徹底,直接從0到1.而這個(gè)也是比從1到10更具有突破性的結(jié)論伟众。即機(jī)器可以不借助任何人的經(jīng)驗(yàn)達(dá)到超越人類最高智力析藕。
3.3 特征輸入的進(jìn)一步去人工化
在alphaGo時(shí)代,網(wǎng)絡(luò)的輸入還是人工設(shè)計(jì)的191948的人工特征凳厢,而這次則不同账胧,只是把原始的棋子矩陣和歷史信息輸入到網(wǎng)絡(luò),就能得到更快更好的效果先紫。又一次對人工經(jīng)驗(yàn)進(jìn)行了碾壓治泥。
后阿法元時(shí)代
阿法元是在自主智能學(xué)習(xí)道路上的有一個(gè)階梯,她的成功讓更多的領(lǐng)域?qū)I(yè)人士意識到DRL的強(qiáng)大遮精,接下來我相信居夹,這項(xiàng)技術(shù)會很快向其他領(lǐng)域擴(kuò)展。當(dāng)然正如2007年hinton提出了DNN本冲,到2011年深度學(xué)習(xí)才在語音識別領(lǐng)域取得突破性的應(yīng)用准脂,到了2014-2015年,整個(gè)領(lǐng)域內(nèi)才正真開始了大面積的深度神經(jīng)網(wǎng)絡(luò)擴(kuò)展和推進(jìn)檬洞。在未來幾年狸膏,基于大數(shù)據(jù)+神經(jīng)網(wǎng)絡(luò)的機(jī)制依然會存在,尤其是在產(chǎn)業(yè)界添怔,因?yàn)橐苿?dòng)互聯(lián)網(wǎng)形成的漣漪效應(yīng)和大數(shù)據(jù)的自動(dòng)生成湾戳,DNN等技術(shù)會繼續(xù)提升弱人工智能應(yīng)用的效果。
另一方面广料,因目前神經(jīng)網(wǎng)絡(luò)的優(yōu)化都是對事先設(shè)計(jì)好的網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行參數(shù)優(yōu)化砾脑,主流還是采用BP反傳機(jī)制,無論從訓(xùn)練效果艾杏,還是訓(xùn)練數(shù)據(jù)的要求韧衣,訓(xùn)練的計(jì)算資源需求都遠(yuǎn)遠(yuǎn)超過生物人腦的學(xué)習(xí)。為此,目前OpenAI正在開展的神經(jīng)網(wǎng)絡(luò)進(jìn)化模型畅铭,因可以在訓(xùn)練中動(dòng)態(tài)的調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)萧求,具有更加靈活的學(xué)習(xí)模式。只是目前才剛剛開始顶瞒,在計(jì)算資源使用上有些過大。不過從趨勢上看元旬,有可能為自主學(xué)習(xí)開拓出一條陽光大道榴徐。一切都剛剛開始,讓我們拭目以待匀归!