阿法元-AI領(lǐng)域的又一次從0到1

AI大事記

圍棋作為一款完全信息博弈游戲乒验，因其復(fù)雜性，從人工智能初期便吸引了無數(shù)的計(jì)算機(jī)專業(yè)人士的興趣电媳，并設(shè)計(jì)各種算法與職業(yè)棋手進(jìn)行挑戰(zhàn)踏揣。

隨著2016年3月份AlphaGo以4:1戰(zhàn)勝職業(yè)選手李世乭，今年5月推出Master以3:0戰(zhàn)勝世界第一的柯杰匾乓，再到2017年10月18日推出阿法元(在國際頂級期刊Nature發(fā)表文章)捞稿，完全自主學(xué)習(xí)100:0完勝M(fèi)ater，標(biāo)志著圍棋人工智能經(jīng)過多年的發(fā)展拼缝，徹底碾壓了人類娱局。

image.png

接下來我就從圍棋人工智能的難度、阿法元的核心技術(shù)和未來幾個(gè)方面做一個(gè)梳理和介紹咧七。

1. 圍棋人工智能的難度

圍棋人工智能的難度在于以下兩點(diǎn)：

搜索空間巨大：合法的圍棋變化(10^170) 大于宇宙中原子數(shù)(10^80)
局面判斷難：局面的判斷分為三個(gè)層次衰齐，首先是對當(dāng)前雙方盤面的正確理解，其次是能夠識別對方意圖的識別继阻，最后是評估耻涛，對對方各種意圖造成的后果進(jìn)行客觀的評估。這三點(diǎn)逐層遞進(jìn)穴翩，難于形式化犬第，因此也是圍棋AI的一個(gè)重要挑戰(zhàn)。

2. 阿法元的技術(shù)思路

最新出爐的阿法元芒帕，仔細(xì)閱讀DeepMind發(fā)布的文章歉嗓，其核心的思路如下圖所示，即
利用當(dāng)前最優(yōu)模型自主博弈產(chǎn)生大量訓(xùn)練樣本->利用訓(xùn)練樣本進(jìn)行深度強(qiáng)化學(xué)習(xí)背蟆，更新當(dāng)前訓(xùn)練的決策模型->當(dāng)前訓(xùn)練模型和最優(yōu)模型進(jìn)行多輪對弈鉴分，利用結(jié)果評估兩個(gè)模型的優(yōu)劣，并決定是否替換最優(yōu)模型带膀。然后依次迭代志珍。

阿法元核心模塊邏輯關(guān)系

2.1 基于蒙特卡洛樹搜索的對弈數(shù)據(jù)生成

蒙特卡洛算法基于大數(shù)定理，即采樣點(diǎn)越多垛叨，則結(jié)果越接近于真實(shí)分布伦糯。那么在圍棋中，即每一步都通過選取最大可能的若干種走子嗽元，依次迭代從而產(chǎn)生了一個(gè)從當(dāng)前局面出發(fā)的搜索樹敛纲。在若干步之后，再采用快走的方式從葉節(jié)點(diǎn)到本局結(jié)束剂癌，得出最終的雙方輸贏淤翔。然后反傳路徑到數(shù)的頂端，經(jīng)過的每一個(gè)節(jié)點(diǎn)都修改其上的輸贏概率佩谷。那么最終的走子就是贏得概率最大的那一步棋旁壮。這就是蒙特卡洛搜索樹的基本步驟监嗜。
在阿法元中，比較精妙的是抡谐，它采用MCTS(蒙特卡洛搜索樹)依次生成最優(yōu)的白方走子裁奇，黑方走子一直到分出輸贏，將整個(gè)過程作為若干的模型訓(xùn)練樣本童叠，即讓模型朝著最優(yōu)模型的走棋方式逼近框喳。這種self-play方式，在alphaGo中也使用過厦坛，只是之前進(jìn)行self-play的模型是完成監(jiān)督學(xué)習(xí)后采用的方法五垮，將模型從業(yè)余4段提升到職業(yè)水平，并且在之前的文章提到如果初期就采用self-play進(jìn)行學(xué)習(xí)效果并不好杜秸。這個(gè)從邏輯上也是成立的：讓兩個(gè)臭棋簍子天天下放仗，肯定無法達(dá)到專業(yè)水平。現(xiàn)在看來撬碟，這種邏輯的漏洞在于诞挨，臭棋簍子相互下無法提升的原因在于他們沒有一直和比自己稍微高一點(diǎn)點(diǎn)的對手博弈，而且博弈的時(shí)間不夠長呢蛤。阿法元?jiǎng)t不同惶傻，足有模型就相當(dāng)于對手，一旦決策模型水平稍微超過了最優(yōu)模型其障，那么就把最有模型換成當(dāng)前的決策模型银室。也就有點(diǎn)兒像乒乓球的循環(huán)賽，誰的水平最高励翼，誰就當(dāng)指導(dǎo)蜈敢，一旦你不行了，就立刻換上更優(yōu)秀的汽抚。這樣一來就避免了窩里斗的局部最優(yōu)抓狭。

2.2 基于卷積神經(jīng)網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)的特征抽取與模型訓(xùn)練

阿法元采用了目前較為流行的CNN+ResNet進(jìn)行特征抽取，較少的應(yīng)用人為設(shè)計(jì)的特征造烁，只是把1919的圍棋落子和雙方過去8步的走子歷史形成1919*17的三圍矩陣做輸入否过，最終的特征輸出一方面輸入到策略網(wǎng)絡(luò)，同時(shí)又輸入到價(jià)值網(wǎng)絡(luò)惭蟋，也就是價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)公用一套特征抽取叠纹，這個(gè)也好理解，同一個(gè)大腦不可能在判斷當(dāng)前局勢和走子策略時(shí)進(jìn)行兩次不同特征抽取敞葛。這樣做的好處一方面降低了訓(xùn)練時(shí)間，同時(shí)也提高了兩個(gè)網(wǎng)絡(luò)的和諧度(前期處理結(jié)果一致与涡，差別僅在后期功能)惹谐。當(dāng)然這個(gè)并非阿法元的創(chuàng)新持偏，幾個(gè)月前在deepmind公布星際爭霸baseline時(shí)已經(jīng)采用這種網(wǎng)絡(luò)架構(gòu)了。

2.3 基于對抗評估的策略模型更新

模型更新那就計(jì)較好理解氨肌，用訓(xùn)練好的新模型和最優(yōu)模型進(jìn)行多場較量(500局)鸿秆，如果新模型勝率超過55%，也就是比最優(yōu)模型好一點(diǎn)點(diǎn)怎囚，那么就用新模型更換最有模型卿叽。然后開始新的一輪迭代。如果新模型勝率不夠恳守，說明學(xué)的還不夠好考婴，繼續(xù)跟著學(xué)。

這里頭有一點(diǎn)就是催烘，萬一新模型訓(xùn)練總是超不過最優(yōu)模型怎么辦沥阱？這里算法也進(jìn)行了一下小trick（這個(gè)也比較關(guān)鍵），就是在生成策略時(shí)伊群，加入了噪聲信息考杉，也就是新模型除了跟著最優(yōu)模型學(xué)習(xí)外，還會自己在嘗試新的走法舰始。這應(yīng)該也是能左右互搏的關(guān)鍵點(diǎn)之一崇棠。

3. 阿法元的意義

好了，算法的核心點(diǎn)介紹完丸卷，是不是覺得很簡單枕稀。在AI領(lǐng)域就是這樣，越是經(jīng)典好用的算法及老，往往思路和過程都比較簡單抽莱。那么這次阿法元的橫空出世，到底有哪些重要影響呢骄恶？

3.1 擺脫人類知識的自主學(xué)習(xí)

AI的三個(gè)階段分別是專家系統(tǒng)->監(jiān)督學(xué)習(xí)->自主學(xué)習(xí)食铐。自從2015年Deepmind提出DQN,將強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)結(jié)合在一起，在atari多款游戲上超過人類僧鲁，就已經(jīng)宣告一個(gè)全新的機(jī)器智能時(shí)代來臨虐呻。然而任何新興事物和技術(shù)的發(fā)展都不會一蹴而就，都會經(jīng)歷一個(gè)從懷疑到半信半疑寞秃，到嘗試到應(yīng)用到接受的過程斟叼。隨著這兩年DRL技術(shù)在游戲、機(jī)器人等多個(gè)領(lǐng)域的擴(kuò)展春寿，尤其是alphaGo朗涩、阿法元的沖擊，相信很快就會掀起繼深度學(xué)習(xí)后的又一波AI狂潮绑改。無疑谢床，阿法元的出現(xiàn)兄一，進(jìn)一步刷新大家的認(rèn)知，加速DRL识腿、自主學(xué)習(xí)技術(shù)發(fā)展的進(jìn)程出革。

3.2 自我提升的從0到1

selp-play技術(shù)在理論上是有一定可行性的，當(dāng)然也有人質(zhì)疑渡讼。AI作為一個(gè)應(yīng)用科學(xué)骂束，最終還是需要實(shí)驗(yàn)和應(yīng)用來證明。alphaGo的self-play驗(yàn)證了從1到10的可行性成箫，這次展箱，阿法元?jiǎng)t更加徹底，直接從0到1.而這個(gè)也是比從1到10更具有突破性的結(jié)論伟众。即機(jī)器可以不借助任何人的經(jīng)驗(yàn)達(dá)到超越人類最高智力析藕。

3.3 特征輸入的進(jìn)一步去人工化

在alphaGo時(shí)代，網(wǎng)絡(luò)的輸入還是人工設(shè)計(jì)的191948的人工特征凳厢，而這次則不同账胧，只是把原始的棋子矩陣和歷史信息輸入到網(wǎng)絡(luò)，就能得到更快更好的效果先紫。又一次對人工經(jīng)驗(yàn)進(jìn)行了碾壓治泥。

后阿法元時(shí)代

阿法元是在自主智能學(xué)習(xí)道路上的有一個(gè)階梯，她的成功讓更多的領(lǐng)域?qū)I(yè)人士意識到DRL的強(qiáng)大遮精，接下來我相信居夹，這項(xiàng)技術(shù)會很快向其他領(lǐng)域擴(kuò)展。當(dāng)然正如2007年hinton提出了DNN本冲，到2011年深度學(xué)習(xí)才在語音識別領(lǐng)域取得突破性的應(yīng)用准脂，到了2014-2015年，整個(gè)領(lǐng)域內(nèi)才正真開始了大面積的深度神經(jīng)網(wǎng)絡(luò)擴(kuò)展和推進(jìn)檬洞。在未來幾年狸膏，基于大數(shù)據(jù)+神經(jīng)網(wǎng)絡(luò)的機(jī)制依然會存在，尤其是在產(chǎn)業(yè)界添怔，因?yàn)橐苿?dòng)互聯(lián)網(wǎng)形成的漣漪效應(yīng)和大數(shù)據(jù)的自動(dòng)生成湾戳，DNN等技術(shù)會繼續(xù)提升弱人工智能應(yīng)用的效果。
另一方面广料，因目前神經(jīng)網(wǎng)絡(luò)的優(yōu)化都是對事先設(shè)計(jì)好的網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行參數(shù)優(yōu)化砾脑，主流還是采用BP反傳機(jī)制，無論從訓(xùn)練效果艾杏，還是訓(xùn)練數(shù)據(jù)的要求韧衣，訓(xùn)練的計(jì)算資源需求都遠(yuǎn)遠(yuǎn)超過生物人腦的學(xué)習(xí)。為此，目前OpenAI正在開展的神經(jīng)網(wǎng)絡(luò)進(jìn)化模型畅铭，因可以在訓(xùn)練中動(dòng)態(tài)的調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)萧求，具有更加靈活的學(xué)習(xí)模式。只是目前才剛剛開始顶瞒，在計(jì)算資源使用上有些過大。不過從趨勢上看元旬，有可能為自主學(xué)習(xí)開拓出一條陽光大道榴徐。一切都剛剛開始，讓我們拭目以待匀归！

最后編輯于：2017.12.11 04:56:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末坑资，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子穆端，更是在濱河造成了極大的恐慌袱贮，老刑警劉巖，帶你破解...
沈念sama閱讀 216,651評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件体啰，死亡現(xiàn)場離奇詭異攒巍，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)荒勇，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,468評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門柒莉，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人沽翔，你說我怎么就攤上這事兢孝。” “怎么了仅偎？”我有些...
開封第一講書人閱讀 162,931評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵跨蟹，是天一觀的道長。經(jīng)常有香客問我橘沥，道長窗轩，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,218評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任威恼，我火速辦了婚禮品姓，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘箫措。我一直安慰自己腹备，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,234評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布斤蔓。她就那樣靜靜地躺著植酥，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上友驮，一...
開封第一講書人閱讀 51,198評論 1贊 299
城市分裂傳說
那天漂羊，我揣著相機(jī)與錄音，去河邊找鬼卸留。笑死走越，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的耻瑟。我是一名探鬼主播旨指，決...
沈念sama閱讀 40,084評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼喳整！你這毒婦竟也來了账嚎？” 一聲冷哼從身側(cè)響起提陶，我...
開封第一講書人閱讀 38,926評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤叶骨，失蹤者是張志新（化名）和其女友劉穎霎箍，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體魏保，經(jīng)...
沈念sama閱讀 45,341評論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡熬尺，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,563評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了囱淋。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片猪杭。...
茶點(diǎn)故事閱讀 39,731評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖妥衣，靈堂內(nèi)的尸體忽然破棺而出皂吮，到底是詐尸還是另有隱情，我是刑警寧澤税手，帶...
沈念sama閱讀 35,430評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蜂筹，位于F島的核電站，受9級特大地震影響芦倒，放射性物質(zhì)發(fā)生泄漏艺挪。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,036評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一兵扬、第九天我趴在偏房一處隱蔽的房頂上張望麻裳。院中可真熱鬧，春花似錦器钟、人聲如沸津坑。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,676評論 0贊 22
一樁弒父案傲霸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽疆瑰。三九已至眉反，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間穆役，已是汗流浹背寸五。一陣腳步聲響...
開封第一講書人閱讀 32,829評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留耿币，地道東北人梳杏。一個(gè)月前我還...
沈念sama閱讀 47,743評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像淹接，于是被迫代替她去往敵國和親秘狞。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,629評論 2贊 354