擊敗職業(yè)棋手的阿爾法狗

先說一下授舟，個(gè)人還是覺得論寫東西記錄的話哑姚，對(duì)比為知筆記等，在手機(jī)端寫馬克糖還是用簡(jiǎn)書愛屁屁最爽快呀～～
這廣告是不是太生硬了……

最近的一個(gè)熱點(diǎn)消息，恐怕就是人工智能AlphaGo擊敗了歐洲職業(yè)圍棋冠軍——當(dāng)然這事發(fā)生在去年十月而不是最近志鹃，另一方面非死不可跳出來說其實(shí)它們?cè)缇瓦_(dá)成這項(xiàng)成就了只是一直沒公布罷了。

雖然擊敗的只是不算頂尖的歐洲冠軍泽西，遠(yuǎn)不像以前國(guó)際象棋深藍(lán)擊敗的是世界冠軍曹铃，但由于是在這個(gè)大家普遍認(rèn)為現(xiàn)在的電腦無能為力的能夠彰顯人的智力的強(qiáng)大的圍棋領(lǐng)域，所以這事的意義瞬間就不同了捧杉。

有一種凡間的蠻族無理踏入天堂的神之領(lǐng)域的冒犯與不敬陕见。

雖然我也不知道人類究竟從哪來的這種自傲，或許是在宣布上帝已死的時(shí)候順手就把扒下的神性給套在了自己身上了吧味抖。

于是评甜，正在北上的火車上顛簸的我打算略微寫幾句——當(dāng)然就這個(gè)領(lǐng)域來說我徹底是門外漢，就和以前跑去神經(jīng)所的朋友們里聽腦神經(jīng)與量子效應(yīng)的可能關(guān)系時(shí)一樣仔涩。

阿爾法狗所采用的忍坷，是深度卷積神經(jīng)網(wǎng)絡(luò)（DCNN）與蒙特卡洛決策樹（MCTS）這兩套方案。

我對(duì)這兩個(gè)領(lǐng)域完全不熟熔脂，勉強(qiáng)說了解的話佩研，就是以前憑著個(gè)人興趣看過CNN與蒙特卡洛方法，所以只能從這兩個(gè)近親來談?wù)劇?/p>

所謂CNN霞揉，簡(jiǎn)單來說旬薯，個(gè)人認(rèn)為是基于兩大基本假設(shè)的主要用于圖形識(shí)別的多層神經(jīng)網(wǎng)絡(luò)算法，而這兩個(gè)假設(shè)則是：

與每個(gè)點(diǎn)信息相關(guān)的只有一定范圍的鄰點(diǎn)适秩，而不是整個(gè)數(shù)據(jù)集中的所有點(diǎn)绊序；
每個(gè)點(diǎn)上的參數(shù)是共享的。

這樣的假設(shè)秽荞，翻譯成人話就是：

單個(gè)點(diǎn)的行為是被局部影響的政模；
整個(gè)空間遵循統(tǒng)一套規(guī)則。

這樣的假定對(duì)于特定類型問題當(dāng)然是合理的蚂会，比如CNN本來所用于的圖形識(shí)別淋样，對(duì)于單張圖來說，色彩或者線條總是局部起作用的胁住，然后局部組成整體的構(gòu)圖與意向趁猴，這樣的假定不會(huì)偏離實(shí)際太多——當(dāng)然如果我們?cè)谝阎@點(diǎn)后故意去誤導(dǎo)，那當(dāng)然可以騙過CNN了彪见，比如此前有人專門設(shè)計(jì)一套遺傳算法用來欺騙特定的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)儡司，算是以毒攻毒。

對(duì)于圍棋余指，或者象棋等一大類棋類游戲來說捕犬，每個(gè)棋的作用與影響跷坝，當(dāng)然是局部發(fā)揮的，然后可以通過多層CNN逐漸外推碉碉，直至全盤柴钻。

而棋盤上的規(guī)則，不單下棋規(guī)則垢粮，棋子發(fā)揮影響的規(guī)則贴届，也是全局統(tǒng)一的，所以用CNN來處理這種規(guī)則下的游戲蜡吧，當(dāng)然是沒問題的毫蚓。

這點(diǎn)反過來說，如果棋子的作用與影響昔善，棋子的重要性元潘，是隨時(shí)而變的，也是不同位置不同的君仆，且這種不同不存在某種確定的元規(guī)則或者元規(guī)則的元規(guī)則翩概，那CNN應(yīng)該就基本無效了——但這兩個(gè)假設(shè)至少對(duì)人類所能接受的游戲來說，已經(jīng)是足夠強(qiáng)了袖订。

讓我們?cè)贀Q一個(gè)角度。

CNN的本質(zhì)嗅虏，就是通過分析局部信息之間的關(guān)聯(lián)洛姑，一層層抽象出假定中的全局規(guī)律或者說全局信息，是一個(gè)不斷抽象的過程皮服。

這點(diǎn)就本質(zhì)來說楞艾，與人的行為方式是很像的——人也是一步步抽象一個(gè)具體問題，直到最后獲得一個(gè)關(guān)于這一類問題的一般規(guī)律為止龄广。

這點(diǎn)在人類迄今為止的最高成就自然科學(xué)與技術(shù)方面硫眯，可謂體現(xiàn)得淋漓盡致。

因此择同，雖然CNN最后分析出來的網(wǎng)絡(luò)參數(shù)對(duì)于人來說不可讀两入，但其行為模式在概念上是相近的，甚至可以說是相同的——何況了敲才，你就是知道了我每個(gè)腦細(xì)胞是如何與別的腦細(xì)胞相連的裹纳，也不見得就知道了我的所有想法與思考過程，這方面不能因?yàn)槭侄蔚木唧w物理形式的不同而非議紧武。

因此剃氧，如果將CNN與人的行為做類比，那CNN就是通過查閱瀏覽千萬張棋譜后阻星，自己學(xué)習(xí)總結(jié)規(guī)律朋鞍，來獲得關(guān)于圍棋如何獲勝的知識(shí)。

這里我們不清楚的有這么幾點(diǎn)：

首先，這種學(xué)習(xí)所學(xué)到的滥酥，是上乘的圍棋獲勝之道更舞，還是下乘的千萬局對(duì)戰(zhàn)的局部手勁記憶恨狈？后者的話不過就是打譜打熟了疏哗，怕是難以更進(jìn)一步——當(dāng)然了，上萬上百萬張譜都打熟禾怠，也是不容易返奉。

其次，如果將這套系統(tǒng)在初始狀態(tài)下吗氏，與一個(gè)人類小孩一起芽偏，看相同數(shù)量的譜，那么誰(shuí)贏弦讽？這個(gè)問題承襲前問污尉，如果阿爾法狗只是打譜超級(jí)多所以熟能生巧，那也談不上聰明往产，不過就是用超級(jí)的勤奮彌補(bǔ)智商的不足罷了被碗。

第三點(diǎn)，這套系統(tǒng)能分辨圍棋獲勝棋路和具體棋手的棋風(fēng)么仿村？這個(gè)感覺是兩個(gè)不同抽象層次的東西锐朴。

第四，它會(huì)形成自己的棋風(fēng)么蔼囊？

第五點(diǎn)焚志，它能否通過學(xué)習(xí)局部手勁來加速學(xué)習(xí)？這點(diǎn)其實(shí)是類比我自己以前沒事打算學(xué)圍棋的經(jīng)歷：先學(xué)規(guī)則畏鼓，然后是手勁與定勢(shì)酱酬，再來是布局，最后實(shí)戰(zhàn)——當(dāng)然云矫，懶惰如我也就停留在布局了……機(jī)器人是否可能通過同樣的學(xué)習(xí)道路膳沽，而不起現(xiàn)在這種直接上大招的方式，來加速學(xué)習(xí)让禀？這個(gè)問題深入一點(diǎn)贵少，就是獨(dú)立多次對(duì)局部的學(xué)習(xí)是否可能融匯到一個(gè)更大的整體的學(xué)習(xí)過程中。這大約是現(xiàn)在看來人與機(jī)器在學(xué)習(xí)上的最大不同了堆缘。

這幾個(gè)問題滔灶，大約需要專業(yè)人士來回答了，比如我們簡(jiǎn)書的小虎Neil吼肥。

說完CNN录平，下面說下蒙特卡洛：MC麻车。

第一次接觸MC是在計(jì)算物理課上。這套方法很容易讓人想到莎士比亞的猴子斗这。

它的本質(zhì)动猬，就是面對(duì)一個(gè)無法分解無從下手的問題是，設(shè)計(jì)一套隨機(jī)運(yùn)動(dòng)表箭，該隨機(jī)運(yùn)動(dòng)中某些情況出現(xiàn)的先驗(yàn)概率赁咙，與原本那個(gè)問題被解決時(shí)的結(jié)果之間，可以存在對(duì)應(yīng)關(guān)系免钻。

從而彼水，那個(gè)隨機(jī)運(yùn)動(dòng)可以通過計(jì)算機(jī)隨機(jī)模擬來暴力解決，于是原本無從下手的問題便能獲得解決极舔。

有點(diǎn)無恥……意思就是我不跟你打凤覆，我打你影子，然后打死你……

感覺歸感覺拆魏，事實(shí)當(dāng)然沒那么銷魂盯桦。

比如說，最經(jīng)典的案例渤刃，就是計(jì)算圓周率拥峦，過程就是取一個(gè)2×2的正方形，然后隨機(jī)掉點(diǎn)卖子，點(diǎn)距離正方形中心距離在1之內(nèi)的就記錄下來略号，最后總落點(diǎn)數(shù)與記錄下來的點(diǎn)數(shù)的比，就會(huì)收斂于四分之派揪胃。

蒙特卡洛方法的核心璃哟，在于給出一個(gè)隨機(jī)過程與原本問題相關(guān)氛琢，從而解決一個(gè)簡(jiǎn)單的就能解決原本困難的喊递。

這個(gè)思路弦論學(xué)家大概會(huì)很熟，著名的全息原理阳似、AdS/CFT在本質(zhì)上就是這個(gè)意思：難解的引力問題不好解骚勘？得，對(duì)偶到高維場(chǎng)論撮奏，那里的問題好解俏讹，解完再對(duì)應(yīng)回來～

對(duì)于這次阿爾法狗的蒙特卡洛決策樹，以及早前的Alpha-Beta決策樹剪裁畜吊，我不懂泽疆，沒法說，但從有限的介紹看來玲献，應(yīng)該是對(duì)于決策空間的所有可能決策所對(duì)應(yīng)的最優(yōu)手問題殉疼，關(guān)聯(lián)到某個(gè)決策空間中的隨機(jī)運(yùn)動(dòng)梯浪，然后通過相對(duì)少很多的隨機(jī)選擇來盡可能覆蓋到最優(yōu)手，從而通過這個(gè)隨機(jī)過程來解決問題瓢娜。

就個(gè)人理解來說挂洛，它大約是這么個(gè)過程：

對(duì)所有可能的選擇做一個(gè)篩選，然后再剩下的大量選擇中隨機(jī)選擇幾個(gè)進(jìn)行分析眠砾，接著通過這隨機(jī)幾手的選擇的結(jié)果來分析更好的篩選虏劲，直到某個(gè)程度后選出一個(gè)最優(yōu)手。

不是通過全局嘗試褒颈，而是通過少數(shù)隨機(jī)嘗試來不斷縮小范圍柒巫，最后找出一個(gè)最可能的好選擇。

某種程度來說哈肖，人有時(shí)也是這么思考與解決問題的：當(dāng)選擇太多的時(shí)候肴裙，我們不可能把所有可能都想清楚，而是嘗試幾個(gè)有特點(diǎn)的或者隨機(jī)的可能秋茫，然后進(jìn)一步縮小選擇范圍工猜。

這里，由于不專業(yè)币狠，所以不清楚兩者的相似度到底多大游两，但可以肯定的是，MCTS結(jié)合DCNN的話漩绵，至少“看起來”是一個(gè)利用學(xué)到的知識(shí)或者說經(jīng)驗(yàn)來縮小選擇范圍的過程贱案，這點(diǎn)的確是我們?nèi)私?jīng)常做的事。

因此止吐，這次阿爾法狗的DCNN+MCTS宝踪，前者用于學(xué)習(xí)，后者用于決斷碍扔，看起來是一種很好的組合瘩燥。

其工作原理，便是通過分析大量的棋譜來抽象出圍棋背后的規(guī)律性的東西不同，再在決策過程中利用這些知識(shí)不斷對(duì)可選步驟做出篩選厉膀，通過隨機(jī)嘗試來分析最可能的下一手，并最終完成“思考”二拐。

這一過程與人是相似與接近的服鹅，所以說是在“智慧地思考”，大概也不能說斷無可能百新。

而這個(gè)過程與以往比如擊敗國(guó)際象棋世界冠軍的深藍(lán)相比企软，最大的不同在于深藍(lán)所用的如果我沒記錯(cuò)的話，更類似于對(duì)所有對(duì)一大類對(duì)手可能使用的結(jié)果及其應(yīng)對(duì)的暴力窮舉饭望，而這點(diǎn)在這里一方面完全做不到仗哨，另一方面也太原始聚蝶。這里可以說是一個(gè)模擬學(xué)習(xí)與思考的過程，雖然算力依然很重要藻治，但遠(yuǎn)不是暴力窮舉那么簡(jiǎn)單粗暴地只靠算力碘勉。

這里個(gè)人有所疑惑的，就是前面所說的桩卵，分解后的局部學(xué)習(xí)是否可以融匯成整體性的學(xué)習(xí)验靡？以及它到底學(xué)到的是什么？

后者比較形而上了……

還有一點(diǎn)雏节，和學(xué)習(xí)的分解相同胜嗓，作為決策的部分是否也可以將目標(biāo)進(jìn)行分解？將贏棋這個(gè)最終大目標(biāo)分解為一系列的小目標(biāo)钩乍，比如取勢(shì)辞州，取實(shí)地，然后最后才是獲勝寥粹。

有人說阿爾法狗前段下得沒有后段好变过，是否也有可能就是因?yàn)槟繕?biāo)一直都是贏棋從而前期算力不夠呢？那么分解出前期目標(biāo)后是否就能解決這個(gè)問題呢涝涤？

對(duì)比的一個(gè)接近中文房間式的質(zhì)疑媚狰，就是即便這臺(tái)機(jī)器真的在行為上與下圍棋的人無異，它又是否真的學(xué)會(huì)了下棋呢阔拳？哪一堆網(wǎng)絡(luò)結(jié)構(gòu)真正在控制下棋呢崭孤？答案恐怕是沒有，整個(gè)網(wǎng)絡(luò)是一個(gè)完整的個(gè)體糊肠，這個(gè)個(gè)體在下棋辨宠，而不是它的某個(gè)局部。

而問一個(gè)個(gè)體到底是不是真的在下棋货裹，等于在問李世石他是不是真的知道自己在下棋嗤形，有點(diǎn)無聊了。

而泪酱，對(duì)于人類來說派殷，也不用太沮喪——這倒不是說因?yàn)榘柗ü愤€沒戰(zhàn)勝李世石还最，而是墓阀，有一點(diǎn)不知道身為人類的你發(fā)現(xiàn)沒有，整個(gè)DCNN+MCTS拓轻，模擬了學(xué)習(xí)與應(yīng)對(duì)斯撮，但人或者說動(dòng)物有一個(gè)很特殊的行為它并沒有模擬，那就是創(chuàng)新扶叉。

阿爾法狗可以通過學(xué)習(xí)圍棋來分析局面思考后手勿锅，但并沒有那種根本性的創(chuàng)造力帕膜，以前目前個(gè)人沒看到。因此溢十，假如說垮刹，人們創(chuàng)造一種阿爾法狗所學(xué)過的幾萬張棋譜之外的全新的棋路，阿爾法狗是否還能判斷成功了张弛？

這就牽扯到CNN那段的第一問了：如果阿爾法狗是真的學(xué)會(huì)了什么是圍棋荒典，那么無論人如何創(chuàng)新棋路，圍棋還是圍棋吞鸭，估計(jì)沒戲寺董。但如果阿爾法狗只是將萬億的手勁定勢(shì)布局拿來用于分析預(yù)測(cè)，那估計(jì)吃癟的是它刻剥。

以前DCNN+MCTS遮咖，不像有創(chuàng)造力的算法——當(dāng)然對(duì)比我只是半吊子，不是專家造虏，說不定其實(shí)已經(jīng)有創(chuàng)造力了只是我還沒理解御吞。

最后扯一下量子計(jì)算機(jī)——

在MCTS的隨機(jī)選擇過程中，原則上可以用量子計(jì)算機(jī)來優(yōu)化漓藕，而且可以做成一個(gè)只處理特定功能的量子計(jì)算模組魄藕，就好比谷歌的D-WAVE就只能做量子退火算法，原則上可以做一個(gè)專門只做MCTS的量子計(jì)算框架撵术，那樣估計(jì)會(huì)出一些更逆天的結(jié)果來背率。

所以，當(dāng)谷歌的阿爾法狗遇上自家的帝波嫩与，會(huì)發(fā)生什么呢寝姿？

非死不可要迎頭趕上啊划滋！

本文遵守創(chuàng)作共享CC BY-NC-SA 4.0協(xié)議

通過本協(xié)議饵筑，您可以分享并修改本文內(nèi)容，只要你遵守以下授權(quán)條款規(guī)定：姓名標(biāo)示 处坪、非商業(yè)性根资、相同方式分享。
具體內(nèi)容請(qǐng)查閱上述協(xié)議聲明同窘。

本文禁止一切紙媒玄帕，即印刷于紙張之上的一切組織，包括但不限于轉(zhuǎn)載想邦、摘編的任何應(yīng)用和衍生裤纹。網(wǎng)絡(luò)平臺(tái)如需轉(zhuǎn)載必須與本人聯(lián)系確認(rèn)。

如果喜歡簡(jiǎn)書丧没，想要下載簡(jiǎn)書App的話鹰椒，輕戳這里～～
私人推薦訂閱專題：《有意思的文章》锡移、《嚴(yán)肅碼匠圈》

最后編輯于：2017.11.27 06:08:34

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市漆际，隨后出現(xiàn)的幾起案子淆珊，更是在濱河造成了極大的恐慌，老刑警劉巖奸汇，帶你破解...
沈念sama閱讀 212,383評(píng)論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件套蒂，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡茫蛹，警方通過查閱死者的電腦和手機(jī)操刀，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,522評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來婴洼，“玉大人骨坑，你說我怎么就攤上這事〖聿桑” “怎么了欢唾？”我有些...
開封第一講書人閱讀 157,852評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)粉捻。經(jīng)常有香客問我礁遣，道長(zhǎng)，這世上最難降的妖魔是什么肩刃？我笑而不...
開封第一講書人閱讀 56,621評(píng)論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任祟霍，我火速辦了婚禮，結(jié)果婚禮上盈包，老公的妹妹穿的比我還像新娘沸呐。我一直安慰自己，他們只是感情好呢燥，可當(dāng)我...
茶點(diǎn)故事閱讀 65,741評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布崭添。她就那樣靜靜地躺著，像睡著了一般叛氨。火紅的嫁衣襯著肌膚如雪呼渣。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,929評(píng)論 1贊 290
城市分裂傳說
那天寞埠，我揣著相機(jī)與錄音屁置，去河邊找鬼。笑死畸裳，一個(gè)胖子當(dāng)著我的面吹牛缰犁，可吹牛的內(nèi)容都是我干的淳地。我是一名探鬼主播怖糊，決...
沈念sama閱讀 39,076評(píng)論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼帅容，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了伍伤？” 一聲冷哼從身側(cè)響起并徘，我...
開封第一講書人閱讀 37,803評(píng)論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎扰魂，沒想到半個(gè)月后麦乞，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,265評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡劝评，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,582評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年姐直，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蒋畜。...
茶點(diǎn)故事閱讀 38,716評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡声畏，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出姻成，到底是詐尸還是另有隱情插龄，我是刑警寧澤，帶...
沈念sama閱讀 34,395評(píng)論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布科展，位于F島的核電站均牢，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏才睹。R本人自食惡果不足惜徘跪，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,039評(píng)論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望琅攘。院中可真熱鬧真椿，春花似錦、人聲如沸乎澄。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,798評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)置济。三九已至解恰，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間浙于，已是汗流浹背护盈。一陣腳步聲響...
開封第一講書人閱讀 32,027評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留羞酗，地道東北人腐宋。一個(gè)月前我還...
沈念sama閱讀 46,488評(píng)論 2贊 361
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親胸竞。傳聞我的和親對(duì)象是個(gè)殘疾皇子欺嗤，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,612評(píng)論 2贊 350

擊敗職業(yè)棋手的阿爾法狗

推薦閱讀更多精彩內(nèi)容