先說一下授舟,個(gè)人還是覺得論寫東西記錄的話哑姚,對(duì)比為知筆記等,在手機(jī)端寫馬克糖還是用簡(jiǎn)書愛屁屁最爽快呀~~
這廣告是不是太生硬了……
最近的一個(gè)熱點(diǎn)消息,恐怕就是人工智能AlphaGo擊敗了歐洲職業(yè)圍棋冠軍——當(dāng)然這事發(fā)生在去年十月而不是最近志鹃,另一方面非死不可跳出來說其實(shí)它們?cè)缇瓦_(dá)成這項(xiàng)成就了只是一直沒公布罷了。
雖然擊敗的只是不算頂尖的歐洲冠軍泽西,遠(yuǎn)不像以前國(guó)際象棋深藍(lán)擊敗的是世界冠軍曹铃,但由于是在這個(gè)大家普遍認(rèn)為現(xiàn)在的電腦無能為力的能夠彰顯人的智力的強(qiáng)大的圍棋領(lǐng)域,所以這事的意義瞬間就不同了捧杉。
有一種凡間的蠻族無理踏入天堂的神之領(lǐng)域的冒犯與不敬陕见。
雖然我也不知道人類究竟從哪來的這種自傲,或許是在宣布上帝已死的時(shí)候順手就把扒下的神性給套在了自己身上了吧味抖。
于是评甜,正在北上的火車上顛簸的我打算略微寫幾句——當(dāng)然就這個(gè)領(lǐng)域來說我徹底是門外漢,就和以前跑去神經(jīng)所的朋友們里聽腦神經(jīng)與量子效應(yīng)的可能關(guān)系時(shí)一樣仔涩。
阿爾法狗所采用的忍坷,是深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)與蒙特卡洛決策樹(MCTS)這兩套方案。
我對(duì)這兩個(gè)領(lǐng)域完全不熟熔脂,勉強(qiáng)說了解的話佩研,就是以前憑著個(gè)人興趣看過CNN與蒙特卡洛方法,所以只能從這兩個(gè)近親來談?wù)劇?/p>
所謂CNN霞揉,簡(jiǎn)單來說旬薯,個(gè)人認(rèn)為是基于兩大基本假設(shè)的主要用于圖形識(shí)別的多層神經(jīng)網(wǎng)絡(luò)算法,而這兩個(gè)假設(shè)則是:
- 與每個(gè)點(diǎn)信息相關(guān)的只有一定范圍的鄰點(diǎn)适秩,而不是整個(gè)數(shù)據(jù)集中的所有點(diǎn)绊序;
- 每個(gè)點(diǎn)上的參數(shù)是共享的。
這樣的假設(shè)秽荞,翻譯成人話就是:
- 單個(gè)點(diǎn)的行為是被局部影響的政模;
- 整個(gè)空間遵循統(tǒng)一套規(guī)則。
這樣的假定對(duì)于特定類型問題當(dāng)然是合理的蚂会,比如CNN本來所用于的圖形識(shí)別淋样,對(duì)于單張圖來說,色彩或者線條總是局部起作用的胁住,然后局部組成整體的構(gòu)圖與意向趁猴,這樣的假定不會(huì)偏離實(shí)際太多——當(dāng)然如果我們?cè)谝阎@點(diǎn)后故意去誤導(dǎo),那當(dāng)然可以騙過CNN了彪见,比如此前有人專門設(shè)計(jì)一套遺傳算法用來欺騙特定的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)儡司,算是以毒攻毒。
對(duì)于圍棋余指,或者象棋等一大類棋類游戲來說捕犬,每個(gè)棋的作用與影響跷坝,當(dāng)然是局部發(fā)揮的,然后可以通過多層CNN逐漸外推碉碉,直至全盤柴钻。
而棋盤上的規(guī)則,不單下棋規(guī)則垢粮,棋子發(fā)揮影響的規(guī)則贴届,也是全局統(tǒng)一的,所以用CNN來處理這種規(guī)則下的游戲蜡吧,當(dāng)然是沒問題的毫蚓。
這點(diǎn)反過來說,如果棋子的作用與影響昔善,棋子的重要性元潘,是隨時(shí)而變的,也是不同位置不同的君仆,且這種不同不存在某種確定的元規(guī)則或者元規(guī)則的元規(guī)則翩概,那CNN應(yīng)該就基本無效了——但這兩個(gè)假設(shè)至少對(duì)人類所能接受的游戲來說,已經(jīng)是足夠強(qiáng)了袖订。
讓我們?cè)贀Q一個(gè)角度。
CNN的本質(zhì)嗅虏,就是通過分析局部信息之間的關(guān)聯(lián)洛姑,一層層抽象出假定中的全局規(guī)律或者說全局信息,是一個(gè)不斷抽象的過程皮服。
這點(diǎn)就本質(zhì)來說楞艾,與人的行為方式是很像的——人也是一步步抽象一個(gè)具體問題,直到最后獲得一個(gè)關(guān)于這一類問題的一般規(guī)律為止龄广。
這點(diǎn)在人類迄今為止的最高成就自然科學(xué)與技術(shù)方面硫眯,可謂體現(xiàn)得淋漓盡致。
因此择同,雖然CNN最后分析出來的網(wǎng)絡(luò)參數(shù)對(duì)于人來說不可讀两入,但其行為模式在概念上是相近的,甚至可以說是相同的——何況了敲才,你就是知道了我每個(gè)腦細(xì)胞是如何與別的腦細(xì)胞相連的裹纳,也不見得就知道了我的所有想法與思考過程,這方面不能因?yàn)槭侄蔚木唧w物理形式的不同而非議紧武。
因此剃氧,如果將CNN與人的行為做類比,那CNN就是通過查閱瀏覽千萬張棋譜后阻星,自己學(xué)習(xí)總結(jié)規(guī)律朋鞍,來獲得關(guān)于圍棋如何獲勝的知識(shí)。
這里我們不清楚的有這么幾點(diǎn):
首先,這種學(xué)習(xí)所學(xué)到的滥酥,是上乘的圍棋獲勝之道更舞,還是下乘的千萬局對(duì)戰(zhàn)的局部手勁記憶恨狈?后者的話不過就是打譜打熟了疏哗,怕是難以更進(jìn)一步——當(dāng)然了,上萬上百萬張譜都打熟禾怠,也是不容易返奉。
其次,如果將這套系統(tǒng)在初始狀態(tài)下吗氏,與一個(gè)人類小孩一起芽偏,看相同數(shù)量的譜,那么誰(shuí)贏弦讽?這個(gè)問題承襲前問污尉,如果阿爾法狗只是打譜超級(jí)多所以熟能生巧,那也談不上聰明往产,不過就是用超級(jí)的勤奮彌補(bǔ)智商的不足罷了被碗。
第三點(diǎn),這套系統(tǒng)能分辨圍棋獲勝棋路和具體棋手的棋風(fēng)么仿村?這個(gè)感覺是兩個(gè)不同抽象層次的東西锐朴。
第四,它會(huì)形成自己的棋風(fēng)么蔼囊?
第五點(diǎn)焚志,它能否通過學(xué)習(xí)局部手勁來加速學(xué)習(xí)?這點(diǎn)其實(shí)是類比我自己以前沒事打算學(xué)圍棋的經(jīng)歷:先學(xué)規(guī)則畏鼓,然后是手勁與定勢(shì)酱酬,再來是布局,最后實(shí)戰(zhàn)——當(dāng)然云矫,懶惰如我也就停留在布局了……機(jī)器人是否可能通過同樣的學(xué)習(xí)道路膳沽,而不起現(xiàn)在這種直接上大招的方式,來加速學(xué)習(xí)让禀?這個(gè)問題深入一點(diǎn)贵少,就是獨(dú)立多次對(duì)局部的學(xué)習(xí)是否可能融匯到一個(gè)更大的整體的學(xué)習(xí)過程中。這大約是現(xiàn)在看來人與機(jī)器在學(xué)習(xí)上的最大不同了堆缘。
這幾個(gè)問題滔灶,大約需要專業(yè)人士來回答了,比如我們簡(jiǎn)書的小虎Neil吼肥。
說完CNN录平,下面說下蒙特卡洛:MC麻车。
第一次接觸MC是在計(jì)算物理課上。這套方法很容易讓人想到莎士比亞的猴子斗这。
它的本質(zhì)动猬,就是面對(duì)一個(gè)無法分解無從下手的問題是,設(shè)計(jì)一套隨機(jī)運(yùn)動(dòng)表箭,該隨機(jī)運(yùn)動(dòng)中某些情況出現(xiàn)的先驗(yàn)概率赁咙,與原本那個(gè)問題被解決時(shí)的結(jié)果之間,可以存在對(duì)應(yīng)關(guān)系免钻。
從而彼水,那個(gè)隨機(jī)運(yùn)動(dòng)可以通過計(jì)算機(jī)隨機(jī)模擬來暴力解決,于是原本無從下手的問題便能獲得解決极舔。
有點(diǎn)無恥……意思就是我不跟你打凤覆,我打你影子,然后打死你……
感覺歸感覺拆魏,事實(shí)當(dāng)然沒那么銷魂盯桦。
比如說,最經(jīng)典的案例渤刃,就是計(jì)算圓周率拥峦,過程就是取一個(gè)2×2的正方形,然后隨機(jī)掉點(diǎn)卖子,點(diǎn)距離正方形中心距離在1之內(nèi)的就記錄下來略号,最后總落點(diǎn)數(shù)與記錄下來的點(diǎn)數(shù)的比,就會(huì)收斂于四分之派揪胃。
蒙特卡洛方法的核心璃哟,在于給出一個(gè)隨機(jī)過程與原本問題相關(guān)氛琢,從而解決一個(gè)簡(jiǎn)單的就能解決原本困難的喊递。
這個(gè)思路弦論學(xué)家大概會(huì)很熟,著名的全息原理阳似、AdS/CFT在本質(zhì)上就是這個(gè)意思:難解的引力問題不好解骚勘?得,對(duì)偶到高維場(chǎng)論撮奏,那里的問題好解俏讹,解完再對(duì)應(yīng)回來~
對(duì)于這次阿爾法狗的蒙特卡洛決策樹,以及早前的Alpha-Beta決策樹剪裁畜吊,我不懂泽疆,沒法說,但從有限的介紹看來玲献,應(yīng)該是對(duì)于決策空間的所有可能決策所對(duì)應(yīng)的最優(yōu)手問題殉疼,關(guān)聯(lián)到某個(gè)決策空間中的隨機(jī)運(yùn)動(dòng)梯浪,然后通過相對(duì)少很多的隨機(jī)選擇來盡可能覆蓋到最優(yōu)手,從而通過這個(gè)隨機(jī)過程來解決問題瓢娜。
就個(gè)人理解來說挂洛,它大約是這么個(gè)過程:
對(duì)所有可能的選擇做一個(gè)篩選,然后再剩下的大量選擇中隨機(jī)選擇幾個(gè)進(jìn)行分析眠砾,接著通過這隨機(jī)幾手的選擇的結(jié)果來分析更好的篩選虏劲,直到某個(gè)程度后選出一個(gè)最優(yōu)手。
不是通過全局嘗試褒颈,而是通過少數(shù)隨機(jī)嘗試來不斷縮小范圍柒巫,最后找出一個(gè)最可能的好選擇。
某種程度來說哈肖,人有時(shí)也是這么思考與解決問題的:當(dāng)選擇太多的時(shí)候肴裙,我們不可能把所有可能都想清楚,而是嘗試幾個(gè)有特點(diǎn)的或者隨機(jī)的可能秋茫,然后進(jìn)一步縮小選擇范圍工猜。
這里,由于不專業(yè)币狠,所以不清楚兩者的相似度到底多大游两,但可以肯定的是,MCTS結(jié)合DCNN的話漩绵,至少“看起來”是一個(gè)利用學(xué)到的知識(shí)或者說經(jīng)驗(yàn)來縮小選擇范圍的過程贱案,這點(diǎn)的確是我們?nèi)私?jīng)常做的事。
因此止吐,這次阿爾法狗的DCNN+MCTS宝踪,前者用于學(xué)習(xí),后者用于決斷碍扔,看起來是一種很好的組合瘩燥。
其工作原理,便是通過分析大量的棋譜來抽象出圍棋背后的規(guī)律性的東西不同,再在決策過程中利用這些知識(shí)不斷對(duì)可選步驟做出篩選厉膀,通過隨機(jī)嘗試來分析最可能的下一手,并最終完成“思考”二拐。
這一過程與人是相似與接近的服鹅,所以說是在“智慧地思考”,大概也不能說斷無可能百新。
而這個(gè)過程與以往比如擊敗國(guó)際象棋世界冠軍的深藍(lán)相比企软,最大的不同在于深藍(lán)所用的如果我沒記錯(cuò)的話,更類似于對(duì)所有對(duì)一大類對(duì)手可能使用的結(jié)果及其應(yīng)對(duì)的暴力窮舉饭望,而這點(diǎn)在這里一方面完全做不到仗哨,另一方面也太原始聚蝶。這里可以說是一個(gè)模擬學(xué)習(xí)與思考的過程,雖然算力依然很重要藻治,但遠(yuǎn)不是暴力窮舉那么簡(jiǎn)單粗暴地只靠算力碘勉。
這里個(gè)人有所疑惑的,就是前面所說的桩卵,分解后的局部學(xué)習(xí)是否可以融匯成整體性的學(xué)習(xí)验靡?以及它到底學(xué)到的是什么?
后者比較形而上了……
還有一點(diǎn)雏节,和學(xué)習(xí)的分解相同胜嗓,作為決策的部分是否也可以將目標(biāo)進(jìn)行分解?將贏棋這個(gè)最終大目標(biāo)分解為一系列的小目標(biāo)钩乍,比如取勢(shì)辞州,取實(shí)地,然后最后才是獲勝寥粹。
有人說阿爾法狗前段下得沒有后段好变过,是否也有可能就是因?yàn)槟繕?biāo)一直都是贏棋從而前期算力不夠呢?那么分解出前期目標(biāo)后是否就能解決這個(gè)問題呢涝涤?
對(duì)比的一個(gè)接近中文房間式的質(zhì)疑媚狰,就是即便這臺(tái)機(jī)器真的在行為上與下圍棋的人無異,它又是否真的學(xué)會(huì)了下棋呢阔拳?哪一堆網(wǎng)絡(luò)結(jié)構(gòu)真正在控制下棋呢崭孤?答案恐怕是沒有,整個(gè)網(wǎng)絡(luò)是一個(gè)完整的個(gè)體糊肠,這個(gè)個(gè)體在下棋辨宠,而不是它的某個(gè)局部。
而問一個(gè)個(gè)體到底是不是真的在下棋货裹,等于在問李世石他是不是真的知道自己在下棋嗤形,有點(diǎn)無聊了。
而泪酱,對(duì)于人類來說派殷,也不用太沮喪——這倒不是說因?yàn)榘柗ü愤€沒戰(zhàn)勝李世石还最,而是墓阀,有一點(diǎn)不知道身為人類的你發(fā)現(xiàn)沒有,整個(gè)DCNN+MCTS拓轻,模擬了學(xué)習(xí)與應(yīng)對(duì)斯撮,但人或者說動(dòng)物有一個(gè)很特殊的行為它并沒有模擬,那就是創(chuàng)新扶叉。
阿爾法狗可以通過學(xué)習(xí)圍棋來分析局面思考后手勿锅,但并沒有那種根本性的創(chuàng)造力帕膜,以前目前個(gè)人沒看到。因此溢十,假如說垮刹,人們創(chuàng)造一種阿爾法狗所學(xué)過的幾萬張棋譜之外的全新的棋路,阿爾法狗是否還能判斷成功了张弛?
這就牽扯到CNN那段的第一問了:如果阿爾法狗是真的學(xué)會(huì)了什么是圍棋荒典,那么無論人如何創(chuàng)新棋路,圍棋還是圍棋吞鸭,估計(jì)沒戲寺董。但如果阿爾法狗只是將萬億的手勁定勢(shì)布局拿來用于分析預(yù)測(cè),那估計(jì)吃癟的是它刻剥。
以前DCNN+MCTS遮咖,不像有創(chuàng)造力的算法——當(dāng)然對(duì)比我只是半吊子,不是專家造虏,說不定其實(shí)已經(jīng)有創(chuàng)造力了只是我還沒理解御吞。
最后扯一下量子計(jì)算機(jī)——
在MCTS的隨機(jī)選擇過程中,原則上可以用量子計(jì)算機(jī)來優(yōu)化漓藕,而且可以做成一個(gè)只處理特定功能的量子計(jì)算模組魄藕,就好比谷歌的D-WAVE就只能做量子退火算法,原則上可以做一個(gè)專門只做MCTS的量子計(jì)算框架撵术,那樣估計(jì)會(huì)出一些更逆天的結(jié)果來背率。
所以,當(dāng)谷歌的阿爾法狗遇上自家的帝波嫩与,會(huì)發(fā)生什么呢寝姿?
非死不可要迎頭趕上啊划滋!
本文遵守創(chuàng)作共享CC BY-NC-SA 4.0協(xié)議
通過本協(xié)議饵筑,您可以分享并修改本文內(nèi)容,只要你遵守以下授權(quán)條款規(guī)定:姓名標(biāo)示 处坪、非商業(yè)性根资、相同方式分享。
具體內(nèi)容請(qǐng)查閱上述協(xié)議聲明同窘。
本文禁止一切紙媒玄帕,即印刷于紙張之上的一切組織,包括但不限于轉(zhuǎn)載想邦、摘編的任何應(yīng)用和衍生裤纹。網(wǎng)絡(luò)平臺(tái)如需轉(zhuǎn)載必須與本人聯(lián)系確認(rèn)。
如果喜歡簡(jiǎn)書丧没,想要下載簡(jiǎn)書App的話鹰椒,輕戳這里~~
私人推薦訂閱專題:《有意思的文章》锡移、《嚴(yán)肅碼匠圈》