問題:AlphaGo中的Monte-Carlo tree search是什么原理妻柒?
nature的《Mastering the Game of Go with Deep Neural Networks and Tree Search》 原文對(duì)蒙特卡洛查找樹(Monte-Carlo tree search)的描述:
Without any lookahead search, the neural networks play Go at the level of state-of-the-art Monte-Carlo tree search programs that simulate thousands of random games of self-play.
我舉個(gè)例子來側(cè)面描述一下這個(gè)邏輯:
假設(shè)現(xiàn)在有個(gè)不規(guī)則形狀A(yù)酌予,怎么統(tǒng)計(jì)這個(gè)形狀A(yù)的面積呢?
我用一個(gè)圓圈B住這個(gè)A苔巨,然后在B上面瘋狂的隨機(jī)打點(diǎn),打上一萬(wàn)個(gè)冒嫡。然后看有x個(gè)點(diǎn)落在了A上释液。那么A約值B*(x/10000)。
所以下棋邏輯差不多:
任意給定一個(gè)棋盤艰亮,我不知道這個(gè)棋盤上剩余哪個(gè)子一定能贏闭翩,但是我知道概率啊。
于是在y1這個(gè)落子上我接著下了一萬(wàn)局(先看別人怎么玩迄埃,再自己左右手互搏著玩)疗韵,統(tǒng)計(jì)一下勝利了x1次,于是y1子上贏面是x1/10000侄非。以此類推蕉汪,y2上的概率是x2/10000...好像yn贏面很大啊,我下yn吧逞怨。
所以者疤,雖然我不能窮盡所有可能性,但是每次我落的那個(gè)棋子都“可能”是最有機(jī)會(huì)贏的叠赦。
什么是棋感驹马?就是全盤看下來,好像這樣落子贏面更大一點(diǎn)除秀。
一步算一步的這么下著下著糯累,咦,我怎么就贏了册踩。
系列目錄:http://www.reibang.com/p/efd0d0b90ddf
字典匯總:http://www.reibang.com/p/6ff2604bbe6b
See you:)