從一個想法到現(xiàn)在不斷的學習積累厦滤,過程雖然不快,但是發(fā)現(xiàn)對機器學習建立了初步概念歼狼,通過一個字一個字的閱讀和查資料理解相關內(nèi)容掏导,現(xiàn)在能看懂一些基本理論知識了,當一個相關AI應用出現(xiàn)時大概能分得清楚整體構(gòu)成是怎么回事羽峰,應用的能力范圍邊界在哪里趟咆。寫了這么多續(xù)集片段文章,其實是學習的同一篇參考文梅屉,在學習之初是沒看透這個文章所涉及的各方面知識值纱,但是并沒有似懂非懂的離去,而是一塊塊拆開逐步的理解琢磨推敲坯汤,才內(nèi)化了一部分相關理論知識虐唠。在此小結(jié)這段時間學習方法是否有效來鼓勵自己繼續(xù)前行探索成長。
接下來還需繼續(xù)不斷理解領悟惰聂,所以下面繼續(xù)學習參考文凿滤。
接上文繼續(xù)學習理解建模算法優(yōu)化改良。
之前提到走棋的路數(shù)太集中問題庶近,Aja Huang計算v(s)?的調(diào)整策略為:
開局先用P(s)走L步,有利于生成更多局面眷蚓,不過Aja Huang還是覺得局面不夠多樣鼻种,為了進一步擴大搜索空間,在L+1步時沙热,完全隨機一個a落子叉钥,記下這個狀態(tài) v(sL+1)罢缸,之后使用Pplus(s)進行對弈,直到結(jié)束時獲得結(jié)果r投队,如此不斷對弈枫疆,由于L也是一個隨機數(shù),我們可以得到敷鸦,開局息楔、中盤、官子等不同階段的很多局面s扒披,和這些局面對應的結(jié)果r值依,有了這些訓練樣本 ?s,r?,使用神經(jīng)網(wǎng)絡碟案,把最后一層改為回歸而非分類(這里不是用的分類愿险,而是用的回歸,擬合)价说,就得到了一個 v(s)?來輸出贏棋的概率辆亏。
總結(jié)惦费,強化學習的Pplus(s)主要是用來獲得v(s)?局部評估函數(shù)兵迅。表示的含義是在狀態(tài)s下,局面的優(yōu)劣程度薪贫,或者說此時的勝率是多少恍箭,v(s)?局部評估函數(shù)擁有在線下不斷自我進化的能力(這也是AlphaGo可以隨時間越來越強的最重要的部分)。
回顧下各參數(shù)符號意義:
P(s) 來自于人類下棋經(jīng)驗瞧省,MCTS 通過隨機性對弈輸贏尋找贏家扯夭,v(s) 判斷局勢提速過程。