關(guān)于機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一門數(shù)學(xué),事實(shí)上我在大二并沒有繼續(xù)深入學(xué)習(xí)這方面的打算阿纤,看的越多句灌,越意識(shí)到自己在數(shù)學(xué)方面的不足。
既然是介紹欠拾,那么首先胰锌,得說一下機(jī)器學(xué)習(xí)的好處。嗯藐窄,可以裝逼资昧。
你可以快樂的甩出一堆名詞—— 樸素貝葉斯算法,貝葉斯統(tǒng)計(jì)正則化荆忍,諸如此類格带。
現(xiàn)在很火的alpha??,也是機(jī)器學(xué)習(xí)的實(shí)用案例嘛刹枉。
但是叽唱,這也是一個(gè)大坑,這個(gè)東西的充分不必要條件有嘶卧,傅立葉變換尔觉,概率論(這個(gè)我不會(huì)),一些線性或非線性的運(yùn)算等等芥吟。
嗯侦铜,歡迎跳坑专甩。
那么我就用alpha??做例子好了,它通過線性訓(xùn)練局域特征钉稍,產(chǎn)生一個(gè)快速走棋的策略涤躲,通過深度訓(xùn)練,產(chǎn)生另一個(gè)策略贡未,然后自我對(duì)弈种樱,大規(guī)模訓(xùn)練。對(duì)弈時(shí)則使用訓(xùn)練好的網(wǎng)路判斷局部每一個(gè)點(diǎn)獲勝概率俊卤。
具體來說嫩挤,離線學(xué)習(xí)可以分為三個(gè)階段:
第一階段:利用3萬多幅專業(yè)棋手對(duì)局的棋譜來訓(xùn)練兩個(gè)網(wǎng)絡(luò)。一個(gè)是基于全局特征和深度卷積網(wǎng)絡(luò)(CNN)訓(xùn)練出來的策略網(wǎng)絡(luò)(Policy Network)消恍。其主要作用是給定當(dāng)前盤面狀態(tài)作為輸入岂昭,輸出下一步棋在棋盤其它空地上的落子概率。另一個(gè)是利用局部特征和線性模型訓(xùn)練出來的快速走棋策略(Rollout Policy)狠怨。策略網(wǎng)絡(luò)速度較慢约啊,但精度較高;快速走棋策略反之。
第二階段:利用第t輪的策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對(duì)弈佣赖,利用增強(qiáng)式學(xué)習(xí)來修正第t輪的策略網(wǎng)絡(luò)的參數(shù)恰矩,最終得到增強(qiáng)的策略網(wǎng)絡(luò)。這部分被很多“磚”家極大的鼓吹憎蛤,但實(shí)際上應(yīng)該存在理論上的瓶頸(提升能力有限)外傅。這就好比2個(gè)6歲的小孩不斷對(duì)弈,其水平就會(huì)達(dá)到職業(yè)9段?
第三階段:先利用普通的策略網(wǎng)絡(luò)來生成棋局的前U-1步(U是一個(gè)屬于[1, 450]的隨機(jī)變量)蹂午,然后利用隨機(jī)采樣來決定第U步的位置(這是為了增加棋的多樣性栏豺,防止過擬合)彬碱。隨后豆胸,利用增強(qiáng)的策略網(wǎng)絡(luò)來完成后面的自我對(duì)弈過程,直至棋局結(jié)束分出勝負(fù)巷疼。此后晚胡,第U步的盤面作為特征輸入,勝負(fù)作為label嚼沿,學(xué)習(xí)一個(gè)價(jià)值網(wǎng)絡(luò)(Value Network)估盘,用于判斷結(jié)果的輸贏概率。價(jià)值網(wǎng)絡(luò)其實(shí)是AlphaGo的一大創(chuàng)新骡尽,圍棋最為困難的地方在于很難根據(jù)當(dāng)前的局勢(shì)來判斷最后的結(jié)果遣妥,這點(diǎn)職業(yè)棋手也很難掌握。通過大量的自我對(duì)弈攀细,AlphaGo產(chǎn)生了3000萬盤棋局箫踩,用來訓(xùn)練價(jià)值網(wǎng)絡(luò)爱态。但由于圍棋的搜索空間太大,3000萬盤棋局也不能幫AlphaGo完全攻克這個(gè)問題境钟。
目前機(jī)器學(xué)習(xí)主要的應(yīng)用領(lǐng)域有锦担,計(jì)算機(jī)視覺,數(shù)據(jù)挖掘等慨削。
至于這次的課程洞渔,除了知道什么是機(jī)器學(xué)習(xí),你是學(xué)不到什么的缚态,嗯磁椒,認(rèn)真要學(xué)的話,請(qǐng)上網(wǎng)易云課堂玫芦,斯坦福大學(xué)公開課衷快,已經(jīng)有漢化了。