上次介紹的交叉熵方法幽七,交叉熵方法雖然非常有效,但是也有一些缺點(diǎn)溅呢。
例如澡屡,如果你只嘗試100次的話,那么可能會(huì)有一些稀少的情況咐旧,在這100次中只出現(xiàn)那么一兩次驶鹉。這樣的話,會(huì)得到一個(gè)非常奇怪的概率分布铣墨,可能會(huì)一直重復(fù)某一個(gè)行動(dòng)室埋。也許你可以通過(guò)增加實(shí)驗(yàn)的次數(shù)來(lái)改進(jìn)這個(gè)問(wèn)題,比如說(shuō)100次增加到10000次伊约,但是如果騎自行車摔倒1萬(wàn)次的話姚淆,那會(huì)非常疼。
這時(shí)可以用 smoothing
要做的就是在正規(guī)化之前給所有的概率都加一些小的正數(shù)屡律,這樣就永遠(yuǎn)不會(huì)得到概率為零的數(shù)腌逢。所以,即使某個(gè)狀態(tài)可能只達(dá)到過(guò)一次超埋,也仍然能采取其他的 action搏讶。
另外交叉熵方法在隨機(jī)過(guò)程中應(yīng)用的話會(huì)變得有點(diǎn)復(fù)雜。
當(dāng)一個(gè)環(huán)境有一些隨機(jī)性時(shí)霍殴,例如我們?cè)谝粋€(gè)賭場(chǎng)中媒惕,可能有兩種行為。一種是可以離開(kāi)賭場(chǎng)来庭,一種是走到最近的老虎機(jī)妒蔚,投進(jìn)去一個(gè)硬幣,拉動(dòng)推桿巾腕,然后多數(shù)情況下都會(huì)輸?shù)粢坏睹婢Γ行r(shí)候你也會(huì)贏三刀。當(dāng)重復(fù)這個(gè)游戲一百次時(shí)尊搬,我們可能會(huì)輸?shù)粢话俣嗟度灿锌赡芎苄疫\(yùn)地選擇了離開(kāi)賭場(chǎng),也有可能幸運(yùn)地贏得了錢佛寿。
那么在這種情況下幌墓,如果在其中選擇25次最好的結(jié)果但壮,很容易是有 biase 的,因?yàn)樗鼤?huì)偏向幸運(yùn)的贏錢的情況常侣。當(dāng)它贏三刀后蜡饵,它就會(huì)一直拉動(dòng)這個(gè)推桿,而直到輸?shù)羲械腻X胳施。
交叉熵方法雖然可以應(yīng)用到很多東西上溯祸,從機(jī)器人到優(yōu)化廣告,到推薦系統(tǒng)舞肆,到機(jī)器翻譯焦辅,到金融等幾乎任何事情,但比針對(duì)特定目的方法表現(xiàn)的要差一些椿胯。
交叉熵方法還有一個(gè)問(wèn)題是筷登,它在騎自行車這種可能只有十個(gè)state和四個(gè)action的小問(wèn)題上表現(xiàn)還算足夠,但還不能應(yīng)用到數(shù)據(jù)量較大的問(wèn)題中去哩盲。比如操作一個(gè)自動(dòng)駕駛汽車前方,或者玩游戲,狀態(tài)空間可能不是離散的廉油,而是連續(xù)的惠险,是無(wú)法用技術(shù)來(lái)記錄的,或者考慮的是攝像頭的輸入娱两,那時(shí)圖片的數(shù)量是非常大的莺匠,這時(shí)不能再存儲(chǔ)一個(gè)state-action的概率表格了。
學(xué)習(xí)資料:
Practical Reinforcement Learning
推薦閱讀?歷史技術(shù)博文鏈接匯總
http://www.reibang.com/p/28f02bb59fe5
也許可以找到你想要的:
[入門問(wèn)題][TensorFlow][深度學(xué)習(xí)][強(qiáng)化學(xué)習(xí)][神經(jīng)網(wǎng)絡(luò)][機(jī)器學(xué)習(xí)][自然語(yǔ)言處理][聊天機(jī)器人]
Hello World 十兢!
This is?不會(huì)停的蝸牛?Alice 趣竣!
?? 要開(kāi)始連載強(qiáng)化學(xué)習(xí)系列啦!
今天開(kāi)始我們一起來(lái)每天 2 分鐘旱物,get 強(qiáng)化學(xué)習(xí)的一個(gè)小知識(shí)吧遥缕!