強(qiáng)化學(xué)習(xí)之蒙特卡羅法

滴柬采!小李久違上線了~原來這周要寫個(gè)年終總結(jié)的…上周比完賽 喪到現(xiàn)在似乎情緒還是不好就拖到下周吧…補(bǔ)一個(gè)強(qiáng)化學(xué)習(xí)的知識(shí)魂务。
——————

蒙特卡羅

基本思想

蒙特卡羅方法又叫統(tǒng)計(jì)模擬方法,它使用隨機(jī)數(shù)(或偽隨機(jī)數(shù))來解決計(jì)算的問題,是以概率為基礎(chǔ)的方法。

簡(jiǎn)單的例子:
假設(shè)我們需要計(jì)算一個(gè)不規(guī)則圖形的面積蹋半,那么圖形的不規(guī)則程度和分析性計(jì)算(比如積分)的復(fù)雜程度是成正比的。采用蒙特卡羅方法是怎么計(jì)算的呢充坑?
首先你把圖形放到一個(gè)已知面積的方框內(nèi)减江,然后假想你有一些豆子染突,把豆子均勻地朝這個(gè)方框內(nèi)撒,之后數(shù)這個(gè)圖形之中有多少顆豆子辈灼,再根據(jù)圖形內(nèi)外豆子的比例來計(jì)算面積份企。當(dāng)你的豆子越小,撒的越多的時(shí)候茵休,結(jié)果就越精確薪棒。

上述的思想是一種通過采樣近似求解問題的方法手蝎,在強(qiáng)化學(xué)習(xí)里面的蒙特卡羅的采樣思路也大體如此榕莺。下面來看一下在強(qiáng)化學(xué)習(xí)它如何采樣?

蒙特卡羅法通過采樣若干經(jīng)歷完整的狀態(tài)序列(episode)來估計(jì)狀態(tài)的真實(shí)價(jià)值棵介。所謂的經(jīng)歷完整钉鸯,就是這個(gè)序列必須是達(dá)到終點(diǎn)的。
比如下棋問題分出輸贏邮辽,駕車問題成功到達(dá)終點(diǎn)或者失敗唠雕。有了很多組這樣經(jīng)歷完整的狀態(tài)序列,我們就可以來近似的估計(jì)狀態(tài)價(jià)值吨述,進(jìn)而求解預(yù)測(cè)和控制問題了岩睁。

區(qū)別比較

VS 強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)規(guī)劃
在動(dòng)態(tài)規(guī)劃中,會(huì)假設(shè)智能體已經(jīng)知道關(guān)于該環(huán)境的所有信息揣云,即完全了解 MDP(馬爾可夫決策過程)捕儒,而不需要和環(huán)境互動(dòng)后才知道
所以智能體知道該環(huán)境是如何決定下一狀態(tài)以及如何決定獎(jiǎng)勵(lì)的邓夕。動(dòng)態(tài)規(guī)劃所要解決的問題就是智能體知道了環(huán)境的所有信息后刘莹,如何利用這些信息找出最優(yōu)策略。
然而焚刚,蒙特卡羅法点弯,智能體是不知道環(huán)境的動(dòng)態(tài)信息的,需要和環(huán)境進(jìn)行一系列的互動(dòng)后才了解矿咕。它不需要對(duì)環(huán)境有完整的知識(shí)抢肛,僅僅需要經(jīng)驗(yàn)就可以求解最優(yōu)策略,這些經(jīng)驗(yàn)可以在線獲得或者根據(jù)某種模擬機(jī)制獲得碳柱。
故雌团,準(zhǔn)確的來說,動(dòng)態(tài)規(guī)劃可以是一種有模型的學(xué)習(xí)士聪,而蒙特卡羅是基于采樣的模型無關(guān)的學(xué)習(xí)锦援。

蒙特卡羅法→預(yù)測(cè)問題

預(yù)測(cè):狀態(tài)值、預(yù)測(cè)值
智能體與環(huán)境進(jìn)行一系列互動(dòng)的過程中剥悟,會(huì)有一系列的狀態(tài)灵寺,包括動(dòng)作和獎(jiǎng)勵(lì)(反饋)曼库。此處重點(diǎn)探討階段性任務(wù),即智能體在時(shí)間 T 遇到最終狀態(tài)時(shí)略板,互動(dòng)結(jié)束毁枯。在任何階段,智能體的目標(biāo)都是最大化期望積累獎(jiǎng)勵(lì)叮称。

在給定一個(gè)策略后种玛,智能體如何估算該策略的狀態(tài)值和動(dòng)作值?有兩種方式:
1.離線策略方法(Off-Policy Method):
用一個(gè)策略進(jìn)行評(píng)估瓤檐,用另一個(gè)策略來與環(huán)境進(jìn)行互動(dòng)赂韵。
2.異同策略方法(On-Policy Method):
智能體通過某個(gè)策略與環(huán)境進(jìn)行互動(dòng),并計(jì)算該策略的值函數(shù)挠蛉。

狀態(tài)值
在每個(gè)階段中祭示,分別計(jì)算出現(xiàn)某一狀態(tài)(一個(gè)階段中只出現(xiàn)一次)后的(折扣)回報(bào),最后基于所有階段取均值谴古。該算法將狀態(tài)值定義為某一狀態(tài)之后的預(yù)期回報(bào)质涛。
如果在一個(gè)階段中,一個(gè)狀態(tài)出現(xiàn)多次掰担,此時(shí)有兩種處理方法:
1.對(duì)所有階段中該狀態(tài)的首次經(jīng)歷的回報(bào)取平均值
(first MC methods)
2.對(duì)所有階段中該狀態(tài)的所有經(jīng)歷之后的回報(bào)取平均值
(every-visit MC methods)
舉個(gè)例子:這里汇陆,我們考慮first MC methods,即在一個(gè)episode內(nèi)带饱,我們只記錄s的第一次訪問毡代,并對(duì)它取平均回報(bào)
現(xiàn)在我們假設(shè)有如下一些樣本纠炮,取折扣因子γ=1月趟,即直接計(jì)算累積回報(bào),則有

根據(jù)first MC methods恢口,對(duì)出現(xiàn)過狀態(tài)s的episode的累積回報(bào)取均值孝宗,有Vπ(s)≈ (2 + 1 – 5 + 4)/4 = 0.5
容易知道,當(dāng)我們經(jīng)過無窮多的episode后耕肩,Vπ(s)的估計(jì)值將收斂于其真實(shí)值因妇。
參考:Reinforcement Learning筆記(2)--動(dòng)態(tài)規(guī)劃與蒙特卡洛方法

動(dòng)作值
在每個(gè)階段中,先查看狀態(tài)動(dòng)作對(duì)的經(jīng)歷猿诸,然后計(jì)算每個(gè)狀態(tài)動(dòng)作對(duì)之后的回報(bào)婚被,再取平均值。如果在一個(gè)階段中梳虽,某一狀態(tài)動(dòng)作對(duì)出現(xiàn)多次址芯,則處理方法與上面一樣,分為只考慮首次經(jīng)歷和考慮所有經(jīng)歷。

蒙特卡羅法→控制問題(策略改進(jìn))

前面我們講到谷炸,我們通過一些樣本來估計(jì)動(dòng)作值函數(shù)Q和狀態(tài)值函數(shù)V北专,并且在未來執(zhí)行估值最大的動(dòng)作。
這里就存在問題旬陡,假設(shè)在某個(gè)確定狀態(tài)s0下拓颓,能執(zhí)行a0, a1, a2這三個(gè)動(dòng)作,如果智能體已估計(jì)了兩個(gè)Q函數(shù)值描孟,如Q(s0,a0), Q(s0,a1)驶睦,Q(s0,a0)>Q(s0,a1),那么它在未來將只會(huì)執(zhí)行一個(gè)確定的動(dòng)作a0匿醒。
這樣我們就無法更新Q(s0,a1)的估值和獲得Q(s0,a2)的估值了场航,無法保證Q(s0,a0)就是s0下最大的Q函數(shù)。
為了解決這個(gè)問題青抛,我們需要對(duì)策略進(jìn)行改進(jìn)旗闽。和動(dòng)態(tài)規(guī)劃對(duì)比酬核,動(dòng)態(tài)規(guī)劃中的更新策略是通過最大化動(dòng)作值函數(shù)獲得的蜜另,這種方法稱為貪婪策略。在蒙特卡洛方法中仍然使用貪婪策略的話嫡意,會(huì)使智能體很容易掉入眼前的陷阱中举瑰,而忽略其他最大化獎(jiǎng)勵(lì)的可能。所以要修改算法蔬螟,使得智能體能夠探究每種策略背后最大化獎(jiǎng)勵(lì)的可能此迅。
這時(shí)候的方法是采用隨機(jī)性策略,隨機(jī)策略中以高概率選擇貪婪策略旧巾,低概率選擇某個(gè)非貪婪策略耸序,即不再始終采用貪婪策略
該算法稱為? 貪婪策略鲁猩。? 的范圍為 [0,1]
ε-greedy policy(?- 貪婪策略)坎怪,即在所有的狀態(tài)下,用1-ε的概率來執(zhí)行當(dāng)前的最優(yōu)動(dòng)作a0廓握,ε的概率來執(zhí)行其他動(dòng)作a1, a2搅窿。這樣我們就可以獲得所有動(dòng)作的估計(jì)值,然后通過慢慢減少ε值隙券,最終使算法收斂男应,并得到最優(yōu)策略。

具體的流程

以下版本用的是every-visit,即個(gè)狀態(tài)序列中每次出現(xiàn)的相同狀態(tài)娱仔,都會(huì)計(jì)算對(duì)應(yīng)的收獲值沐飘。

友情參考:強(qiáng)化學(xué)習(xí)(四)用蒙特卡羅法(MC)求解

總結(jié)
蒙特卡羅法可以避免動(dòng)態(tài)規(guī)劃求解過于復(fù)雜,同時(shí)還可以不事先知道環(huán)境轉(zhuǎn)化模型,因此可以用于海量數(shù)據(jù)和復(fù)雜模型耐朴。
但是它也有自己的缺點(diǎn)众弓,這就是它每次采樣都需要一個(gè)完整的狀態(tài)序列。如果我們沒有完整的狀態(tài)序列隔箍,或者很難拿到較多的完整的狀態(tài)序列谓娃。


Ending 吃飯啦!周末愉快蜒滩!
友情鏈接: 增強(qiáng)學(xué)習(xí)(四) ----- 蒙特卡羅方法(Monte Carlo Methods)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末滨达,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子俯艰,更是在濱河造成了極大的恐慌捡遍,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件竹握,死亡現(xiàn)場(chǎng)離奇詭異画株,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)啦辐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門谓传,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人芹关,你說我怎么就攤上這事续挟。” “怎么了侥衬?”我有些...
    開封第一講書人閱讀 165,747評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵诗祸,是天一觀的道長。 經(jīng)常有香客問我轴总,道長直颅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,939評(píng)論 1 295
  • 正文 為了忘掉前任怀樟,我火速辦了婚禮功偿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘漂佩。我一直安慰自己脖含,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評(píng)論 6 392
  • 文/花漫 我一把揭開白布投蝉。 她就那樣靜靜地躺著养葵,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瘩缆。 梳的紋絲不亂的頭發(fā)上关拒,一...
    開封第一講書人閱讀 51,737評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼着绊。 笑死谐算,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的归露。 我是一名探鬼主播洲脂,決...
    沈念sama閱讀 40,448評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼剧包!你這毒婦竟也來了恐锦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤疆液,失蹤者是張志新(化名)和其女友劉穎一铅,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體堕油,經(jīng)...
    沈念sama閱讀 45,834評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡潘飘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了掉缺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卜录。...
    茶點(diǎn)故事閱讀 40,133評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖攀圈,靈堂內(nèi)的尸體忽然破棺而出暴凑,到底是詐尸還是另有隱情峦甩,我是刑警寧澤赘来,帶...
    沈念sama閱讀 35,815評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站凯傲,受9級(jí)特大地震影響犬辰,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜冰单,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評(píng)論 3 331
  • 文/蒙蒙 一幌缝、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧诫欠,春花似錦涵卵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至被廓,卻和暖如春坏晦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評(píng)論 1 272
  • 我被黑心中介騙來泰國打工昆婿, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留球碉,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,398評(píng)論 3 373
  • 正文 我出身青樓仓蛆,卻偏偏與公主長得像睁冬,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子看疙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 一. 增強(qiáng)學(xué)習(xí)簡(jiǎn)介 1.1 什么是增強(qiáng)學(xué)習(xí)痴突? 機(jī)器學(xué)習(xí)的算法可以分為三類:監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)狼荞。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,168評(píng)論 0 25
  • 由于動(dòng)態(tài)規(guī)劃法需要在每一次回溯更新某一個(gè)狀態(tài)的價(jià)值時(shí)辽装,回溯到該狀態(tài)的所有可能的后續(xù)狀態(tài)。導(dǎo)致對(duì)于復(fù)雜問題計(jì)算量很大...
    猿學(xué)閱讀 819評(píng)論 0 0
  • 0 Abstract 先介紹強(qiáng)化學(xué)習(xí)前沿和背景相味,再介紹強(qiáng)化學(xué)習(xí)基本設(shè)置和定義拾积,再介紹強(qiáng)化學(xué)習(xí)通用解決框架和方案,然...
    左心Chris閱讀 971評(píng)論 0 2
  • 上篇說到丰涉,從底層跨入中產(chǎn)之后再想晉級(jí)拓巧,就得換一套模式了。 房地產(chǎn)算得上是一個(gè)為數(shù)不多且普通人也可以搭上的車一死。 當(dāng)我...
    幸存指南閱讀 250評(píng)論 0 1
  • 十月入秋以后肛度,宜春的雨變得纏綿起來,伴隨著瑟瑟的秋風(fēng)投慈,總是冷得令人發(fā)顫承耿。 盡管再不情愿,也只能揉著惺忪的睡眼從床上...
    jzy409閱讀 191評(píng)論 0 0