Reinforcement Learning2

coursera by University of Alberta

Sample-based Learning Methods

Week 1

1怖亭、Monte Carlo 蒙特卡洛方法
使用 Dynamic Programming 的局限性在于,很多時(shí)候并不知道轉(zhuǎn)移概率 trainsition probability 棍矛,比如 Policy Evaluation 中,不知道 p(s',r|s,a) 隐圾,因此提出 Monte Carlo 方法端礼。此方法通過對大量隨機(jī)樣本的均值來進(jìn)行估值括饶。

通過對同一個(gè) state 大量收集樣本,取其均值作為 V(s) 的估計(jì)值恕洲。

image.png

2塔橡、Using Monte Carlo for Action Values
對于每個(gè) state-action paire 也可以使用 Monte Carlo 方法來進(jìn)行估計(jì)

為了防止某個(gè) action 永遠(yuǎn)不會(huì)被選擇到以至于沒有對其 state-action paire 進(jìn)行探索,提出了 exploring starts

image.png

這個(gè)指的是在初始 state-action paire 進(jìn)行隨機(jī)選擇霜第,之后根據(jù) policy Π 進(jìn)行選擇 action

3葛家、Using Monte Carlo methods for generalized policy iteration

image.png
image.png

4、Epsilon-soft policies
ε-Greedy policy ∈ε-Soft policy

ε-Soft policy 在每個(gè) state 當(dāng)中泌类,對每個(gè) action 都有非 0 概率值進(jìn)行執(zhí)行

exploring starts 方法可以找到最優(yōu)策略癞谒,但是在很多問題上沒有辦法使用

ε-Soft policy 不一定能找到最優(yōu)策略

image.png

5、on-policy & off_policy


image.png

off-policy 指的是 target policy 和 behavior policy 不一致的情況

image.png
image.png
image.png

on-policy 實(shí)際上是 off-policy 的特殊情況刃榨,即 target policy=behavior policy

6弹砚、Importance Sampling

image.png

Importance Sampling 指的是通過對另一個(gè)分布的采樣來估計(jì)本分布的期望值

image.png

x:從分布 b 中取的樣本
Π:需要估計(jì)期望的分布

image.png
image.png
image.png

7、Off-Policy Monte Carlo Prediction
主要方法是通過 b 分布的采樣來估計(jì) Π 分布的值

image.png

其中喇澡, Returns 從 b 分布中獲得的采樣

image.png

P(trajectory under Π/b ) :指的是在 Π/b 分布的情況下迅栅,路徑軌跡的概率

image.png
image.png
image.png
image.png

其中,W 就是 ρ

image.png

week 2

主要講了 TD learning 時(shí)差學(xué)習(xí)

1晴玖、Temporal Difference (TD) learning

image.png
image.png
2.png
4.png
image.png

TD 和 DP dynamic programming 區(qū)別是读存,DP 需要知道關(guān)于環(huán)境的轉(zhuǎn)移函數(shù),即需要知道從當(dāng)前 state action 的情況下呕屎,轉(zhuǎn)移到下一個(gè) state reward 的概率让簿;而 TD 不需要知道, TD 可以直接根據(jù)與環(huán)境的交互來估計(jì)

image.png

2秀睛、 TD learning & prediction learning & supervised learning
prediction learning 是對每一步做預(yù)測的學(xué)習(xí)方法尔当, TD learning 是其中的一個(gè)特例;但它不是 supervised learning , prediction learning 相當(dāng)于 unsupervised supervised learning

3椭迎、The advantages of temporal difference learning
TD DP MC 區(qū)別
① MC 只能在 episode 結(jié)束的時(shí)候?qū)?estimate of state 進(jìn)行更新锐帜,即只有在 episode 結(jié)束的時(shí)候才能學(xué)習(xí); TD 可以在 episode 每一步進(jìn)行更新畜号,即 online learning 在線學(xué)習(xí)
② DP 需要環(huán)境模型缴阎,以便根據(jù)當(dāng)前 state action 來推出下一個(gè) state reward ; 而 TD 模型不需要简软,只需要和環(huán)境進(jìn)行交互
③ TD 比 MC 收斂更快 蛮拔, TD 可以在線學(xué)習(xí)

4、 α 對 TD 影響
α 越接近 0 收斂越快痹升,誤差越大
α 越接近 1 收斂越慢建炫,誤差越小

week 3

1、Sarsa: GPI with TD

image.png

GPI 由兩部分組成: policy evaluation & policy improvement

image.png

在 Sarsa 中疼蛾,由 TD 方法估計(jì) V(s) state 值轉(zhuǎn)為估計(jì) Q(s,a) state-action paire 值 肛跌; 因此,必須要執(zhí)行到下一個(gè) state-action paire 才能更新參數(shù)据过,即 St At Rt+1 St+1 At+1 才能估計(jì)值

與 TD 對比

image.png

TD

2惋砂、Q learning

image.png

Q learning 可以直接學(xué)習(xí)到 Q* ,而不用在 policy evaluation & policy improvement 之間轉(zhuǎn)換

image.png

Saras 實(shí)際上是 Bellman equation 基于采樣方法的實(shí)現(xiàn) 绳锅;Sarsa 和 Q learning 主要區(qū)別在于使用的方程不同

image.png

Q learning 是 off policy : Target policy 是 optimal policy 西饵, behavior policy 是 ε-greedy policy

image.png
image.png

不理解

3、Expected Sarsa

image.png

可以認(rèn)為 Sarsa 通過大量樣本的學(xué)習(xí)鳞芙,使其值趨近于期望值眷柔,而 Expected Sarsa 直接根據(jù)期望公式得到其期望值
一般來說, Expected Sarsa 比 Sarsa 更穩(wěn)定原朝,方差更小驯嘱,但缺點(diǎn)是計(jì)算量更大,尤其在 action 很多的時(shí)候

Expected Sarsa 中喳坠, 當(dāng) Π 不必為 behavior policy 鞠评,這時(shí) Expected Sarsa 為 off policy learning

image.png

Expected Sarsa 中, 當(dāng) target policy Π 為 greedy 壕鹉,這時(shí) Expected Sarsa 為 Q learning剃幌,即 Q learning 為 Expected Sarsa 的一種特殊情況

4、 Sarsa & Q learning & Expected Sarsa

image.png

week 4

1晾浴、 Model

image.png

Model 指的是 agent 對環(huán)境的認(rèn)識
Planning 指的是 agent 根據(jù) Model 來改進(jìn)自己的 policy 负乡,一般 agent 可以通過使用 Model 來模擬經(jīng)驗(yàn),然后根據(jù)經(jīng)驗(yàn)來更新 policy 脊凰,這種方法可以減少 agent 與環(huán)境的直接交互抖棘,提高與環(huán)境交互經(jīng)驗(yàn)的利用率

2、 Sample model & Distribution model
Sample model 直接通過采樣來獲得估計(jì),比 Distribution model 更加壓縮
Distribution model 可以對所有可能出現(xiàn)的情況進(jìn)行枚舉切省,并且通過計(jì)算每種情況的概率都是準(zhǔn)確的最岗,不是采樣估計(jì)的,缺點(diǎn)是需要存儲的信息多

3数尿、 Planning

image.png
image.png

planning 通過對 model 的采樣仑性,模擬出 agent 和環(huán)境的交互,進(jìn)而更新 policy

image.png

Planning 的好處是在 agent 與環(huán)境的兩次交互之間可以進(jìn)行多次的更新右蹦,即在兩個(gè) step 之間進(jìn)行多次的 planning ,可以減少 agent 與環(huán)境交互的次數(shù)

4歼捐、 The Dyna Architecture

image.png

The Dyna Architecture 包含兩部分一是 agent 直接和環(huán)境進(jìn)行交互何陆,更新 policy ,二是在和環(huán)境的交互過程中學(xué)習(xí) model 豹储,使用 model experience 來更新 policy

在 Q learning 中贷盲,每個(gè) episode 只能更新一個(gè) state ,但是在 The Dyna Architecture 中剥扣,一個(gè) episode 可以更新 agent 在 episode 中走過的 state

5巩剖、The Dyna Algorithm

image.png

Dyna & Q-learning 比較, Dyna 比 Q-learning 對樣本的利用率要高得多钠怯,一般每個(gè) step 的 planning 越多對樣本的利用率越高

在 Tabular Dyna-Q 當(dāng)中佳魔, S ← random previously observed state 很多時(shí)候都是無效的,無法對 Q 進(jìn)行有效的更新晦炊,因此提出

image.png

P : 優(yōu)先級排序的值
PQueue : 優(yōu)先級隊(duì)列

基本思想 : 當(dāng)前 S , A 由 Model(S,A) 得到 R , S' 更新 Q 值 鞠鲜;計(jì)算每個(gè)能夠到達(dá) S , A 的前一個(gè)\overline{\text{S}} , \overline{\text{A}} , 若其 P 值夠大,則將其加入隊(duì)列 PQueue

6断国、What if the model is inaccurate?

image.png

model 不準(zhǔn)確有兩種情況贤姆,一是 agent 沒有對所有的 state 進(jìn)行探索, model 不完整稳衬,二是 environment 發(fā)生變化而 agent 沒有探索到

image.png

為了解決隨著時(shí)間變化環(huán)境也隨之變化的情況霞捡,將原來的 reward 變?yōu)?New reward → Bonus ,當(dāng)某一 state 長時(shí)間沒有被訪問的時(shí)候 Bonus 就會(huì)增加薄疚,以防止某一 state 長時(shí)間沒有訪問的情況

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末碧信,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子输涕,更是在濱河造成了極大的恐慌音婶,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異陨献,居然都是意外死亡讲仰,警方通過查閱死者的電腦和手機(jī)牵祟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進(jìn)店門碴卧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來弱卡,“玉大人,你說我怎么就攤上這事住册∩舨” “怎么了?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵荧飞,是天一觀的道長凡人。 經(jīng)常有香客問我,道長叹阔,這世上最難降的妖魔是什么挠轴? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮耳幢,結(jié)果婚禮上岸晦,老公的妹妹穿的比我還像新娘。我一直安慰自己睛藻,他們只是感情好启上,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著店印,像睡著了一般冈在。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吱窝,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天讥邻,我揣著相機(jī)與錄音,去河邊找鬼院峡。 笑死兴使,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的照激。 我是一名探鬼主播发魄,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼俩垃!你這毒婦竟也來了励幼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤口柳,失蹤者是張志新(化名)和其女友劉穎苹粟,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體跃闹,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡嵌削,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年毛好,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片苛秕。...
    茶點(diǎn)故事閱讀 39,711評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡肌访,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出艇劫,到底是詐尸還是另有隱情吼驶,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布店煞,位于F島的核電站蟹演,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏顷蟀。R本人自食惡果不足惜轨帜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望衩椒。 院中可真熱鬧,春花似錦哮兰、人聲如沸毛萌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽阁将。三九已至,卻和暖如春右遭,著一層夾襖步出監(jiān)牢的瞬間做盅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工窘哈, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吹榴,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓滚婉,卻偏偏與公主長得像图筹,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子让腹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評論 2 353