David Silver Lecture 4 (1)(Model-Free Prediction) 講解

1. 前言:

這些博客是根據(jù)david silver 的深度強化學(xué)習(xí)內(nèi)容,結(jié)合自己的理解以及學(xué)習(xí)而寫成灾前,轉(zhuǎn)載請注明防症。前三節(jié)的課程是關(guān)于已知模型的MDP,在后期會補哎甲,但通常來講蔫敲,基于已知模型的MDP的計算比較簡單,同時在實際中確切的模型也比較難以獲知炭玫,所以我感覺比較難解決實際問題奈嘿。
在本節(jié)課程,我們主要關(guān)注兩點:
1)無模型函數(shù)的預(yù)測吞加;
2)unknown MDP情況下的值函數(shù)的預(yù)估裙犹。

image.png

[1]

2. 蒙特卡洛強化學(xué)習(xí)方法(Monte-Carlo Reinforcement Learning, MC RL):

MC RL 的特點:

  1. MC 方法直接從episodes of experience 中學(xué)習(xí)。
  2. MC 無需知道MDP 的狀態(tài)轉(zhuǎn)移矩陣以及收益函數(shù)衔憨。
  3. MC 從完整的episodes 中學(xué)習(xí)叶圃,沒有bootstraping。
  4. MC 的一直最本質(zhì)的想法就是:多次采樣取平均践图,即:value = mean return掺冠。
  5. 注意點:MC適用于episodic 的MDP模型,所有的episodes 一定要結(jié)束码党。

[2]

(1). 通過MC 方法來進行策略評估 (Policy Evaluation)

目標(biāo):
已知策略policy{\pi}德崭, 去求v_{\pi}斥黑。
回憶:總的折扣獎賞(total discounted reward)可以表示為:

G_t = R_{t+1}+\gamma R_{t+1} + \gamma^2 R_{t+1}+\cdots +\gamma^{T-1} R_{T}

而在策略{\pi}的指導(dǎo)下,對于狀態(tài)s我們的值函數(shù)的定義可以表示為:
v_{\pi}(s) = \mathrm{E}_{\pi}[G_t |S_t=s]眉厨。

MC策略評估的做法就是利用經(jīng)驗均值(多次采樣取平均)來代替期望均值锌奴。

(2). 首訪MC策略評估和每訪MC策略評估

對于 首訪MC策略評估:大體的想法如下:


image.png

大體的思想是:如果我們要評估狀態(tài)s的值函數(shù)v_{\pi}(s), 我們需要做的是對于每個episode,從第一次遇到狀態(tài)s開始缺猛,記錄下來G_t,并更新S(s)=S(s)+G_t,并將計數(shù)器N(s)=N(s)+1缨叫。經(jīng)驗值V(s) = S(s)/ N(s)。 根據(jù)大數(shù)定理荔燎,經(jīng)驗值趨近于v_{\pi}(s), 即V(s)\rightarrow v_{\pi}(s).

對于每訪MC策略評估耻姥,大體思想如下:


image.png

大體的思想是:如果我們要評估狀態(tài)s的值函數(shù)v_{\pi}(s),在每一次episode中有咨,沒訪問一次狀態(tài)t, 那么我們就更新一次計數(shù)器N(s)=N(s)+1以及S(s)=S(s)+G_t琐簇,這也意味著在一次episode中,N(s)S(s)可能被更新多次座享。實際上婉商,有理論證明首訪MC策略評估 和 每訪MC策略評估最終對策略的評估結(jié)果(即經(jīng)驗均值V(s))是相同的,感興趣的同學(xué)可以自己查閱資料渣叛。

(3). 均值的遞增式

序列x_1, x_2, \cdots的均值實際上可以求解如下:

image.png

后面的一項可以理解為根據(jù)第k次的數(shù)據(jù)丈秩,對之前經(jīng)驗均值所做的一個調(diào)整,而調(diào)整的權(quán)重是1/k淳衙。

由于MC的思路也可以理解為是多個序列求經(jīng)驗均值蘑秽,所以也同樣可以表達成如上的形式:


image.png

注意對于權(quán)重1/N(s),實際是指到此時為止箫攀,之前所有episode中遇到的狀態(tài)s的情況都考慮進來了肠牲,而實際上對于非靜態(tài)的系統(tǒng),很久之前的經(jīng)驗對于我們來講已經(jīng)沒有意義靴跛,我們著需要關(guān)注最近發(fā)生的即可缀雳,所以又有了下式:

image.png

在上式中,在每一次更新V(s)時梢睛,最近一次得到的總的折扣獎賞G_t對于均值的調(diào)整總是\alpha肥印,我個人理解是將上式換作如下寫法可能對于作者的本意更好理解,上式可以寫成如下:
V(S_t) = (1-\alpha)V(S_t) + \alpha G_t
通過調(diào)整\alpha绝葡,我們可以將注意力更多的集中在最近一次的采樣值G_t上竖独,而忽略之前的采樣值的影響。

3. 時域差分法(Temporal-Difference Learning)

TD法 的特點:

  1. TD 方法直接從episodes of experience 中學(xué)習(xí)挤牛。
  2. TD 無需知道MDP 的狀態(tài)轉(zhuǎn)移矩陣以及收益函數(shù)。
  3. TD 可以從不完整的episodes 中學(xué)習(xí)种蘸,利用了bootstraping墓赴。
  4. MC 的一直最本質(zhì)的想法就是:每一步都根據(jù)已有的經(jīng)驗動態(tài)的調(diào)整值函數(shù)竞膳,對策略進行評估。
  5. 自己理解:MC適用于episodic 的MDP模型诫硕,所有的episodes 一定要結(jié)束坦辟。而TD不一定要episodes結(jié)束,而是隨時對策略的評估進行更新章办。

最簡單的TD(0)的更新公式如下:


image.png

注意在上式中锉走,我們對于狀態(tài)S_t=s的更新,實際上是利用了\delta_t = R_{t+1}+\gamma V(S_{t+1}=s')-V(S_t=s)
其中R_{t+1}是真實環(huán)境中的值藕届,而V(s), V(s')實際上我們一開始都會給一個猜測值(最簡單的就是V(s) = 0, s \in \mathit{S}挪蹭,\mathit{S}表示狀態(tài)空間),之后利用上面的公式不斷進行迭代更新休偶。所以David Silver說是

image.png

David Silver 隨后利用一個例子說明了MC方法和TD方法思路上的差別梁厉。具體參考ppt 14-15, 在此略過。實際上想表達的物理思想就是:MC 實際上每一次更新都是根據(jù)一次完成的采樣所得到的G_t, 有一點類似于上帝視角踏兜。而TD的想法是词顾,我初始值很傻,就是隨便猜碱妆,但是每一次得到了一次及時收益R_{t+1},我都可以進行一次更新肉盹,使猜的更準一點。我的例子是:比如:我女朋友讓我猜這個口紅的價錢疹尾,我傻乎乎的說0元上忍,女朋友說低了,我說1000元航棱,女朋友說高了睡雇,我再說100元,依次進行下去饮醇,根據(jù)每一個反饋來進行調(diào)整它抱。而MC的策略的思想是:我看了女朋友的牌子迪奧,而我之前逛商場的時候看到了多款迪奧口紅的價格朴艰,那么每一款迪奧口紅的價格實際上類似于我的一次抽樣(一個episode)观蓄,那么我根據(jù)這么多的抽樣就可以大體說出這款口紅的價格。只是個例子祠墅,不夠嚴謹侮穿,輔助理解。

明天我將繼續(xù)說明TD(n)毁嗦,以及TD(\lambda)的相關(guān)內(nèi)容亲茅,歡迎關(guān)注。


  1. 參考ppt_3 ?

  2. 參考ppt_4 ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市克锣,隨后出現(xiàn)的幾起案子茵肃,更是在濱河造成了極大的恐慌,老刑警劉巖袭祟,帶你破解...
    沈念sama閱讀 218,036評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件验残,死亡現(xiàn)場離奇詭異,居然都是意外死亡巾乳,警方通過查閱死者的電腦和手機您没,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來胆绊,“玉大人氨鹏,你說我怎么就攤上這事〖希” “怎么了喻犁?”我有些...
    開封第一講書人閱讀 164,411評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長何缓。 經(jīng)常有香客問我肢础,道長,這世上最難降的妖魔是什么碌廓? 我笑而不...
    開封第一講書人閱讀 58,622評論 1 293
  • 正文 為了忘掉前任传轰,我火速辦了婚禮,結(jié)果婚禮上谷婆,老公的妹妹穿的比我還像新娘慨蛙。我一直安慰自己,他們只是感情好纪挎,可當(dāng)我...
    茶點故事閱讀 67,661評論 6 392
  • 文/花漫 我一把揭開白布期贫。 她就那樣靜靜地躺著,像睡著了一般异袄。 火紅的嫁衣襯著肌膚如雪通砍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,521評論 1 304
  • 那天烤蜕,我揣著相機與錄音封孙,去河邊找鬼。 笑死讽营,一個胖子當(dāng)著我的面吹牛虎忌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播橱鹏,決...
    沈念sama閱讀 40,288評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼膜蠢,長吁一口氣:“原來是場噩夢啊……” “哼堪藐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起挑围,我...
    開封第一講書人閱讀 39,200評論 0 276
  • 序言:老撾萬榮一對情侶失蹤庶橱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后贪惹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,644評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡寂嘉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,837評論 3 336
  • 正文 我和宋清朗相戀三年奏瞬,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泉孩。...
    茶點故事閱讀 39,953評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡硼端,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出寓搬,到底是詐尸還是另有隱情珍昨,我是刑警寧澤,帶...
    沈念sama閱讀 35,673評論 5 346
  • 正文 年R本政府宣布句喷,位于F島的核電站镣典,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏唾琼。R本人自食惡果不足惜兄春,卻給世界環(huán)境...
    茶點故事閱讀 41,281評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望锡溯。 院中可真熱鬧赶舆,春花似錦、人聲如沸祭饭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽倡蝙。三九已至九串,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間悠咱,已是汗流浹背蒸辆。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留析既,地道東北人躬贡。 一個月前我還...
    沈念sama閱讀 48,119評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像眼坏,于是被迫代替她去往敵國和親拂玻。 傳聞我的和親對象是個殘疾皇子酸些,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,901評論 2 355

推薦閱讀更多精彩內(nèi)容