1. 前言:
這些博客是根據(jù)david silver 的深度強化學(xué)習(xí)內(nèi)容,結(jié)合自己的理解以及學(xué)習(xí)而寫成灾前,轉(zhuǎn)載請注明防症。前三節(jié)的課程是關(guān)于已知模型的MDP,在后期會補哎甲,但通常來講蔫敲,基于已知模型的MDP的計算比較簡單,同時在實際中確切的模型也比較難以獲知炭玫,所以我感覺比較難解決實際問題奈嘿。
在本節(jié)課程,我們主要關(guān)注兩點:
1)無模型函數(shù)的預(yù)測吞加;
2)unknown MDP情況下的值函數(shù)的預(yù)估裙犹。
2. 蒙特卡洛強化學(xué)習(xí)方法(Monte-Carlo Reinforcement Learning, MC RL):
MC RL 的特點:
- MC 方法直接從episodes of experience 中學(xué)習(xí)。
- MC 無需知道MDP 的狀態(tài)轉(zhuǎn)移矩陣以及收益函數(shù)衔憨。
- MC 從完整的episodes 中學(xué)習(xí)叶圃,沒有bootstraping。
- MC 的一直最本質(zhì)的想法就是:多次采樣取平均践图,即:value = mean return掺冠。
- 注意點:MC適用于episodic 的MDP模型,所有的episodes 一定要結(jié)束码党。
(1). 通過MC 方法來進行策略評估 (Policy Evaluation)
目標(biāo):
已知策略policy德崭, 去求
斥黑。
回憶:總的折扣獎賞(total discounted reward)可以表示為:
而在策略的指導(dǎo)下,對于狀態(tài)
我們的值函數(shù)的定義可以表示為:
眉厨。
MC策略評估的做法就是利用經(jīng)驗均值(多次采樣取平均)來代替期望均值锌奴。
(2). 首訪MC策略評估和每訪MC策略評估
對于 首訪MC策略評估:大體的想法如下:
大體的思想是:如果我們要評估狀態(tài)的值函數(shù)
, 我們需要做的是對于每個episode,從第一次遇到狀態(tài)
開始缺猛,記錄下來
,并更新
,并將計數(shù)器
缨叫。經(jīng)驗值
。 根據(jù)大數(shù)定理荔燎,經(jīng)驗值趨近于
, 即
.
對于每訪MC策略評估耻姥,大體思想如下:
大體的思想是:如果我們要評估狀態(tài)的值函數(shù)
,在每一次episode中有咨,沒訪問一次狀態(tài)
, 那么我們就更新一次計數(shù)器
以及
琐簇,這也意味著在一次episode中,
和
可能被更新多次座享。實際上婉商,有理論證明首訪MC策略評估 和 每訪MC策略評估最終對策略的評估結(jié)果(即經(jīng)驗均值V(s))是相同的,感興趣的同學(xué)可以自己查閱資料渣叛。
(3). 均值的遞增式
序列的均值實際上可以求解如下:
后面的一項可以理解為根據(jù)第次的數(shù)據(jù)丈秩,對之前經(jīng)驗均值所做的一個調(diào)整,而調(diào)整的權(quán)重是
淳衙。
由于MC的思路也可以理解為是多個序列求經(jīng)驗均值蘑秽,所以也同樣可以表達成如上的形式:
注意對于權(quán)重,實際是指到此時為止箫攀,之前所有episode中遇到的狀態(tài)
的情況都考慮進來了肠牲,而實際上對于非靜態(tài)的系統(tǒng),很久之前的經(jīng)驗對于我們來講已經(jīng)沒有意義靴跛,我們著需要關(guān)注最近發(fā)生的即可缀雳,所以又有了下式:
在上式中,在每一次更新時梢睛,最近一次得到的總的折扣獎賞
對于均值的調(diào)整總是
肥印,我個人理解是將上式換作如下寫法可能對于作者的本意更好理解,上式可以寫成如下:
通過調(diào)整绝葡,我們可以將注意力更多的集中在最近一次的采樣值
上竖独,而忽略之前的采樣值的影響。
3. 時域差分法(Temporal-Difference Learning)
TD法 的特點:
- TD 方法直接從episodes of experience 中學(xué)習(xí)挤牛。
- TD 無需知道MDP 的狀態(tài)轉(zhuǎn)移矩陣以及收益函數(shù)。
- TD 可以從不完整的episodes 中學(xué)習(xí)种蘸,利用了bootstraping墓赴。
- MC 的一直最本質(zhì)的想法就是:每一步都根據(jù)已有的經(jīng)驗動態(tài)的調(diào)整值函數(shù)竞膳,對策略進行評估。
- 自己理解:MC適用于episodic 的MDP模型诫硕,所有的episodes 一定要結(jié)束坦辟。而TD不一定要episodes結(jié)束,而是隨時對策略的評估進行更新章办。
最簡單的TD(0)的更新公式如下:
注意在上式中锉走,我們對于狀態(tài)的更新,實際上是利用了
其中是真實環(huán)境中的值藕届,而
實際上我們一開始都會給一個猜測值(最簡單的就是
表示狀態(tài)空間),之后利用上面的公式不斷進行迭代更新休偶。所以David Silver說是
David Silver 隨后利用一個例子說明了MC方法和TD方法思路上的差別梁厉。具體參考ppt 14-15, 在此略過。實際上想表達的物理思想就是:MC 實際上每一次更新都是根據(jù)一次完成的采樣所得到的, 有一點類似于上帝視角踏兜。而TD的想法是词顾,我初始值很傻,就是隨便猜碱妆,但是每一次得到了一次及時收益
,我都可以進行一次更新肉盹,使猜的更準一點。我的例子是:比如:我女朋友讓我猜這個口紅的價錢疹尾,我傻乎乎的說0元上忍,女朋友說低了,我說1000元航棱,女朋友說高了睡雇,我再說100元,依次進行下去饮醇,根據(jù)每一個反饋來進行調(diào)整它抱。而MC的策略的思想是:我看了女朋友的牌子迪奧,而我之前逛商場的時候看到了多款迪奧口紅的價格朴艰,那么每一款迪奧口紅的價格實際上類似于我的一次抽樣(一個episode)观蓄,那么我根據(jù)這么多的抽樣就可以大體說出這款口紅的價格。只是個例子祠墅,不夠嚴謹侮穿,輔助理解。
明天我將繼續(xù)說明毁嗦,以及
的相關(guān)內(nèi)容亲茅,歡迎關(guān)注。