David Silver Lecture 4 (1)（Model-Free Prediction）講解

1. 前言：

這些博客是根據(jù)david silver 的深度強化學(xué)習(xí)內(nèi)容，結(jié)合自己的理解以及學(xué)習(xí)而寫成灾前，轉(zhuǎn)載請注明防症。前三節(jié)的課程是關(guān)于已知模型的MDP，在后期會補哎甲，但通常來講蔫敲，基于已知模型的MDP的計算比較簡單，同時在實際中確切的模型也比較難以獲知炭玫，所以我感覺比較難解決實際問題奈嘿。
在本節(jié)課程，我們主要關(guān)注兩點：
1）無模型函數(shù)的預(yù)測吞加；
2）unknown MDP情況下的值函數(shù)的預(yù)估裙犹。

image.png

^[1]

2. 蒙特卡洛強化學(xué)習(xí)方法（Monte-Carlo Reinforcement Learning, MC RL）：

MC RL 的特點：

MC 方法直接從episodes of experience 中學(xué)習(xí)。

MC 無需知道MDP 的狀態(tài)轉(zhuǎn)移矩陣以及收益函數(shù)衔憨。

MC 從完整的episodes 中學(xué)習(xí)叶圃，沒有bootstraping。

MC 的一直最本質(zhì)的想法就是：多次采樣取平均践图，即：value = mean return掺冠。

注意點：MC適用于episodic 的MDP模型，所有的episodes 一定要結(jié)束码党。

^[2]

(1). 通過MC 方法來進行策略評估（Policy Evaluation）

目標(biāo)：
已知策略policy ${\pi}$ 德崭，去求 $v_{\pi}$ 斥黑。
回憶：總的折扣獎賞（total discounted reward）可以表示為:

$G_t = R_{t+1}+\gamma R_{t+1} + \gamma^2 R_{t+1}+\cdots +\gamma^{T-1} R_{T}$

而在策略 ${\pi}$ 的指導(dǎo)下，對于狀態(tài) $s$ 我們的值函數(shù)的定義可以表示為：
$v_{\pi}(s) = \mathrm{E}_{\pi}[G_t |S_t=s]$ 眉厨。

MC策略評估的做法就是利用經(jīng)驗均值(多次采樣取平均)來代替期望均值锌奴。

(2). 首訪MC策略評估和每訪MC策略評估

對于首訪MC策略評估：大體的想法如下：

image.png

大體的思想是：如果我們要評估狀態(tài) $s$ 的值函數(shù) $v_{\pi}(s)$ , 我們需要做的是對于每個episode，從第一次遇到狀態(tài) $s$ 開始缺猛，記錄下來 $G_t$ ,并更新 $S(s)=S(s)+G_t$ ,并將計數(shù)器 $N(s)=N(s)+1$ 缨叫。經(jīng)驗值 $V(s) = S(s)/ N(s)$ 。根據(jù)大數(shù)定理荔燎，經(jīng)驗值趨近于 $v_{\pi}(s)$ , 即 $V(s)\rightarrow v_{\pi}(s)$ .

對于每訪MC策略評估耻姥，大體思想如下：

image.png

大體的思想是：如果我們要評估狀態(tài) $s$ 的值函數(shù) $v_{\pi}(s)$ ，在每一次episode中有咨，沒訪問一次狀態(tài) $t$ , 那么我們就更新一次計數(shù)器 $N(s)=N(s)+1$ 以及 $S(s)=S(s)+G_t$ 琐簇，這也意味著在一次episode中， $N(s)$ 和 $S(s)$ 可能被更新多次座享。實際上婉商，有理論證明首訪MC策略評估和每訪MC策略評估最終對策略的評估結(jié)果（即經(jīng)驗均值V(s)）是相同的，感興趣的同學(xué)可以自己查閱資料渣叛。

(3). 均值的遞增式

序列 $x_1, x_2, \cdots$ 的均值實際上可以求解如下：

image.png

后面的一項可以理解為根據(jù)第 $k$ 次的數(shù)據(jù)丈秩，對之前經(jīng)驗均值所做的一個調(diào)整，而調(diào)整的權(quán)重是 $1/k$ 淳衙。

由于MC的思路也可以理解為是多個序列求經(jīng)驗均值蘑秽，所以也同樣可以表達成如上的形式：

image.png

注意對于權(quán)重 $1/N(s)$ ，實際是指到此時為止箫攀，之前所有episode中遇到的狀態(tài) $s$ 的情況都考慮進來了肠牲，而實際上對于非靜態(tài)的系統(tǒng)，很久之前的經(jīng)驗對于我們來講已經(jīng)沒有意義靴跛，我們著需要關(guān)注最近發(fā)生的即可缀雳，所以又有了下式：

image.png

在上式中，在每一次更新 $V(s)$ 時梢睛，最近一次得到的總的折扣獎賞 $G_t$ 對于均值的調(diào)整總是 $\alpha$ 肥印，我個人理解是將上式換作如下寫法可能對于作者的本意更好理解，上式可以寫成如下：
$V(S_t) = (1-\alpha)V(S_t) + \alpha G_t$
通過調(diào)整 $\alpha$ 绝葡，我們可以將注意力更多的集中在最近一次的采樣值 $G_t$ 上竖独，而忽略之前的采樣值的影響。

3. 時域差分法（Temporal-Difference Learning)

TD法的特點：

TD 方法直接從episodes of experience 中學(xué)習(xí)挤牛。

TD 無需知道MDP 的狀態(tài)轉(zhuǎn)移矩陣以及收益函數(shù)。

TD 可以從不完整的episodes 中學(xué)習(xí)种蘸，利用了bootstraping墓赴。

MC 的一直最本質(zhì)的想法就是：每一步都根據(jù)已有的經(jīng)驗動態(tài)的調(diào)整值函數(shù)竞膳，對策略進行評估。

自己理解：MC適用于episodic 的MDP模型诫硕，所有的episodes 一定要結(jié)束坦辟。而TD不一定要episodes結(jié)束，而是隨時對策略的評估進行更新章办。

最簡單的TD(0)的更新公式如下：

image.png

注意在上式中锉走，我們對于狀態(tài) $S_t=s$ 的更新，實際上是利用了 $\delta_t = R_{t+1}+\gamma V(S_{t+1}=s')-V(S_t=s)$
其中 $R_{t+1}$ 是真實環(huán)境中的值藕届，而 $V(s), V(s')$ 實際上我們一開始都會給一個猜測值（最簡單的就是 $V(s) = 0, s \in \mathit{S}挪蹭，\mathit{S}$ 表示狀態(tài)空間），之后利用上面的公式不斷進行迭代更新休偶。所以David Silver說是

image.png

David Silver 隨后利用一個例子說明了MC方法和TD方法思路上的差別梁厉。具體參考ppt 14-15, 在此略過。實際上想表達的物理思想就是：MC 實際上每一次更新都是根據(jù)一次完成的采樣所得到的 $G_t$ , 有一點類似于上帝視角踏兜。而TD的想法是词顾，我初始值很傻，就是隨便猜碱妆，但是每一次得到了一次及時收益 $R_{t+1}$ ,我都可以進行一次更新肉盹，使猜的更準一點。我的例子是：比如：我女朋友讓我猜這個口紅的價錢疹尾，我傻乎乎的說0元上忍，女朋友說低了，我說1000元航棱，女朋友說高了睡雇，我再說100元，依次進行下去饮醇，根據(jù)每一個反饋來進行調(diào)整它抱。而MC的策略的思想是：我看了女朋友的牌子迪奧，而我之前逛商場的時候看到了多款迪奧口紅的價格朴艰，那么每一款迪奧口紅的價格實際上類似于我的一次抽樣（一個episode）观蓄，那么我根據(jù)這么多的抽樣就可以大體說出這款口紅的價格。只是個例子祠墅，不夠嚴謹侮穿，輔助理解。

明天我將繼續(xù)說明 $TD(n)$ 毁嗦，以及 $TD(\lambda)$ 的相關(guān)內(nèi)容亲茅，歡迎關(guān)注。

參考ppt_3 ?
參考ppt_4 ?

最后編輯于：2018.09.05 21:18:36

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市克锣，隨后出現(xiàn)的幾起案子茵肃，更是在濱河造成了極大的恐慌，老刑警劉巖袭祟，帶你破解...
沈念sama閱讀 218,036評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件验残，死亡現(xiàn)場離奇詭異，居然都是意外死亡巾乳，警方通過查閱死者的電腦和手機您没，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來胆绊，“玉大人氨鹏，你說我怎么就攤上這事〖希” “怎么了喻犁？”我有些...
開封第一講書人閱讀 164,411評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長何缓。經(jīng)常有香客問我肢础，道長，這世上最難降的妖魔是什么碌廓？我笑而不...
開封第一講書人閱讀 58,622評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任传轰，我火速辦了婚禮，結(jié)果婚禮上谷婆，老公的妹妹穿的比我還像新娘慨蛙。我一直安慰自己，他們只是感情好纪挎，可當(dāng)我...
茶點故事閱讀 67,661評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布期贫。她就那樣靜靜地躺著，像睡著了一般异袄。火紅的嫁衣襯著肌膚如雪通砍。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,521評論 1贊 304
城市分裂傳說
那天烤蜕，我揣著相機與錄音封孙，去河邊找鬼。笑死讽营，一個胖子當(dāng)著我的面吹牛虎忌，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播橱鹏，決...
沈念sama閱讀 40,288評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼膜蠢，長吁一口氣：“原來是場噩夢啊……” “哼堪藐！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起挑围，我...
開封第一講書人閱讀 39,200評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤庶橱，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后贪惹，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,644評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡寂嘉，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,837評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年奏瞬，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泉孩。...
茶點故事閱讀 39,953評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡硼端，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出寓搬，到底是詐尸還是另有隱情珍昨，我是刑警寧澤，帶...
沈念sama閱讀 35,673評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布句喷，位于F島的核電站镣典，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏唾琼。R本人自食惡果不足惜兄春，卻給世界環(huán)境...
茶點故事閱讀 41,281評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望锡溯。院中可真熱鬧赶舆，春花似錦、人聲如沸祭饭。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,889評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽倡蝙。三九已至九串，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間悠咱，已是汗流浹背蒸辆。一陣腳步聲響...
開封第一講書人閱讀 33,011評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留析既，地道東北人躬贡。一個月前我還...
沈念sama閱讀 48,119評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像眼坏，于是被迫代替她去往敵國和親拂玻。傳聞我的和親對象是個殘疾皇子酸些，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,901評論 2贊 355

David Silver Lecture 4 (1)（Model-Free Prediction） 講解

1. 前言：

2. 蒙特卡洛強化學(xué)習(xí)方法（Monte-Carlo Reinforcement Learning, MC RL）：

(1). 通過MC 方法來進行策略評估 （Policy Evaluation）

(2). 首訪MC策略評估和每訪MC策略評估

(3). 均值的遞增式

3. 時域差分法（Temporal-Difference Learning)

推薦閱讀更多精彩內(nèi)容

David Silver Lecture 4 (1)（Model-Free Prediction）講解

(1). 通過MC 方法來進行策略評估（Policy Evaluation）