18/10/2019 Lecture3: Planning by Dynamic Programming

Planning by Dynamic Programming

image.png

Dynamic Programming

具有某種時(shí)序關(guān)系的問(wèn)題涯肩。
將復(fù)雜的問(wèn)題分解為子問(wèn)題，結(jié)合子問(wèn)題的解決方案悄谐，即動(dòng)態(tài)規(guī)劃啥繁。

image.png

動(dòng)態(tài)規(guī)劃需要滿足的兩個(gè)要求

最優(yōu)化結(jié)構(gòu)施逾，即將整合結(jié)構(gòu)問(wèn)題分解為兩個(gè)或多個(gè)子問(wèn)題。
重疊子問(wèn)題础芍，對(duì)于多次出現(xiàn)的子問(wèn)題，子問(wèn)題的最優(yōu)解可以多次利用数尿。
MDP符合這兩種特性和貝爾曼方程仑性。
貝爾曼方程可以理解為，當(dāng)前步采取最優(yōu)的行動(dòng)右蹦，余下的其他步驟也將采取最優(yōu)的行動(dòng)诊杆，從而獲得整體最優(yōu)值（value function）。

image.png

Planning 問(wèn)題

預(yù)測(cè)問(wèn)題：已知Policy何陆，求得最多的獎(jiǎng)勵(lì)晨汹。
控制問(wèn)題：尋找最好的Policy，使這個(gè)MDP獲得最大獎(jiǎng)勵(lì)贷盲。

image.png

Dynamic Programming 適用

生物信息學(xué)中序列比對(duì)淘这。
圖論算法。

image.png

Policy Evaluation

貝爾曼方程評(píng)估Policy巩剖。
通過(guò)迭代更新 value function慨灭。
同步備份，每一次迭代球及，都將用到全部的MDP中的狀態(tài)用于更新value function氧骤。

image.png

貝爾曼方程

葉子結(jié)點(diǎn)儲(chǔ)存我們上一次迭代的 value function ，通過(guò)動(dòng)態(tài)規(guī)劃方式吃引，得到一個(gè)新的value function筹陵。

image.png

例子評(píng)估一個(gè)已知的（random）Policy

采用最簡(jiǎn)單的Policy刽锤，即向四個(gè)方向移動(dòng)的概率都是1/4.

image.png
使用動(dòng)態(tài)規(guī)劃的方法求解value function。
某位置當(dāng)前時(shí)刻四個(gè)方向移動(dòng)獲得的reward + 上一步四個(gè)方向移動(dòng)獲得的reward 除以4得到當(dāng)前value function 位置的值朦佩。
根據(jù)動(dòng)態(tài)規(guī)劃并思，更新value function，同時(shí)得到最優(yōu)的Policy（右邊）语稠。

image.png
value function 的值最終會(huì)穩(wěn)定宋彼。

image.png

Policy Iteration

2- step
1.1 評(píng)估一個(gè)policy，就像上一步所做的仙畦，填數(shù)字输涕，計(jì)算出policy能夠得到的分?jǐn)?shù)。
1.2 貪心算法慨畸，右邊最后就是最有policy莱坎。
1.3 MDP中總是存在一個(gè)最優(yōu)的Policy。

image.png
向上的箭頭表示評(píng)估（貝爾曼方程）寸士，向下的過(guò)程表示對(duì)value function 使用貪心算法更新Policy檐什。最終收斂到最優(yōu)Policy和真實(shí)的value function。

image.png

image.png

更精準(zhǔn)的描述下 Policy Inprovement

每一步都取argmax弱卡，則更新后的policy至少和開(kāi)始采取的policy得到的一樣多乃正。
所以更新后的policy只會(huì)獲得更好的得分。

image.png
最優(yōu)解穩(wěn)定

image.png

Modified Policy Iteration

基本思想：提前停止
1.1 觀察貝爾曼方程 value function的更新幅度婶博。
1.2 控制迭代次數(shù)烫葬。

image.png

image.png

Principle of Optimlity

image.png

將value function看作是對(duì)所有子問(wèn)題的兌現(xiàn)方案，是后向傳播算法凡蜻，及知道最優(yōu)解搭综，更新非葉子結(jié)點(diǎn)value function。
通過(guò)循環(huán)整個(gè)狀態(tài)空間划栓，迭代找到最優(yōu)貝爾曼方程兑巾，而不是通過(guò)反向傳播。

image.png
同上面的小方格計(jì)算不同忠荞，這是一種反向傳播從而獲得最短路徑的方法蒋歌。
基于已有的完備知識(shí)（我們知道這個(gè)結(jié)構(gòu)是如何工作的），我們就不需要更新每一個(gè)狀態(tài)委煤，只需要從初始狀態(tài)feedback就可以獲得我們關(guān)心的狀態(tài)堂油。
沒(méi)有終點(diǎn)狀態(tài)，我們的算法依舊能夠運(yùn)行碧绞。

image.png

value iteration

Policy iteraction 中迭代（value function + policy（greedy））府框。
每一步?jīng)]有確定的policy，只有value function的迭代更新讥邻。沒(méi)有創(chuàng)建新的policy迫靖，只是中間步驟院峡。

image.png
每次迭代將會(huì)返回根節(jié)點(diǎn)系宜，利用貝爾曼方程最大化期望照激，從而更新value function，獲得最優(yōu)的value function盹牧。

image.png

動(dòng)態(tài)規(guī)劃算法

預(yù)測(cè)問(wèn)題：已知policy俩垃，可以得到多少獎(jiǎng)勵(lì)。貝爾曼方程定義了約束方程汰寓，得到 $v_\pi$ .
控制問(wèn)題：如何從已知MDP中獲得最大獎(jiǎng)勵(lì)口柳，獲得 $v^*, v_\pi$ ，最優(yōu)policy踩寇。
2.1 policy iteration
2.2 value iteration：使用貝爾曼最優(yōu)方程啄清，求解最大值六水，通過(guò)value function自我迭代求得最大值俺孙。

image.png

拓展

image.png

三種異步更新方法。

image.png

image.png

使用某個(gè)軌跡的真實(shí)樣本掷贾。

image.png

總結(jié)

DP使用全尺寸睛榄，考慮所有的action和所有的后繼狀態(tài)。

image.png

image.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末想帅，一起剝皮案震驚了整個(gè)濱河市场靴，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌港准，老刑警劉巖旨剥，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異浅缸，居然都是意外死亡轨帜，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門衩椒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蚌父，“玉大人，你說(shuō)我怎么就攤上這事毛萌」冻冢” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵阁将，是天一觀的道長(zhǎng)膏秫。經(jīng)常有香客問(wèn)我，道長(zhǎng)做盅，這世上最難降的妖魔是什么荔睹？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任狸演，我火速辦了婚禮，結(jié)果婚禮上僻他，老公的妹妹穿的比我還像新娘宵距。我一直安慰自己，他們只是感情好吨拗，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布满哪。她就那樣靜靜地躺著，像睡著了一般劝篷。火紅的嫁衣襯著肌膚如雪哨鸭。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說(shuō)
那天娇妓，我揣著相機(jī)與錄音像鸡，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的涧尿。我是一名探鬼主播税手，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤吁脱，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后彬向，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體兼贡，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年娃胆，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了遍希。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡缕棵，死狀恐怖孵班，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情招驴，我是刑警寧澤篙程，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站别厘，受9級(jí)特大地震影響虱饿，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一氮发、第九天我趴在偏房一處隱蔽的房頂上張望渴肉。院中可真熱鬧，春花似錦爽冕、人聲如沸仇祭。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0贊 22
一樁弒父案颈畸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)乌奇。三九已至，卻和暖如春眯娱，著一層夾襖步出監(jiān)牢的瞬間礁苗，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工徙缴，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留试伙，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓于样，卻偏偏與公主長(zhǎng)得像疏叨，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子百宇，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354

18/10/2019 Lecture3: Planning by Dynamic Programming

Planning by Dynamic Programming

Dynamic Programming

動(dòng)態(tài)規(guī)劃需要滿足的兩個(gè)要求

Planning 問(wèn)題

Dynamic Programming 適用

Policy Evaluation

貝爾曼方程

例子 評(píng)估一個(gè)已知的（random）Policy

Policy Iteration

更精準(zhǔn)的描述下 Policy Inprovement

Modified Policy Iteration

Principle of Optimlity

value iteration

動(dòng)態(tài)規(guī)劃算法

拓展

總結(jié)

推薦閱讀更多精彩內(nèi)容

例子評(píng)估一個(gè)已知的（random）Policy