18/10/2019 Lecture3: Planning by Dynamic Programming

Planning by Dynamic Programming

image.png

Dynamic Programming

  1. 具有某種時(shí)序關(guān)系的問(wèn)題涯肩。
  2. 將復(fù)雜的問(wèn)題分解為子問(wèn)題,結(jié)合子問(wèn)題的解決方案悄谐,即動(dòng)態(tài)規(guī)劃啥繁。


    image.png

動(dòng)態(tài)規(guī)劃需要滿足的兩個(gè)要求

  1. 最優(yōu)化結(jié)構(gòu)施逾,即將整合結(jié)構(gòu)問(wèn)題分解為兩個(gè)或多個(gè)子問(wèn)題。
  2. 重疊子問(wèn)題础芍,對(duì)于多次出現(xiàn)的子問(wèn)題,子問(wèn)題的最優(yōu)解可以多次利用数尿。
  3. MDP符合這兩種特性和貝爾曼方程仑性。
  4. 貝爾曼方程可以理解為,當(dāng)前步采取最優(yōu)的行動(dòng)右蹦,余下的其他步驟也將采取最優(yōu)的行動(dòng)诊杆,從而獲得整體最優(yōu)值(value function)。


    image.png

Planning 問(wèn)題

  1. 預(yù)測(cè)問(wèn)題:已知Policy何陆,求得最多的獎(jiǎng)勵(lì)晨汹。
  2. 控制問(wèn)題:尋找最好的Policy,使這個(gè)MDP獲得最大獎(jiǎng)勵(lì)贷盲。


    image.png

Dynamic Programming 適用

  1. 生物信息學(xué)中序列比對(duì)淘这。
  2. 圖論算法。


    image.png

Policy Evaluation

  1. 貝爾曼方程評(píng)估Policy巩剖。
  2. 通過(guò)迭代更新 value function慨灭。
  3. 同步備份,每一次迭代球及,都將用到全部的MDP中的狀態(tài)用于更新value function氧骤。


    image.png

貝爾曼方程

  1. 葉子結(jié)點(diǎn)儲(chǔ)存我們上一次迭代的 value function , 通過(guò)動(dòng)態(tài)規(guī)劃方式吃引,得到一個(gè)新的value function筹陵。


    image.png

例子 評(píng)估一個(gè)已知的(random)Policy

  1. 采用最簡(jiǎn)單的Policy刽锤,即向四個(gè)方向移動(dòng)的概率都是1/4.


    image.png
  2. 使用動(dòng)態(tài)規(guī)劃的方法求解value function。

  3. 某位置當(dāng)前時(shí)刻四個(gè)方向移動(dòng)獲得的reward + 上一步四個(gè)方向移動(dòng)獲得的reward 除以4得到當(dāng)前value function 位置的值朦佩。

  4. 根據(jù)動(dòng)態(tài)規(guī)劃并思,更新value function,同時(shí)得到最優(yōu)的Policy(右邊)语稠。


    image.png
  5. value function 的值最終會(huì)穩(wěn)定宋彼。


    image.png

Policy Iteration

  1. 2- step
    1.1 評(píng)估一個(gè)policy,就像上一步所做的仙畦,填數(shù)字输涕,計(jì)算出policy能夠得到的分?jǐn)?shù)。
    1.2 貪心算法慨畸,右邊最后就是最有policy莱坎。
    1.3 MDP中總是存在一個(gè)最優(yōu)的Policy。


    image.png
  2. 向上的箭頭表示評(píng)估(貝爾曼方程)寸士, 向下的過(guò)程表示對(duì)value function 使用貪心算法更新Policy檐什。最終收斂到最優(yōu)Policy和真實(shí)的value function。


    image.png
image.png
image.png

更精準(zhǔn)的描述下 Policy Inprovement

  1. 每一步都取argmax弱卡,則更新后的policy至少和開(kāi)始采取的policy得到的一樣多乃正。

  2. 所以更新后的policy只會(huì)獲得更好的得分。


    image.png
  3. 最優(yōu)解穩(wěn)定


    image.png

Modified Policy Iteration

  1. 基本思想:提前停止
    1.1 觀察貝爾曼方程 value function的更新幅度婶博。
    1.2 控制迭代次數(shù)烫葬。


    image.png
image.png

Principle of Optimlity

image.png
  1. 將value function看作是對(duì)所有子問(wèn)題的兌現(xiàn)方案,是后向傳播算法凡蜻,及知道最優(yōu)解搭综,更新非葉子結(jié)點(diǎn)value function。
  2. 通過(guò)循環(huán)整個(gè)狀態(tài)空間划栓,迭代找到最優(yōu)貝爾曼方程兑巾,而不是通過(guò)反向傳播。


    image.png
  3. 同上面的小方格計(jì)算不同忠荞,這是一種反向傳播從而獲得最短路徑的方法蒋歌。
  4. 基于已有的完備知識(shí)(我們知道這個(gè)結(jié)構(gòu)是如何工作的),我們就不需要更新每一個(gè)狀態(tài)委煤,只需要從初始狀態(tài)feedback就可以獲得我們關(guān)心的狀態(tài)堂油。
  5. 沒(méi)有終點(diǎn)狀態(tài),我們的算法依舊能夠運(yùn)行碧绞。


    image.png

value iteration

  1. Policy iteraction 中迭代(value function + policy(greedy))府框。
  2. 每一步?jīng)]有確定的policy,只有value function的迭代更新讥邻。沒(méi)有創(chuàng)建新的policy迫靖,只是中間步驟院峡。


    image.png
  3. 每次迭代將會(huì)返回根節(jié)點(diǎn)系宜,利用貝爾曼方程最大化期望照激,從而更新value function,獲得最優(yōu)的value function盹牧。


    image.png

動(dòng)態(tài)規(guī)劃算法

  1. 預(yù)測(cè)問(wèn)題:已知policy俩垃,可以得到多少獎(jiǎng)勵(lì)。貝爾曼方程定義了約束方程汰寓,得到v_\pi.
  2. 控制問(wèn)題: 如何從已知MDP中獲得最大獎(jiǎng)勵(lì)口柳,獲得v^*, v_\pi, 最優(yōu)policy踩寇。
    2.1 policy iteration
    2.2 value iteration: 使用貝爾曼最優(yōu)方程啄清,求解最大值六水,通過(guò)value function自我迭代求得最大值俺孙。
    image.png

拓展

image.png
image.png
  1. 三種異步更新方法。


    image.png
image.png
  1. 使用某個(gè)軌跡的真實(shí)樣本掷贾。


    image.png

總結(jié)

  1. DP使用全尺寸 睛榄,考慮所有的action和所有的后繼狀態(tài)。


    image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末想帅,一起剝皮案震驚了整個(gè)濱河市场靴,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌港准,老刑警劉巖旨剥,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異浅缸,居然都是意外死亡轨帜,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門衩椒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蚌父,“玉大人,你說(shuō)我怎么就攤上這事毛萌」冻冢” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵阁将,是天一觀的道長(zhǎng)膏秫。 經(jīng)常有香客問(wèn)我,道長(zhǎng)做盅,這世上最難降的妖魔是什么荔睹? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任狸演,我火速辦了婚禮,結(jié)果婚禮上僻他,老公的妹妹穿的比我還像新娘宵距。我一直安慰自己,他們只是感情好吨拗,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開(kāi)白布满哪。 她就那樣靜靜地躺著,像睡著了一般劝篷。 火紅的嫁衣襯著肌膚如雪哨鸭。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1 301
  • 那天娇妓,我揣著相機(jī)與錄音像鸡,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的涧尿。 我是一名探鬼主播税手,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤吁脱,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后彬向,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體兼贡,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年娃胆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了遍希。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡缕棵,死狀恐怖孵班,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情招驴,我是刑警寧澤篙程,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站别厘,受9級(jí)特大地震影響虱饿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一氮发、第九天 我趴在偏房一處隱蔽的房頂上張望渴肉。 院中可真熱鬧,春花似錦爽冕、人聲如沸仇祭。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)乌奇。三九已至,卻和暖如春眯娱,著一層夾襖步出監(jiān)牢的瞬間礁苗,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工徙缴, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留试伙,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓于样,卻偏偏與公主長(zhǎng)得像疏叨,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子百宇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容