動態(tài)規(guī)劃(Dynamic Programming)

區(qū)分Continuing Task和Episodic Task

前一節(jié)我們已經(jīng)解釋了什么是episode,episode即為從初始的狀態(tài)到終止狀態(tài)的整個過程。那么什么是Continuing Task婉称? 什么是Episodic Task呢?其實,兩者最根本的區(qū)別就是Continuing Task是無法確認最終的終止狀態(tài)靠汁,其動作狀態(tài)會一直發(fā)生下去的即為Continuing Task。與此相反闽铐,Episodic Task是擁有有限長度的狀態(tài)蝶怔,也就是知道最終的結(jié)束狀態(tài)。

強化學習分類

強化學習基本上可以分為兩大類兄墅。第一類是有模型的強化學習踢星,另一類為無模型的強化學習。模型可以簡單地理解為transition-state probability隙咸。而動態(tài)規(guī)劃(Dynamic Programming)就是一個基于有模型的強化學習方法沐悦。分類圖如下所示:


強化學習分類

動態(tài)規(guī)劃(Dynamic Programming)

根據(jù)前面推導出來的Value Functions的表達公式,我們可以看出當前狀態(tài)的值可以通過接下來的狀態(tài)值計算出來五督。但是藏否,這兩個狀態(tài)的值函數(shù)我們都不知道。因此充包,該算法也被稱為自舉(bootstrapping)副签。接下來我們先看看動態(tài)規(guī)劃方法如何對policy來進行評估的遥椿。

策略評估(Policy Evaluation)

如何來評估策略的好壞呢?這時候我們需要從數(shù)學的角度出發(fā)淆储,也就是要通過數(shù)值的方式來對策略進行評估冠场。數(shù)值大代表策略好,數(shù)值小代表策略不是很好本砰,我們很容易就會想到Value Functions碴裙。

根據(jù)Bellman Equation我們得到state value的計算公式如下:

iterative policy evaluation

于是,我們就可以通過一次次的迭代來得到該policy的state value了点额。其偽代碼如下:

policy evaluation 偽代碼

從偽代碼中舔株,我們可以知道Policy Evaluation是對一個Policy進行計算的。當我們更新的state value值幾乎不變時咖楣,就可以讓其停止迭代了督笆。

列1:?我們有一個Gridworld的游戲,其中有2個終點诱贿,1-14數(shù)字分別代表14個不同的狀態(tài)(state)娃肿,我們可以朝四個方向走(上下左右),也就是代表了我們的動作(action)珠十,每一次狀態(tài)的改變都會得到-1的獎勵料扰。游戲如下圖所示:

Gridworld Game

通過Iterative Policy Evaluation方法進行迭代,我們得到前兩次迭代的state value矩陣焙蹭。如下所示:

policy evaluation example

我們來看一下k=2時晒杈,-1.7是怎么計算出來的。因為我們可以采取4個動作孔厉,所以每個動作的概率都為0.25, 而在狀態(tài)1的位置上拯钻,其可以向左、向右撰豺、向下和原地不動粪般。因此,其state value就等于(0.0 * 0.25) + (-1 * 0.25) + (-1 * 0.25) + (-1 * 0.25) = -1.75污桦,四舍五入即為-1.7亩歹。

策略提升(Policy Improvement)

我們進行策略評估的目的就是為了找到最優(yōu)的策略。還是拿列1來舉例凡橱,當k=2時小作,我們已經(jīng)計算出了各個狀態(tài)下的state value,比如我們在狀態(tài)2的情況下稼钩,為了轉(zhuǎn)換到更好的狀態(tài)顾稀,我們就朝四個方向觀察一番,發(fā)現(xiàn)通過向左走可以得到更多(-1.7 > -2.0)的獎勵坝撑,于是我們便采取向左的動作础拨,使狀態(tài)轉(zhuǎn)換到了狀態(tài)1氮块。這就是策略提升。

通過例子诡宗,我們可以知道我們在狀態(tài)不好的情況下采取相應行動轉(zhuǎn)換到比較好的狀態(tài)的值(也就是action value)一定會大于當前狀態(tài)不好的值(state value)。通過公式推導击儡,我們只需要選擇state value值大的地方執(zhí)行策略即可塔沃。公式推導如下:

公式推導1

因此,我們可以使用貪婪策略(greedy policy)阳谍,也就是取其最大值蛀柴,來得出最優(yōu)的策略(在當前狀態(tài)下應該采取的動作)和最優(yōu)的state value。公式如下所示:

optimal policy
optimal state value

策略迭代(Policy Iteration)

策略迭代就是結(jié)合了策略評估和策略提升矫夯,通過一次次的迭代來得到最優(yōu)的策略鸽疾。如圖:

策略迭代

其中E表示進行一次Policy Evaluation,I表示進行一次Policy Improvement训貌,*表示最優(yōu)解制肮,0-n表示進行了多少次迭代。偽代碼如下所示:

Policy Iteration Code

值迭代(Value Iteration)

根據(jù)策略迭代算法递沪,每一次迭代都要進行策略評估和策略提升豺鼻,直到二者都收斂】羁可我們的目標是選出最優(yōu)的策略儒飒,那么有沒有可能在策略評估值沒有收斂的情況下,最優(yōu)策略已經(jīng)收斂了呢檩奠?答案是有這個可能桩了。我們還拿例1來看,迭代步驟如下所示:

Gridworld Game

可以看出當?shù)谌螘r埠戳,policy已經(jīng)收斂了井誉,因此無需再對其做策略評估。值迭代過程就是運用了這一點的原理乞而,使用縮減過的策略評估在每次迭代中送悔,都會求最大的policy值,直到其策略收斂爪模。其公式欠啤,偽代碼如下:

Value Iteration
偽代碼

GridWorld 部分代碼

代碼1
代碼2

Reference

1. Reinforcement Learning An Introduction

2.強化學習入門 第二講 基于模型的動態(tài)規(guī)劃方法?https://zhuanlan.zhihu.com/p/25580624

3.Github: Reinforcement Learning An Introduction?https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市屋灌,隨后出現(xiàn)的幾起案子洁段,更是在濱河造成了極大的恐慌,老刑警劉巖共郭,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件祠丝,死亡現(xiàn)場離奇詭異疾呻,居然都是意外死亡,警方通過查閱死者的電腦和手機写半,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進店門岸蜗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人叠蝇,你說我怎么就攤上這事璃岳。” “怎么了悔捶?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵铃慷,是天一觀的道長。 經(jīng)常有香客問我蜕该,道長犁柜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任堂淡,我火速辦了婚禮馋缅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘淤齐。我一直安慰自己股囊,他們只是感情好,可當我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布更啄。 她就那樣靜靜地躺著稚疹,像睡著了一般。 火紅的嫁衣襯著肌膚如雪祭务。 梳的紋絲不亂的頭發(fā)上内狗,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天,我揣著相機與錄音义锥,去河邊找鬼柳沙。 笑死,一個胖子當著我的面吹牛拌倍,可吹牛的內(nèi)容都是我干的赂鲤。 我是一名探鬼主播,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼柱恤,長吁一口氣:“原來是場噩夢啊……” “哼数初!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起梗顺,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤泡孩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后寺谤,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仑鸥,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡吮播,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了眼俊。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片意狠。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖疮胖,靈堂內(nèi)的尸體忽然破棺而出摄职,到底是詐尸還是另有隱情,我是刑警寧澤获列,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站蛔垢,受9級特大地震影響击孩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鹏漆,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一巩梢、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧艺玲,春花似錦括蝠、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至秒梳,卻和暖如春法绵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背酪碘。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工朋譬, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人兴垦。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓徙赢,卻偏偏與公主長得像,于是被迫代替她去往敵國和親探越。 傳聞我的和親對象是個殘疾皇子狡赐,可洞房花燭夜當晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 本文根據(jù)Hawstein的BLOG,加入了自己的一些代碼實現(xiàn)和理解扶关。概括:動態(tài)規(guī)劃算法通骋趸悖基于一個遞推公式及一個或...
    violinmeng閱讀 1,594評論 0 2
  • 一. 增強學習簡介 1.1 什么是增強學習? 機器學習的算法可以分為三類:監(jiān)督學習节槐,非監(jiān)督學習和增強學習搀庶。 增強學...
    阿阿阿阿毛閱讀 31,072評論 0 25
  • 動態(tài)規(guī)劃(programming在這里是規(guī)劃的意思)算法設計技術(shù)由二十世紀五十年代的美國卓越數(shù)學家理查德.貝爾曼發(fā)...
    alonwang閱讀 2,110評論 0 3
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理拐纱,服務發(fā)現(xiàn),斷路器哥倔,智...
    卡卡羅2017閱讀 134,600評論 18 139
  • 你離開我已經(jīng)十四年了吧秸架!你現(xiàn)在過得還好嗎?我想你了咆蒿,可是我不能和其他人說东抹,我怕,怕他們說我沒用沃测,真的好想你缭黔!當...
    煙是我抽的閱讀 124評論 0 2