馬爾科夫決策過(guò)程解法(Solution to MDP)

1. 馬爾科夫決策過(guò)程

馬爾科夫決策過(guò)程(Markov Decision Process) 是一個(gè)由4個(gè)元素組成的元祖(S, A, P, R)組成。

S為狀態(tài); A為動(dòng)作; P為概率轉(zhuǎn)移腌零,指定Pr{(x^\prime|x, a)}; R為獎(jiǎng)勵(lì)函數(shù)梯找,指定R(s);也可以指定為R(s,a)益涧。

馬爾科夫決策過(guò)程

很容易定義狀態(tài)函數(shù)V^\pi(s)為折扣獎(jiǎng)勵(lì)的累計(jì)期望初肉,折扣比例0 \leq\gamma < 1
V^\pi(s)= E[\sum_{t=0}^{\infty} \gamma^t R(s_t) | s_0=s, a_t=\pi(s_t)]

從后向傳播的觀點(diǎn)——當(dāng)前的價(jià)值函數(shù)為及時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)的期望之和饰躲,有:
V^\pi(s)= R(s) + \gamma\sum_{s^\prime}\Pr(s^\prime|s, a)V^\pi(s^\prime)

寫(xiě)成矩陣的形式牙咏,求解V(s)即為求解線(xiàn)性方程組:
\begin{align*} V^\pi(s) &= R(s) + \gamma \Pr(s^\prime|s, a)V^\pi(s^\prime) \\ (I_{|S|} - \gamma \Pr(s^\prime|s,a)) V^{\pi}(s) &= R(s) \end{align*}

最優(yōu)的價(jià)值函數(shù)V^\star(s) = \max_\pi V^\pi(s), 滿(mǎn)足:
V^\star(s)= R(s) + \gamma\max_a\sum_{s^\prime}\Pr(s^\prime|s, a)V^\star(s^\prime)

2. 價(jià)值迭代算法

價(jià)值迭代的算法如下:

  1. 初始化\hat{V}(s)=0
  2. 不斷迭代更新
    \hat{V}(s)\leftarrow R(s)+\gamma \max_a\sum_{s^\prime}\Pr(s^\prime|s, a)V^\pi(s^\prime) \quad \forall s\in S

理解價(jià)值迭代嘹裂,需要理解Bellman最優(yōu)算子是個(gè)壓縮映射妄壶。 定義Bellman最優(yōu)算子B: \mathbb{R}^{S} \rightarrow \mathbb{R}^{S}如下,
B\, \hat{V}(s) = R(s) + \gamma \max_a\sum_{s^\prime}\Pr(s^\prime|s, a)V^\pi(s^\prime)

由于B是壓縮映射寄狼,存在唯一的不動(dòng)點(diǎn)V^\star(s)丁寄。這就是上述價(jià)值迭代算法的收斂原理,對(duì)V(s)進(jìn)行多次迭代后泊愧,會(huì)收斂到最優(yōu)價(jià)值函數(shù)V^\star(s)伊磺。

壓縮映射具有如下性質(zhì): 對(duì)任意V_1(s)V_2(s),有
\max_{s \in S}{| B\, V_1(s) - B\, V_2(s)| \leq \gamma \max_{s \in S}|V_1(s)-V_2(s)|}

上述性質(zhì)說(shuō)明了這樣一個(gè)事情: 對(duì)于V^k(s)進(jìn)行迭代后删咱,更新后的V^{k+1}(s) = B\,V^{k}(s) 與原來(lái)的V^k(s)屑埋,最大誤差不超過(guò)\gamma \max_{s \in S}|V_1(s)-V_2(s)| < \max_{s \in S}|V_1(s)-V_2(s)|(因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cgamma%20%3C%201" alt="\gamma < 1" mathimg="1">)。也就是每次迭代后痰滋,誤差以比例\gamma減小摘能。

利用上面壓縮性質(zhì),可以證明價(jià)值迭代算法的收斂性敲街。(下面方框中的內(nèi)容团搞,可以暫時(shí)跳過(guò))

首先,假設(shè)馬爾科夫決策過(guò)程中的獎(jiǎng)勵(lì)R是有界的多艇,即R\leq R_{max}逻恐。根據(jù)等比數(shù)列性質(zhì),那么V(s)也是有上界的峻黍。
V(s)= \sum_{t=0}^{\infty} \gamma^t R(s_t) \leq \sum_{t=0}^{\infty} \gamma^t R_{max} = \frac{R_{max}}{1-\gamma}
那么复隆,任意一次迭代過(guò)程中的值V^k(s)V^{\star}(s)之間的差最大為\frac{R_{max}}{1-\gamma}。利用壓縮性質(zhì)有奸披,
\max_{s \in S}|V^0(s) - V^{\star}(s) | \leq \gamma \frac{R_{max}}{1-\gamma}
對(duì)初值V^0(s)進(jìn)行一次迭代后昏名,
\begin{align*} \max_{s \in S}|V^1(s) - V^\star(s)| &\leq \max_{s \in S}|B\, V^0(s) - V^\star(s)| \\ &\leq \gamma \max_{s \in S} | V^0(s) - V^{\star}(s)| (壓縮性質(zhì)) \\ &\leq \gamma^2 \frac{R_{max}}{1-\gamma} (最大誤差) \end{align*}
可以看到,每次迭代后阵面,最大誤差以比例\gamma < 1減小。

3. 策略迭代算法

策略迭代算法如下:

  1. 初始化\hat{V}(s)=0.
  2. 策略評(píng)估:(一般而言,下式中\pi(s,a)為固定策略由于策略更新)
    V^{(k+1)}(s) \leftarrow \sum_{a \in A} \pi(s, a) \sum_{s^\prime \in S}\Pr(s^\prime | s, a)(r(s,a) + V^{k}(s^\prime)) \quad \forall s \in S
  3. 策略更新:
    \pi(s) \leftarrow \arg \max_{a} (R(s) + \gamma \sum_{s^\prime \in S} \Pr(s^\prime|s, a) V^\pi(s)) \quad \forall s \in S
  4. 如果\pi(s)與上次迭代相比沒(méi)有變化样刷,則停止仑扑;否則,轉(zhuǎn)回2置鼻。

更多關(guān)于策略迭代的分析镇饮,請(qǐng)看這里

4. 線(xiàn)性規(guī)劃算法

線(xiàn)性規(guī)劃算法如下:

\begin{align*} minimize \quad &\sum_s V(s) \\ subject \,\,\, to \quad & V(s) \ge R(s) + \gamma \sum_{s^\prime \in S} \Pr(s^\prime | s, a) V(s^\prime) \quad \quad \forall s \in S, a \in A \end{align*}

理解如下箕母,假設(shè)不等式約束以等式成立储藐,那么滿(mǎn)足Bellman最優(yōu)算子;如果存在某個(gè)V(s)使得不等式約束存在嚴(yán)格大于嘶是,優(yōu)化目標(biāo)一定會(huì)使得這個(gè)V(s)繼續(xù)減小钙勃,直至不等式約束以等式存在。所以最終的目標(biāo)聂喇,使得V(s)滿(mǎn)足Bellman方程最優(yōu)解辖源。

5. 附錄

  1. Bellman最優(yōu)算子收縮性質(zhì)證明

\begin{align*} |B V_1(s) - B V_2(s)| &= |R(s) + \gamma\max_a\sum_{s^\prime}\Pr(s'|s,a) V_1(s^\prime)- R(s) - \gamma\max_a \sum_{s^\prime}\Pr({s^\prime}|s, a)V_2(s^\prime) | \\ &= \gamma|\max_a\sum_{s^\prime}[\Pr(s^\prime|s,a)(V_1(s^\prime) - V_2(s^\prime))]| \\ &\leq \gamma \max_s| V_1(s) - V_2(s)| \quad \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \forall s \in S \end{align*}
Thus,
\max_s|BV_1(s) - BV_2(s)| \leq \gamma \max_s| V_1(s) - V_2(s)|

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市希太,隨后出現(xiàn)的幾起案子克饶,更是在濱河造成了極大的恐慌,老刑警劉巖誊辉,帶你破解...
    沈念sama閱讀 221,430評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矾湃,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡堕澄,警方通過(guò)查閱死者的電腦和手機(jī)洲尊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)奈偏,“玉大人坞嘀,你說(shuō)我怎么就攤上這事【矗” “怎么了丽涩?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,834評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)裁蚁。 經(jīng)常有香客問(wèn)我矢渊,道長(zhǎng),這世上最難降的妖魔是什么枉证? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,543評(píng)論 1 296
  • 正文 為了忘掉前任矮男,我火速辦了婚禮,結(jié)果婚禮上室谚,老公的妹妹穿的比我還像新娘毡鉴。我一直安慰自己崔泵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,547評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布猪瞬。 她就那樣靜靜地躺著憎瘸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪陈瘦。 梳的紋絲不亂的頭發(fā)上幌甘,一...
    開(kāi)封第一講書(shū)人閱讀 52,196評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音痊项,去河邊找鬼锅风。 笑死,一個(gè)胖子當(dāng)著我的面吹牛鞍泉,可吹牛的內(nèi)容都是我干的皱埠。 我是一名探鬼主播,決...
    沈念sama閱讀 40,776評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼塞弊,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼漱逸!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起游沿,我...
    開(kāi)封第一講書(shū)人閱讀 39,671評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤饰抒,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后诀黍,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體袋坑,經(jīng)...
    沈念sama閱讀 46,221評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,303評(píng)論 3 340
  • 正文 我和宋清朗相戀三年眯勾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了枣宫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,444評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡吃环,死狀恐怖也颤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情郁轻,我是刑警寧澤翅娶,帶...
    沈念sama閱讀 36,134評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站好唯,受9級(jí)特大地震影響竭沫,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜骑篙,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,810評(píng)論 3 333
  • 文/蒙蒙 一蜕提、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧靶端,春花似錦谎势、人聲如沸凛膏。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,285評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)译柏。三九已至镣煮,卻和暖如春姐霍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背典唇。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,399評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工镊折, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人介衔。 一個(gè)月前我還...
    沈念sama閱讀 48,837評(píng)論 3 376
  • 正文 我出身青樓恨胚,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親炎咖。 傳聞我的和親對(duì)象是個(gè)殘疾皇子赃泡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,455評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 11.1 齒輪傳動(dòng)的失效形式和設(shè)計(jì)準(zhǔn)則 11.1.1 失效形式 齒輪傳動(dòng)的失效通常發(fā)生在輪齒部位,其主要失效形式有...
    kotw_zjc閱讀 2,215評(píng)論 0 1
  • 10.1 螺紋連接 10.1.1 概述 螺紋即可以構(gòu)成固定連接乘盼,如螺紋連接升熊,也可以構(gòu)成動(dòng)連接,即螺紋副绸栅,螺紋副的運(yùn)...
    kotw_zjc閱讀 2,415評(píng)論 0 0
  • 一具垫,Map 如果程序中存儲(chǔ)了幾百萬(wàn)個(gè)學(xué)生集畅,而且經(jīng)常需要使用學(xué)號(hào)來(lái)搜索某個(gè)學(xué)生,那么這個(gè)需求有效的數(shù)據(jù)結(jié)構(gòu)就是Map...
    隨便_7189閱讀 212評(píng)論 0 0
  • 當(dāng)失去你的時(shí)候,整個(gè)世界都失去了色彩绿映。正如電影所采用的敘事手法:曾經(jīng),是歡樂(lè)的斑斕世界淆院,花花草草都像冬日里陽(yáng)光照射...
    馬小尕閱讀 425評(píng)論 1 3
  • 戊戌狗年的春節(jié)薄风,遍布全球的簡(jiǎn)書(shū)時(shí)差黨們?cè)谌豪锱e辦了春節(jié)晚會(huì),一起歡喜熱鬧地過(guò)年竹观,一起看春晚镐捧,曬年夜飯,對(duì)對(duì)聯(lián)……海...
    寧曾閱讀 500評(píng)論 10 23