1. 馬爾科夫決策過(guò)程
馬爾科夫決策過(guò)程(Markov Decision Process) 是一個(gè)由4個(gè)元素組成的元祖組成。
為狀態(tài);
為動(dòng)作;
為概率轉(zhuǎn)移腌零,指定
; R為獎(jiǎng)勵(lì)函數(shù)梯找,指定
;也可以指定為
益涧。
很容易定義狀態(tài)函數(shù)為折扣獎(jiǎng)勵(lì)的累計(jì)期望初肉,折扣比例
。
從后向傳播的觀點(diǎn)——當(dāng)前的價(jià)值函數(shù)為及時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)的期望之和饰躲,有:
寫(xiě)成矩陣的形式牙咏,求解即為求解線(xiàn)性方程組:
最優(yōu)的價(jià)值函數(shù), 滿(mǎn)足:
2. 價(jià)值迭代算法
價(jià)值迭代的算法如下:
- 初始化
![]()
- 不斷迭代更新
![]()
理解價(jià)值迭代嘹裂,需要理解最優(yōu)算子是個(gè)壓縮映射妄壶。 定義
最優(yōu)算子
如下,
由于是壓縮映射寄狼,存在唯一的不動(dòng)點(diǎn)
丁寄。這就是上述價(jià)值迭代算法的收斂原理,對(duì)
進(jìn)行多次迭代后泊愧,會(huì)收斂到最優(yōu)價(jià)值函數(shù)
伊磺。
壓縮映射具有如下性質(zhì): 對(duì)任意和
,有
上述性質(zhì)說(shuō)明了這樣一個(gè)事情: 對(duì)于進(jìn)行迭代后删咱,更新后的
與原來(lái)的
屑埋,最大誤差不超過(guò)
(因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cgamma%20%3C%201" alt="\gamma < 1" mathimg="1">)。也就是每次迭代后痰滋,誤差以比例
減小摘能。
利用上面壓縮性質(zhì),可以證明價(jià)值迭代算法的收斂性敲街。(下面方框中的內(nèi)容团搞,可以暫時(shí)跳過(guò))
首先,假設(shè)馬爾科夫決策過(guò)程中的獎(jiǎng)勵(lì)
是有界的多艇,即
逻恐。根據(jù)等比數(shù)列性質(zhì),那么
也是有上界的峻黍。
那么复隆,任意一次迭代過(guò)程中的值與
之間的差最大為
。利用壓縮性質(zhì)有奸披,
對(duì)初值進(jìn)行一次迭代后昏名,
可以看到,每次迭代后阵面,最大誤差以比例減小。
3. 策略迭代算法
策略迭代算法如下:
- 初始化
.
- 策略評(píng)估:(一般而言,下式中
為固定策略由于策略更新)
![]()
- 策略更新:
![]()
- 如果
與上次迭代相比沒(méi)有變化样刷,則停止仑扑;否則,轉(zhuǎn)回2置鼻。
更多關(guān)于策略迭代的分析镇饮,請(qǐng)看這里。
4. 線(xiàn)性規(guī)劃算法
線(xiàn)性規(guī)劃算法如下:
理解如下箕母,假設(shè)不等式約束以等式成立储藐,那么滿(mǎn)足最優(yōu)算子;如果存在某個(gè)
使得不等式約束存在嚴(yán)格大于嘶是,優(yōu)化目標(biāo)一定會(huì)使得這個(gè)
繼續(xù)減小钙勃,直至不等式約束以等式存在。所以最終的目標(biāo)聂喇,使得
滿(mǎn)足
方程最優(yōu)解辖源。
5. 附錄
-
最優(yōu)算子收縮性質(zhì)證明
Thus,