1. 策略迭代算法:
- 初始化
.
- 策略評(píng)估:(一般而言咸产,下式中
為固定策略由于策略更新)
![]()
- 策略更新:
![]()
- 如果
與上次迭代相比沒有變化奢浑,則停止饮焦;否則琼掠,轉(zhuǎn)回2拒垃。
2. 策略改進(jìn)分析
(Lemma 1)策略更新可以使得
單調(diào)遞增,最終收斂于
瓷蛙。
假設(shè)第k次迭代前的策略為, 迭代后的策略為
. 而
為
下的貪婪策略悼瓮。所以需要證明,
下面證明更加通用的定理:
(Lemma 2)對(duì)任意的
和
艰猬,并且對(duì)于任意的
,
這里是折扣的state occupancy横堡,由
從起始狀態(tài)
引入。
Proof:
考慮一個(gè)策略序列
, 其中
對(duì)于任意中間的
是一個(gè)隨時(shí)間變化的策略命贴,前
個(gè)時(shí)間步采用策略
而后面的時(shí)間步采用策略
。
根據(jù)差分求和食听,有胸蛛,
策略集π.png
可見和
僅在
上的動(dòng)作選擇有差異,所以兩者的值函數(shù)差異就體現(xiàn)在
所以
綜上樱报,策略提升得證葬项。