1. 策略迭代算法:
- 初始化.
- 策略評(píng)估:(一般而言咸产,下式中為固定策略由于策略更新)
- 策略更新:
- 如果與上次迭代相比沒有變化奢浑,則停止饮焦;否則琼掠,轉(zhuǎn)回2拒垃。
2. 策略改進(jìn)分析
(Lemma 1)策略更新可以使得單調(diào)遞增,最終收斂于瓷蛙。
假設(shè)第k次迭代前的策略為, 迭代后的策略為. 而為下的貪婪策略悼瓮。所以需要證明,
下面證明更加通用的定理:
(Lemma 2)對(duì)任意的和艰猬,并且對(duì)于任意的,
這里是折扣的state occupancy横堡,由從起始狀態(tài)引入。Proof:
考慮一個(gè)策略序列, 其中 對(duì)于任意中間的是一個(gè)隨時(shí)間變化的策略命贴,前個(gè)時(shí)間步采用策略而后面的時(shí)間步采用策略。
根據(jù)差分求和食听,有胸蛛,
可見和僅在上的動(dòng)作選擇有差異,所以兩者的值函數(shù)差異就體現(xiàn)在
所以
綜上樱报,策略提升得證葬项。