近期打算把基于策略梯度的增強學習的幾篇論文讀了傻寂,包括DPG、DDPG硝清、TRPO和A3C屋谭,希望能對策略梯度的學習有一個促進脚囊。
第一篇論文是Deterministic Policy Gradient Algorithms,簡稱DPG桐磁,也是deepmind發(fā)表的凑术,后面又出了一篇論文DeepDPG,簡稱DDPG所意。很多基于策略梯度學習的論文都會選擇DDPG算法進行效果比較淮逊。
論文講了很多理論基礎知識,正好學習一下
1扶踊、策略梯度(概率策略)
在MDP過程中泄鹏,我們尋找是一個能使累計獎賞最大化的策略,目標函數(shù)定義如下:
策略梯度的想法就是沿著使目標函數(shù)變大的方向調整策略的參數(shù):
這就是策略梯度的公式秧耗,出乎意料的簡單
2备籽、Actor-Critic算法
Actor-Critic算法網上用的最經典的圖如下:
Actor-Critic算法把策略函數(shù)和價值函數(shù)分別用單獨的網絡來近似, 策略函數(shù)作為Actor來做動作選擇,價值函數(shù)作為Critic來對策略函數(shù)進行評估车猬,根據Critic的輸出來更新價值網絡和策略網霉猛,把論文后面的幾個公式放在這里描述一下整個的更新過程:
3、Off-Policy
Off-policy就是通過其他的策略形成的采樣樣本來更新當前的策略珠闰,籠統(tǒng)來講惜浅,如果我們考慮greedy算法,off-policy和on-policy的差異沒有那么大伏嗜。論文還是列了一下策略梯度的不同的地方坛悉,意思是采樣是服從有一個比率的重點采樣,但是梯度方向是沒有變化的承绸。
4裸影、Deterministic Policy Gradient Theorem
論文附錄中有證明,當概率策略的方差趨近于0的時候军熏,就是確定性策略轩猩,公式9就是公式2的特例
5、Compatible Function Approximation
對合理的Q函數(shù)近似還是有一定要求的荡澎,才能滿足模擬函數(shù)Q的梯度等于真實Q的梯度
最后均践,最重要的迭代公式:
我不告訴你,我沒看懂衔瓮,如何通過策略函數(shù)的梯度來線性近似表示Q函數(shù)。
最后論文通過比較stochastic on-policy actor-critic
(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic
off-policy actor-critic (COPDAC)在連續(xù)的動作空間的游戲的表現(xiàn)說明DPG的算法效率比較高抖甘,效果也不錯热鞍。
論文也給出了DPG在ba z八抓魚中的測試,隨著迭代的進行衔彻,reward有一直增長的趨勢薇宠,具體數(shù)據看論文吧。
結論: