1. 介紹
Policy gradient算法在增強(qiáng)學(xué)習(xí)中有非常多的應(yīng)用两蟀,尤其是動作空間連續(xù)的情況赂毯。通常我們使用一個函數(shù)來表示策略。通常policy gradient會從隨機(jī)策略中采樣烦感,然后優(yōu)化策略來得到更高的reward手趣。
這篇論文中绿渣,作者考慮的是deterministic policies中符。作者證明誉帅,deterministic policy是隨機(jī)policy的極限,當(dāng)policy variance趨于0的時候吧凉。
為了能夠探索足夠多的state和動作空間阀捅,隨機(jī)policy是必須的饲鄙。因此忍级,為了使得deterministic policy gradient有令人滿意的探索的效果伪朽,作者使用了off-policy learning 算法烈涮。簡單地說,根據(jù)隨機(jī)behavior policy來選擇動作戈稿,但是學(xué)習(xí)deterministic target policy鞍盗。作者使用deterministic policy gradient來學(xué)習(xí)一個actor-critic算法般甲,用于估計action-value庐舟。
2. 算法背景
policy gradient算法的思路就是朝著performance gradient 調(diào)整policy的參數(shù)挪略。如下:
2.3 隨機(jī)Actor-Critic 算法
Actor-critic算法包含一個actor杠娱,它根據(jù)上面的公式調(diào)整參數(shù)摊求。但是它不知道。因此硫惕,增加一個critic還學(xué)習(xí)野来,作為真實的一個估計曼氛,它通常會使用一個policy evalution算法舀患,例如TD learning。
通常情況下餐抢,使用critic會導(dǎo)致偏差(因為估計的值和真實值之間有誤差)弹澎,但是如果 1)苦蒿, 2)最小化MSE:
2.4 Off-Policy Actor-critic
有時候我們需要計算的策略梯度并不對應(yīng)采集的樣本的策略 佩迟,這就是off-policy报强。在這種問題中拱燃,performance object也就是通常需要修改
對上式求導(dǎo)得到off-policy policy-gradient
3. Gradients of Deterministic Policies
3.1 Action-Value Gradients
大多數(shù)的model-free 增強(qiáng)學(xué)習(xí)算法基于policy iteration:交替地進(jìn)行policy evaluation 和 policy improvement弄跌。Policy evaluation用于估計action-value函數(shù): 或者 铛只。Policy improvement用于根據(jù)當(dāng)前的action-value來更新策略,例如貪婪策略淳玩。
在動作空間連續(xù)的時候蜕着,就很難進(jìn)行貪婪策略,因為得不到全局最大值。因此悄雅,一個簡單铁蹈,計算要求不高的代替是將策略向的梯度移動握牧。對于每一個狀態(tài),policy parameters 使用梯度進(jìn)行更新览徒。取平均得到下面公式:
使用chain rule习蓬,分解為下面公式:
3.2 Deterministic Policy Gradient Theorem
考慮一個deterministic policy ,我們可以定義performance objective 企巢,probability distribution ,discounted state distribution 浪规,將performance objective寫為:
Theorem 1(Deterministic Policy Gradient Theorem)
3.3 Limit of the Stochastic Policy Gradient
在這一部分作者證明來deterministic policy gradient 是stochastic policy gradient的極限情況罗丰。
4. Deterministic Actor-Critic Algorithms
有了deterministic policy gradient theorem萌抵,接下來推導(dǎo)on-policy off-policy actor-critic algorithms元镀。
4.1 On-Policy Deterministic Actor-Critic
4.2 Off-Policy Deterministic Actor-Critic
Performance objective of target policy, averaged over the state distribution of the behavior policy
求導(dǎo)