Deterministic Policy Gradient Algorithms 筆記

1. 介紹

Policy gradient算法在增強(qiáng)學(xué)習(xí)中有非常多的應(yīng)用两蟀,尤其是動作空間連續(xù)的情況赂毯。通常我們使用一個函數(shù)來表示策略\pi_{\theta} (a|s) = P[a|s;\theta]。通常policy gradient會從隨機(jī)策略中采樣烦感,然后優(yōu)化策略來得到更高的reward手趣。
這篇論文中绿渣,作者考慮的是deterministic policiesa = \mu_\theta (s)中符。作者證明誉帅,deterministic policy是隨機(jī)policy的極限,當(dāng)policy variance趨于0的時候吧凉。
為了能夠探索足夠多的state和動作空間阀捅,隨機(jī)policy是必須的饲鄙。因此忍级,為了使得deterministic policy gradient有令人滿意的探索的效果伪朽,作者使用了off-policy learning 算法烈涮。簡單地說,根據(jù)隨機(jī)behavior policy來選擇動作戈稿,但是學(xué)習(xí)deterministic target policy鞍盗。作者使用deterministic policy gradient來學(xué)習(xí)一個actor-critic算法般甲,用于估計action-value庐舟。

2. 算法背景

policy gradient算法的思路就是朝著performance gradient \bigtriangledown_\theta J(\pi_\theta) 調(diào)整policy的參數(shù)挪略。如下:

2

2.3 隨機(jī)Actor-Critic 算法

Actor-critic算法包含一個actor杠娱,它根據(jù)上面的公式調(diào)整參數(shù)摊求。但是它不知道Q^\pi。因此硫惕,增加一個critic還學(xué)習(xí)Q野来,Q^w(s,a)作為真實Q的一個估計曼氛,它通常會使用一個policy evalution算法舀患,例如TD learning。
通常情況下餐抢,使用critic會導(dǎo)致偏差(因為估計的值和真實值之間有誤差)弹澎,但是如果 1)Q^w(s,a)=\bigtriangledown_\theta log \pi_\theta (a|s)^Tw苦蒿, 2)w最小化MSE:

MSE

2.4 Off-Policy Actor-critic

有時候我們需要計算的策略梯度并不對應(yīng)采集的樣本的策略 \beta(a|s) \ne \pi_\theta(a|s)佩迟,這就是off-policy报强。在這種問題中拱燃,performance object也就是J通常需要修改

off-policy

對上式求導(dǎo)得到off-policy policy-gradient
4召嘶,5

3. Gradients of Deterministic Policies

3.1 Action-Value Gradients

大多數(shù)的model-free 增強(qiáng)學(xué)習(xí)算法基于policy iteration:交替地進(jìn)行policy evaluation 和 policy improvement弄跌。Policy evaluation用于估計action-value函數(shù):Q^\pi(s,a) 或者 Q^\mu (s,a)铛只。Policy improvement用于根據(jù)當(dāng)前的action-value來更新策略,例如貪婪策略淳玩。
在動作空間連續(xù)的時候蜕着,就很難進(jìn)行貪婪策略,因為得不到全局最大值。因此悄雅,一個簡單铁蹈,計算要求不高的代替是將策略向Q的梯度移動握牧。對于每一個狀態(tài)s,policy parameters \theta^{k+1}使用梯度\bigtriangledown_\theta Q^{\mu^k}(s, \mu_\theta(s))進(jìn)行更新览徒。取平均得到下面公式:

6

使用chain rule习蓬,分解為下面公式:
7

3.2 Deterministic Policy Gradient Theorem

考慮一個deterministic policy \mu_\theta:S \to A,我們可以定義performance objective J(\mu_\theta) = E[r_1^{\gamma} | \mu]企巢,probability distribution p(s \to s' ,t,\mu),discounted state distribution \rho^\mu(s)浪规,將performance objective寫為:

8

Theorem 1(Deterministic Policy Gradient Theorem)


9

3.3 Limit of the Stochastic Policy Gradient

在這一部分作者證明來deterministic policy gradient 是stochastic policy gradient的極限情況罗丰。

4. Deterministic Actor-Critic Algorithms

有了deterministic policy gradient theorem萌抵,接下來推導(dǎo)on-policy off-policy actor-critic algorithms元镀。

4.1 On-Policy Deterministic Actor-Critic

On-Policy

4.2 Off-Policy Deterministic Actor-Critic

Performance objective of target policy, averaged over the state distribution of the behavior policy


14

求導(dǎo)


15
off-policy

4.3 Compatible Function Approximation

COPDAC-GQ
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末滔驶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子揭糕,更是在濱河造成了極大的恐慌著角,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件奄容,死亡現(xiàn)場離奇詭異昂勒,居然都是意外死亡舟铜,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進(jìn)店門奕谭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來血柳,“玉大人生兆,你說我怎么就攤上這事「酰” “怎么了击敌?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵拴事,是天一觀的道長圣蝎。 經(jīng)常有香客問我徘公,道長关面,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任等太,我火速辦了婚禮澈驼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘挎塌。我一直安慰自己,他們只是感情好待锈,可當(dāng)我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布竿音。 她就那樣靜靜地躺著拴驮,像睡著了一般。 火紅的嫁衣襯著肌膚如雪宽气。 梳的紋絲不亂的頭發(fā)上潜沦,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天唆鸡,我揣著相機(jī)與錄音,去河邊找鬼争占。 笑死序目,一個胖子當(dāng)著我的面吹牛宛琅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播嘿辟,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼红伦,長吁一口氣:“原來是場噩夢啊……” “哼昙读!你這毒婦竟也來了膨桥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎册舞,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盛杰,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡即供,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年募狂,在試婚紗的時候發(fā)現(xiàn)自己被綠了角雷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖吗坚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情车份,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布出爹,位于F島的核電站严就,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏梢为。R本人自食惡果不足惜铸董,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一肴沫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦孽文、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拔疚。三九已至,卻和暖如春栋艳,著一層夾襖步出監(jiān)牢的瞬間吸占,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工兼蕊, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留孙技,地道東北人骤坐。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓纽绍,卻偏偏與公主長得像,于是被迫代替她去往敵國和親僧著。 傳聞我的和親對象是個殘疾皇子障簿,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容