Q學(xué)習(xí)延伸至DDPG算法公式

Q learning原始損失函數(shù)定義:

\mathbf L(\theta^Q)=\mathbb E_{s_t\sim \rho^\beta, a_t \sim \beta, r_t} \sim E \bigl[ \bigl( Q(s_t, a_t \vert \theta^Q) - y_t \bigr)^2 \bigr]

Q的貝爾曼方程:

Q^\pi(s_t, a_t) = \mathbb E_{r_t, s_{t+1}} \sim E \Bigl[r(s_t,a_t) + \gamma\mathbb E_{a_{t+1}} \sim \pi \bigl[ Q^\pi (s_{t+1, a_{t+1}}) \bigr] \Bigr]

確定性策略的Q定義:

Q^\mu(s_t, a_t)=\mathbb E_{r_t,s_{t+1}} \sim E \bigl[ r(s_t, a_t) + \gamma Q^\mu(s_{t+1}, \mu(s_{t+1})) \bigr]

  • 其中的action a就是由\mu(s_{t+1})確定的。而\mu(s)=argmax_aQ(s,a)

DPG的軌跡分布函數(shù)定義:

\bigtriangledown_{\theta^\mu}J \approx \mathbb E_{s_t \sim \rho^\beta} \bigl[ \bigtriangledown_{\theta^\mu}Q(s,a \vert \theta^Q)\vert s=s_T, a=s_t \vert \theta^\mu \mu (s_t \vert \theta^\mu) \bigr]
\qquad\quad = \mathbb E_{s_t \sim \rho^\beta} \bigl[ \bigtriangledown_{a}Q(s,a \vert \theta^Q)\vert s=s_T, a = \mu (s_t) \triangledown_{\theta} \mu(s_t \vert \theta^\mu)) \vert s=s_t \bigr]

DDPG改進(jìn):

  • 利用分布式獨(dú)立探索良哲,在策略中加入一個來自軌跡N的噪音
    \mu^{'}(s_t) = \mu(s_t \vert \theta_t^\mu) + N
  • Loss function:
    L = {1 \over N}\sum_i (y_i - Q(s_i, a_i \vert \theta^Q))^2
    定義:\qquad y_i = r_i + \gamma Q^{'}(s_{i+1}, \mu^{'}(s_i+1 \vert \theta^{\mu^{'}}) \vert \theta^{Q^{'}})
  • 參數(shù)更新方式,2個部分:
    \theta ^ {Q^{'}} \leftarrow \tau \theta ^ Q + (1-\tau) \theta ^ {Q^{'}}
    \theta ^ {\mu ^ {'}} \leftarrow \tau \theta ^\mu +(1 - \tau)\theta^{\mu^{'}}

策略梯度的只管解釋
隨機(jī)策略梯度的計算公式為:
\triangledown_{\theta}J(\pi_{theta}) = E_{s \ \rho^\pi, a\ \pi_\theta} \bigl[\triangledown_\theta \ log \pi_\theta(a|s)Q^\pi(s,a)\bigr]

經(jīng)驗平均估計策略的梯度:
\triangledown_\theta U(\theta) \approx {1 \over m } \sum_{i=1}^{m} \triangledown_\theta log P(\tau; \theta) R(\tau)

\triangledown_\theta log P(\tau; \theta)是方向向量宠哄,而且其方向是\triangledown_\theta log P(\tau; \theta)對于參數(shù) \theta變化最快的方向忘朝,參數(shù)在這個方向上更新可以增大或者降低log P(\tau; \theta) ,也就是能增大或者降低軌跡\tau的概率P(\tau; \theta)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末赁濒,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子孟害,更是在濱河造成了極大的恐慌拒炎,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件挨务,死亡現(xiàn)場離奇詭異击你,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)谎柄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進(jìn)店門丁侄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人朝巫,你說我怎么就攤上這事鸿摇。” “怎么了劈猿?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵户辱,是天一觀的道長。 經(jīng)常有香客問我糙臼,道長,這世上最難降的妖魔是什么恩商? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任变逃,我火速辦了婚禮,結(jié)果婚禮上怠堪,老公的妹妹穿的比我還像新娘揽乱。我一直安慰自己,他們只是感情好粟矿,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布凰棉。 她就那樣靜靜地躺著,像睡著了一般陌粹。 火紅的嫁衣襯著肌膚如雪撒犀。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天,我揣著相機(jī)與錄音或舞,去河邊找鬼荆姆。 笑死,一個胖子當(dāng)著我的面吹牛映凳,可吹牛的內(nèi)容都是我干的胆筒。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼诈豌,長吁一口氣:“原來是場噩夢啊……” “哼仆救!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起矫渔,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤彤蔽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蚌斩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體铆惑,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年送膳,在試婚紗的時候發(fā)現(xiàn)自己被綠了员魏。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡叠聋,死狀恐怖撕阎,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情碌补,我是刑警寧澤虏束,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站厦章,受9級特大地震影響镇匀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜袜啃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一汗侵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧群发,春花似錦晰韵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至起愈,卻和暖如春只恨,著一層夾襖步出監(jiān)牢的瞬間译仗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工坤次, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留古劲,地道東北人。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓缰猴,卻偏偏與公主長得像产艾,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子滑绒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評論 2 361