actor-critic

1.? actor是 policy-gradient种远,? critic是 類似于q-learning的value-based 的另一個代表:? state-value 揭北,所以actor-critic是 policy-gradient和q-learning思想的結合攻晒。

2.? actor critic 雖然可以做到step更新幔嫂,而非基礎的policy gradient的 episode更新泽疆,但是也有它的缺點榜晦,就是在連續(xù)空間中做step更新虏肾,相鄰step直接的相關性太大,這樣的話learn的質量大大地受影響欢搜,直到 google 提出 DDPG(也就是 ac+DQN)策略封豪, 才算解決這個問題。這是后面說的炒瘟,我們當前先看基礎的actor critic:

3. 具體到graph結構:



再看? critic網(wǎng)絡:



注意:? ? 雖然Actor-Critic是一個非常棒的idea吹埠, 可以結合 q-learning的 單step更新, 也可以利用policy-gradient的直接優(yōu)化policy疮装, 但是缘琅,這種結合的背后,我覺得有問題廓推!

你在形式上看看刷袍, AC算法也就是把PG算法的 normalized Vt 替換成了 TD_error.? 形式上,感覺很棒樊展,但事實上呻纹,這有問題! 之前normalized Vt专缠,是有正負的雷酪, 正的代表梯度方向增大?\theta , 從而增大 該s-a概率涝婉, 如果vt為負哥力,那么就朝著梯度下降的方向減小\theta ,這種可以調大和調小?\pi 的方式嘁圈,非常合理省骂, 但是,TD_error最住,你去看程序钞澳,會發(fā)現(xiàn)它是 gamma*v_ +r - v_的 平方。 總是為正涨缚, 其實 log P * TD_error總是一個負值轧粟,根據(jù)\theta 梯度上升的公式,? 實質上一直要減小\theta 值脓魏, 只是由于 TD_error的不斷減小兰吟,導致這個\theta 的更新幅度一直趨小,但總而言之茂翔,這種一直減小s-a的\pi 值的做法混蔼,不甚合理。 在Movan的那個實例中珊燎, 這種AC算法惭嚣, 表現(xiàn)非常差遵湖! 是一直都不收斂!? ?

Movan對此的解釋說晚吞,是由于AC在連續(xù)狀態(tài)下的相關性沒有解決延旧,從而導致的問題。 我覺得是有這個原因槽地,但是我覺得 這種TD_error總是為正的做法迁沫,肯定也是性能不好的主要原因!? (這個地方捌蚊,其實值得探索<)


但是,不管怎么收逢勾,? 從基礎版的 policy gradient 到 現(xiàn)在的 AC牡整,已經(jīng)做到了改進藐吮,? 表現(xiàn)在:? 可以單step做更新 (相比于之前整個episode才能算出的normalized vt溺拱,這里僅需要單step就可以求出state s的v 與 state s_的v_ 的 TD_error )。

只不過谣辞,AC的TD_error更新迫摔,不夠精確,也不夠穩(wěn)定泥从,而且連續(xù)空間中的 s和 s_之間存在明顯的相關性句占, 如何去掉這種相關性,并且提升準確性和穩(wěn)定性躯嫉?? 那就來個 AC的DQN版本纱烘,actor 和 critic各有兩個神經(jīng)網(wǎng)絡, 來達到效果祈餐, 這個AC的DQN版本擂啥, 就叫做DDPG (DDPG的第二個D,就是Determisitic帆阳,其實就是用Actor的eval_net)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末哺壶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蜒谤,更是在濱河造成了極大的恐慌山宾,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鳍徽,死亡現(xiàn)場離奇詭異资锰,居然都是意外死亡,警方通過查閱死者的電腦和手機阶祭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門绷杜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來翎猛,“玉大人,你說我怎么就攤上這事接剩∏欣澹” “怎么了?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵懊缺,是天一觀的道長疫稿。 經(jīng)常有香客問我,道長鹃两,這世上最難降的妖魔是什么遗座? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮俊扳,結果婚禮上途蒋,老公的妹妹穿的比我還像新娘。我一直安慰自己馋记,他們只是感情好号坡,可當我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著梯醒,像睡著了一般宽堆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上茸习,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天畜隶,我揣著相機與錄音,去河邊找鬼号胚。 笑死籽慢,一個胖子當著我的面吹牛,可吹牛的內容都是我干的猫胁。 我是一名探鬼主播箱亿,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼杜漠!你這毒婦竟也來了极景?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤驾茴,失蹤者是張志新(化名)和其女友劉穎盼樟,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體锈至,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡晨缴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了峡捡。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片击碗。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡筑悴,死狀恐怖,靈堂內的尸體忽然破棺而出稍途,到底是詐尸還是另有隱情阁吝,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布械拍,位于F島的核電站突勇,受9級特大地震影響,放射性物質發(fā)生泄漏坷虑。R本人自食惡果不足惜甲馋,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望迄损。 院中可真熱鬧定躏,春花似錦、人聲如沸芹敌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽党窜。三九已至拗引,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間幌衣,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工壤玫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留豁护,地道東北人。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓欲间,卻偏偏與公主長得像楚里,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子猎贴,可洞房花燭夜當晚...
    茶點故事閱讀 44,779評論 2 354