讀論文Deterministic Policy Gradient Algorithms

近期打算把基于策略梯度的增強學習的幾篇論文讀了傻寂,包括DPG、DDPG硝清、TRPO和A3C屋谭,希望能對策略梯度的學習有一個促進脚囊。

第一篇論文是Deterministic Policy Gradient Algorithms,簡稱DPG桐磁,也是deepmind發(fā)表的凑术,后面又出了一篇論文DeepDPG,簡稱DDPG所意。很多基于策略梯度學習的論文都會選擇DDPG算法進行效果比較淮逊。

論文講了很多理論基礎知識,正好學習一下

1扶踊、策略梯度(概率策略)

在MDP過程中泄鹏,我們尋找是一個能使累計獎賞最大化的策略,目標函數(shù)定義如下:


策略梯度的想法就是沿著使目標函數(shù)變大的方向調整策略的參數(shù):


這就是策略梯度的公式秧耗,出乎意料的簡單

2备籽、Actor-Critic算法

Actor-Critic算法網上用的最經典的圖如下:


Actor-Critic算法把策略函數(shù)和價值函數(shù)分別用單獨的網絡來近似, 策略函數(shù)作為Actor來做動作選擇,價值函數(shù)作為Critic來對策略函數(shù)進行評估车猬,根據Critic的輸出來更新價值網絡和策略網霉猛,把論文后面的幾個公式放在這里描述一下整個的更新過程:


3、Off-Policy

Off-policy就是通過其他的策略形成的采樣樣本來更新當前的策略珠闰,籠統(tǒng)來講惜浅,如果我們考慮greedy算法,off-policy和on-policy的差異沒有那么大伏嗜。論文還是列了一下策略梯度的不同的地方坛悉,意思是采樣是服從有一個比率的重點采樣,但是梯度方向是沒有變化的承绸。


4裸影、Deterministic Policy Gradient Theorem

論文附錄中有證明,當概率策略的方差趨近于0的時候军熏,就是確定性策略轩猩,公式9就是公式2的特例


5、Compatible Function Approximation

對合理的Q函數(shù)近似還是有一定要求的荡澎,才能滿足模擬函數(shù)Q的梯度等于真實Q的梯度


最后均践,最重要的迭代公式:


我不告訴你,我沒看懂衔瓮,如何通過策略函數(shù)的梯度來線性近似表示Q函數(shù)。

最后論文通過比較stochastic on-policy actor-critic

(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic

off-policy actor-critic (COPDAC)在連續(xù)的動作空間的游戲的表現(xiàn)說明DPG的算法效率比較高抖甘,效果也不錯热鞍。


論文也給出了DPG在ba z八抓魚中的測試,隨著迭代的進行衔彻,reward有一直增長的趨勢薇宠,具體數(shù)據看論文吧。

結論:


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末艰额,一起剝皮案震驚了整個濱河市澄港,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌柄沮,老刑警劉巖回梧,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異祖搓,居然都是意外死亡狱意,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門拯欧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來详囤,“玉大人,你說我怎么就攤上這事镐作〔亟悖” “怎么了隆箩?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長羔杨。 經常有香客問我捌臊,道長,這世上最難降的妖魔是什么问畅? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任娃属,我火速辦了婚禮,結果婚禮上护姆,老公的妹妹穿的比我還像新娘矾端。我一直安慰自己,他們只是感情好卵皂,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布秩铆。 她就那樣靜靜地躺著,像睡著了一般灯变。 火紅的嫁衣襯著肌膚如雪殴玛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天添祸,我揣著相機與錄音滚粟,去河邊找鬼。 笑死刃泌,一個胖子當著我的面吹牛凡壤,可吹牛的內容都是我干的。 我是一名探鬼主播耙替,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼亚侠,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了俗扇?” 一聲冷哼從身側響起硝烂,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎铜幽,沒想到半個月后滞谢,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡除抛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年爹凹,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镶殷。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡禾酱,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情颤陶,我是刑警寧澤颗管,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站滓走,受9級特大地震影響垦江,放射性物質發(fā)生泄漏。R本人自食惡果不足惜搅方,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一比吭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧姨涡,春花似錦衩藤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至匈仗,卻和暖如春瓢剿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背悠轩。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工间狂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人火架。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓鉴象,卻偏偏與公主長得像,于是被迫代替她去往敵國和親距潘。 傳聞我的和親對象是個殘疾皇子炼列,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內容