PPO和DPPO

? PPO:? A2C算法的改進版,主要是為了解決 ‘learning rate 不易設置的問題’棒动, DPPO是 PPO的distributed版本恋博, 比如10個worker,每個worker都有獨立的experience涨冀。? 由于可以避免experience間的相關性填硕,所以DPPO明顯優(yōu)于PPO。

注: PPO已經(jīng)是OpenAI的默認強化學習算法鹿鳖!

DPPO是PPO的分布式多worker版本扁眯。這里主要討論PPO。?

PPO其實就是為了解決learning rate不易控制的問題翅帜,主要是如果將learning rate設置得過小姻檀,訓練時間太長,效率太差涝滴! 如果設置得過大绣版,又容易錯過最優(yōu)解。 PPO其實就是一種可以 自適應 learning rate的AC算法歼疮。 critic訓練的標準仍然是最小化s-v值的TD_error杂抽。而在actor端,更新的標準不再是固定的 P(s-a)*vt韩脏, 而是改寫成? P*At? ? (其中At指的是s下獲得的advantage)缩麸,而且這個P,不再是固定的從神經(jīng)網(wǎng)絡中得到赡矢,而是 考慮 舊P和新P之間的差異杭朱,并且按照這種差異作出自適應的調整阅仔, DeepMind用的是一個懲罰函數(shù) KL,而OpenAI用的方法是可以將new P比舊P的更新幅度限定在某個程度范圍內弧械。

具體的介紹八酒,參見:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/

具體的代碼,參見:https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/12_Proximal_Policy_Optimization/DPPO.py

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末梦谜,一起剝皮案震驚了整個濱河市丘跌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌唁桩,老刑警劉巖闭树,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異荒澡,居然都是意外死亡报辱,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門单山,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碍现,“玉大人,你說我怎么就攤上這事米奸≈缃樱” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵悴晰,是天一觀的道長慢睡。 經(jīng)常有香客問我,道長铡溪,這世上最難降的妖魔是什么漂辐? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮棕硫,結果婚禮上髓涯,老公的妹妹穿的比我還像新娘。我一直安慰自己哈扮,他們只是感情好纬纪,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著滑肉,像睡著了一般育八。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上赦邻,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音实檀,去河邊找鬼惶洲。 笑死按声,一個胖子當著我的面吹牛,可吹牛的內容都是我干的恬吕。 我是一名探鬼主播签则,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼铐料!你這毒婦竟也來了渐裂?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤钠惩,失蹤者是張志新(化名)和其女友劉穎柒凉,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體篓跛,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡膝捞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了愧沟。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蔬咬。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖沐寺,靈堂內的尸體忽然破棺而出林艘,到底是詐尸還是另有隱情,我是刑警寧澤混坞,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布狐援,位于F島的核電站,受9級特大地震影響拔第,放射性物質發(fā)生泄漏咕村。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一蚊俺、第九天 我趴在偏房一處隱蔽的房頂上張望懈涛。 院中可真熱鬧,春花似錦泳猬、人聲如沸批钠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽埋心。三九已至,卻和暖如春忙上,著一層夾襖步出監(jiān)牢的瞬間拷呆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留茬斧,地道東北人腰懂。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像项秉,于是被迫代替她去往敵國和親绣溜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345