PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING

Neil Zhu,簡書ID Not_GOD挎袜,University AI 創(chuàng)始人 & Chief Scientist顽聂,致力于推進世界人工智能化進程肥惭。制定并實施 UAI 中長期增長戰(zhàn)略和目標(biāo),帶領(lǐng)團隊快速成長為人工智能領(lǐng)域最專業(yè)的力量紊搪。
作為行業(yè)領(lǐng)導(dǎo)者务豺,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團), DL Center(深度學(xué)習(xí)知識中心全球價值網(wǎng)絡(luò)),AI growth(行業(yè)智庫培訓(xùn))等嗦明,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分笼沥。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動娶牌,產(chǎn)生了巨大的影響力奔浅,書寫了60萬字的人工智能精品技術(shù)內(nèi)容,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》诗良,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載汹桦。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評鉴裹。

Brendan O’Donoghue, Rémi Munos, Koray Kavukcuoglu & Volodymyr Mnih
Deepmind

Policy gradient is an efficient technique for improving a policy in a reinforcement
learning setting. However, vanilla online variants are on-policy only and not able to take advantage of off-policy data. In this paper we describe a new technique that combines policy gradient with off-policy Q-learning, drawing experience from a replay buffer.
This is motivated by making a connection between the fixed points of the regularized policy gradient algorithm and the Q-values. This connection allows us to estimate the Q-values from the action preferences of the policy, to which we apply Q-learning updates. We refer to the new technique as ‘PGQ’, for policy gradient and Q-learning.
We also establish an equivalency between action-value fitting techniques and actor-critic algorithms, showing that regularized policy gradient techniques can be interpreted as advantage function learning algorithms. We conclude with some numerical examples that demonstrate improved data efficiency and stability of PGQ.
In particular, we tested PGQ on the full suite of Atari games and achieved performance exceeding that of both asynchronous advantage actor-critic (A3C) and Q-learning.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末舞骆,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子径荔,更是在濱河造成了極大的恐慌督禽,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件总处,死亡現(xiàn)場離奇詭異狈惫,居然都是意外死亡,警方通過查閱死者的電腦和手機鹦马,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門胧谈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人荸频,你說我怎么就攤上這事菱肖。” “怎么了旭从?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵稳强,是天一觀的道長。 經(jīng)常有香客問我遇绞,道長键袱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任摹闽,我火速辦了婚禮蹄咖,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘付鹿。我一直安慰自己澜汤,他們只是感情好蚜迅,可當(dāng)我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著俊抵,像睡著了一般谁不。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上徽诲,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天刹帕,我揣著相機與錄音,去河邊找鬼谎替。 笑死偷溺,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的钱贯。 我是一名探鬼主播挫掏,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼秩命!你這毒婦竟也來了尉共?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤弃锐,失蹤者是張志新(化名)和其女友劉穎袄友,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拿愧,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡杠河,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了浇辜。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡唾戚,死狀恐怖柳洋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情叹坦,我是刑警寧澤熊镣,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站募书,受9級特大地震影響绪囱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜莹捡,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一鬼吵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧篮赢,春花似錦齿椅、人聲如沸琉挖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽示辈。三九已至,卻和暖如春遣蚀,著一層夾襖步出監(jiān)牢的瞬間矾麻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工芭梯, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留射富,地道東北人。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓粥帚,卻偏偏與公主長得像胰耗,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子芒涡,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容