解析 DeepMind 采用雙 Q 學(xué)習(xí) (Double Q-Learning) 深度強(qiáng)化學(xué)習(xí)技術(shù)

Neil Zhu市袖,簡書ID Not_GOD咙鞍,University AI 創(chuàng)始人 & Chief Scientist苞冯,致力于推進(jìn)世界人工智能化進(jìn)程颗品。制定并實(shí)施 UAI 中長期增長戰(zhàn)略和目標(biāo)肯尺,帶領(lǐng)團(tuán)隊(duì)快速成長為人工智能領(lǐng)域最專業(yè)的力量。
作為行業(yè)領(lǐng)導(dǎo)者躯枢,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò))则吟,AI growth(行業(yè)智庫培訓(xùn))等,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分锄蹂。此外氓仲,他還參與或者舉辦過各類國際性的人工智能峰會(huì)和活動(dòng),產(chǎn)生了巨大的影響力得糜,書寫了60萬字的人工智能精品技術(shù)內(nèi)容敬扛,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載朝抖。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程舔哪,均受學(xué)生和老師好評(píng)。

原文

背景

為了解決序列決策問題槽棍,我們可以學(xué)習(xí)每個(gè)行動(dòng)的最優(yōu)值的估計(jì),即采取該行動(dòng)并根據(jù)后續(xù)最優(yōu)策略的未來回報(bào)的期望和抬驴。在一個(gè)給定策略 π炼七,在狀態(tài) s 的行動(dòng) a 的真實(shí)值為

其中 γ ∈ [0, 1] 是折扣因子。最優(yōu)值就是 Q?(s, a) = max_π Q_π(s, a)布持。最優(yōu)策略就可以通過在每個(gè)狀態(tài)選擇最高值的行動(dòng)給出豌拙。

最優(yōu)行動(dòng)之的估計(jì)可以通過 Q-學(xué)習(xí)獲得 (Watkin, 1989),這也是一種形式的 td 學(xué)習(xí) (Sutton, 1988)题暖。大多數(shù)有趣的問題涉及遍歷的狀態(tài)空間太大使得學(xué)習(xí)所有的行動(dòng)值難以進(jìn)行按傅。所以,我們可以通過學(xué)習(xí)一個(gè)參數(shù)化的值函數(shù) Q(s, a; θ_t)胧卤。標(biāo)準(zhǔn)的 Q-學(xué)習(xí)在狀態(tài) S_t 下進(jìn)行行動(dòng) A_t 更新參數(shù)唯绍,觀察及時(shí)回報(bào) R_{t+1} 和結(jié)果狀態(tài) S_{t+1} 變成:

其中 α 就是標(biāo)量的步長,目標(biāo) Y_t^Q 定義如下:


類似于 SGD枝誊,將當(dāng)前的值 Q(S_t, A_t; θ_t) 更新為目標(biāo)值 Y_t^Q

深度 Q 網(wǎng)絡(luò)

深度 Q 網(wǎng)絡(luò) 是多層神經(jīng)網(wǎng)絡(luò)况芒,給定狀態(tài) s 輸出一個(gè)行動(dòng)值得向量 Q(s, .; θ),其中 θ 是網(wǎng)絡(luò)的參數(shù)叶撒。對(duì)一個(gè) n-維狀態(tài)空間和一個(gè)包含 m 個(gè)行動(dòng)的行動(dòng)空間绝骚,該神經(jīng)網(wǎng)絡(luò)是從 R^n 到 R^m 的映射耐版。DQN 算法的兩個(gè)最重要的特點(diǎn)是目標(biāo)網(wǎng)絡(luò) (target network) 和經(jīng)驗(yàn)回顧 (experience replay)。目標(biāo)網(wǎng)絡(luò)压汪,其參數(shù)為 θ^-粪牲,其實(shí)除了其參數(shù)每 τ 次從在線網(wǎng)絡(luò)復(fù)制外都和在線網(wǎng)絡(luò)相同,所以 θ^-_t = θ_t止剖,在其他步都是固定大小腺阳。DQN 使用的目標(biāo)就是:

對(duì)經(jīng)驗(yàn)回顧,觀察到的轉(zhuǎn)換被存放一段時(shí)間滴须,并會(huì)均勻地從記憶庫采樣來更新網(wǎng)絡(luò)舌狗。目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)回顧都能大幅提升算法的性能 (Mnih et al., 2015)。

雙 Q-學(xué)習(xí)

公式 (2) 和 (3) 中扔水,在標(biāo)準(zhǔn)的 Q-學(xué)習(xí)和 DQN 中的 max 操作使用同樣的值來進(jìn)行選擇衡量一個(gè)行動(dòng)痛侍。這實(shí)際上更可能選擇過高的估計(jì)值,從而導(dǎo)致過于樂觀的值估計(jì)魔市。為了避免這種情況的出現(xiàn)主届,我們可以對(duì)選擇衡量進(jìn)行解耦。這其實(shí)就是雙 Q-學(xué)習(xí) (van Hasselt, 2010)待德。

最初的雙 Q-學(xué)習(xí)算法中君丁,兩個(gè)值函數(shù)通過將每個(gè)經(jīng)驗(yàn)隨機(jī)更新兩個(gè)值函數(shù)中的一個(gè),這樣就出現(xiàn)了兩個(gè)權(quán)重集合将宪,θθ'绘闷。對(duì)每個(gè)更新,一個(gè)權(quán)重集合用來確定貪心策略较坛,另一個(gè)用來確定值印蔗。為了更好地比較這兩者,我們可以將 Q-學(xué)習(xí)中的選擇和衡量分解丑勤,將 (2) 重寫為

雙 Q-學(xué)習(xí)誤差可以被寫成:

注意到在 argmax 中行動(dòng)的選擇仍舊取決于在線的權(quán)重 θ_t华嘹。這表示,如同 Q-學(xué)習(xí)中那樣法竞,我們?nèi)匀粫?huì)根據(jù)當(dāng)前值來估計(jì)貪心策略的值耙厚。然而,我們使用了第二個(gè)權(quán)重集合 θ'_t 來公平地衡量這個(gè)策略的值岔霸。第二個(gè)權(quán)重的集合可以對(duì)稱式地通過交換 θθ' 的更新薛躬。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市呆细,隨后出現(xiàn)的幾起案子泛豪,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件诡曙,死亡現(xiàn)場(chǎng)離奇詭異臀叙,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)价卤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門劝萤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人慎璧,你說我怎么就攤上這事床嫌。” “怎么了胸私?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵厌处,是天一觀的道長。 經(jīng)常有香客問我岁疼,道長阔涉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任捷绒,我火速辦了婚禮瑰排,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘暖侨。我一直安慰自己椭住,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布字逗。 她就那樣靜靜地躺著京郑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪葫掉。 梳的紋絲不亂的頭發(fā)上傻挂,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音挖息,去河邊找鬼。 笑死兽肤,一個(gè)胖子當(dāng)著我的面吹牛套腹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播资铡,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼电禀,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了笤休?” 一聲冷哼從身側(cè)響起尖飞,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后政基,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贞铣,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年沮明,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辕坝。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡荐健,死狀恐怖酱畅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情江场,我是刑警寧澤纺酸,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站址否,受9級(jí)特大地震影響餐蔬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜在张,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一用含、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧帮匾,春花似錦啄骇、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至螺句,卻和暖如春虽惭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蛇尚。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來泰國打工芽唇, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人取劫。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓匆笤,卻偏偏與公主長得像,于是被迫代替她去往敵國和親谱邪。 傳聞我的和親對(duì)象是個(gè)殘疾皇子炮捧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容