Neil Zhu市袖,簡書ID Not_GOD咙鞍,University AI 創(chuàng)始人 & Chief Scientist苞冯,致力于推進(jìn)世界人工智能化進(jìn)程颗品。制定并實(shí)施 UAI 中長期增長戰(zhàn)略和目標(biāo)肯尺,帶領(lǐng)團(tuán)隊(duì)快速成長為人工智能領(lǐng)域最專業(yè)的力量。
作為行業(yè)領(lǐng)導(dǎo)者躯枢,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò))则吟,AI growth(行業(yè)智庫培訓(xùn))等,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分锄蹂。此外氓仲,他還參與或者舉辦過各類國際性的人工智能峰會(huì)和活動(dòng),產(chǎn)生了巨大的影響力得糜,書寫了60萬字的人工智能精品技術(shù)內(nèi)容敬扛,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載朝抖。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程舔哪,均受學(xué)生和老師好評(píng)。
背景
為了解決序列決策問題槽棍,我們可以學(xué)習(xí)每個(gè)行動(dòng)的最優(yōu)值的估計(jì),即采取該行動(dòng)并根據(jù)后續(xù)最優(yōu)策略的未來回報(bào)的期望和抬驴。在一個(gè)給定策略 π炼七,在狀態(tài) s 的行動(dòng) a 的真實(shí)值為
其中 γ ∈ [0, 1] 是折扣因子。最優(yōu)值就是 Q?(s, a) = max_π Q_π(s, a)布持。最優(yōu)策略就可以通過在每個(gè)狀態(tài)選擇最高值的行動(dòng)給出豌拙。
最優(yōu)行動(dòng)之的估計(jì)可以通過 Q-學(xué)習(xí)獲得 (Watkin, 1989),這也是一種形式的 td 學(xué)習(xí) (Sutton, 1988)题暖。大多數(shù)有趣的問題涉及遍歷的狀態(tài)空間太大使得學(xué)習(xí)所有的行動(dòng)值難以進(jìn)行按傅。所以,我們可以通過學(xué)習(xí)一個(gè)參數(shù)化的值函數(shù) Q(s, a; θ_t)胧卤。標(biāo)準(zhǔn)的 Q-學(xué)習(xí)在狀態(tài) S_t 下進(jìn)行行動(dòng) A_t 更新參數(shù)唯绍,觀察及時(shí)回報(bào) R_{t+1} 和結(jié)果狀態(tài) S_{t+1} 變成:
其中 α 就是標(biāo)量的步長,目標(biāo) Y_t^Q 定義如下:
類似于 SGD枝誊,將當(dāng)前的值 Q(S_t, A_t; θ_t) 更新為目標(biāo)值 Y_t^Q
深度 Q 網(wǎng)絡(luò)
深度 Q 網(wǎng)絡(luò) 是多層神經(jīng)網(wǎng)絡(luò)况芒,給定狀態(tài) s 輸出一個(gè)行動(dòng)值得向量 Q(s, .; θ),其中 θ 是網(wǎng)絡(luò)的參數(shù)叶撒。對(duì)一個(gè) n-維狀態(tài)空間和一個(gè)包含 m 個(gè)行動(dòng)的行動(dòng)空間绝骚,該神經(jīng)網(wǎng)絡(luò)是從 R^n 到 R^m 的映射耐版。DQN 算法的兩個(gè)最重要的特點(diǎn)是目標(biāo)網(wǎng)絡(luò) (target network) 和經(jīng)驗(yàn)回顧 (experience replay)。目標(biāo)網(wǎng)絡(luò)压汪,其參數(shù)為 θ^-粪牲,其實(shí)除了其參數(shù)每 τ 次從在線網(wǎng)絡(luò)復(fù)制外都和在線網(wǎng)絡(luò)相同,所以 θ^-_t = θ_t止剖,在其他步都是固定大小腺阳。DQN 使用的目標(biāo)就是:
對(duì)經(jīng)驗(yàn)回顧,觀察到的轉(zhuǎn)換被存放一段時(shí)間滴须,并會(huì)均勻地從記憶庫采樣來更新網(wǎng)絡(luò)舌狗。目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)回顧都能大幅提升算法的性能 (Mnih et al., 2015)。
雙 Q-學(xué)習(xí)
公式 (2) 和 (3) 中扔水,在標(biāo)準(zhǔn)的 Q-學(xué)習(xí)和 DQN 中的 max 操作使用同樣的值來進(jìn)行選擇和衡量一個(gè)行動(dòng)痛侍。這實(shí)際上更可能選擇過高的估計(jì)值,從而導(dǎo)致過于樂觀的值估計(jì)魔市。為了避免這種情況的出現(xiàn)主届,我們可以對(duì)選擇和衡量進(jìn)行解耦。這其實(shí)就是雙 Q-學(xué)習(xí) (van Hasselt, 2010)待德。
最初的雙 Q-學(xué)習(xí)算法中君丁,兩個(gè)值函數(shù)通過將每個(gè)經(jīng)驗(yàn)隨機(jī)更新兩個(gè)值函數(shù)中的一個(gè),這樣就出現(xiàn)了兩個(gè)權(quán)重集合将宪,θ 和 θ'绘闷。對(duì)每個(gè)更新,一個(gè)權(quán)重集合用來確定貪心策略较坛,另一個(gè)用來確定值印蔗。為了更好地比較這兩者,我們可以將 Q-學(xué)習(xí)中的選擇和衡量分解丑勤,將 (2) 重寫為
雙 Q-學(xué)習(xí)誤差可以被寫成:
注意到在 argmax 中行動(dòng)的選擇仍舊取決于在線的權(quán)重 θ_t华嘹。這表示,如同 Q-學(xué)習(xí)中那樣法竞,我們?nèi)匀粫?huì)根據(jù)當(dāng)前值來估計(jì)貪心策略的值耙厚。然而,我們使用了第二個(gè)權(quán)重集合 θ'_t 來公平地衡量這個(gè)策略的值岔霸。第二個(gè)權(quán)重的集合可以對(duì)稱式地通過交換 θ 和 θ' 的更新薛躬。