Policy network

"?two branches ?for Deep Reinforcement Learning: based on Value or Policy.

based on Value: DQN(Deep Q Network, google) ?= NN + Q learning

Q learning : (State , action ) -->Q value, for each state choose the action which lead to the largest Q;是一種策略時間差分方法,核心是異策略,時間差分。

異策略:行動策略(產(chǎn)生數(shù)據(jù)的策略)和要評估改進的策略是分開的崩侠,行動策略是5行的thegma-貪婪逆趣,評估和改進的是6行的貪婪(選擇對每個狀態(tài)來說碰声,取值最大的動作)

時間差分:更新行為值函數(shù)時是依據(jù)時間差分目標(biāo)撩笆。時間差分目標(biāo)如下


1
2


3
4

DQN benefits from: CNN, Experience replay and Fixed Q-targets

Experience replay makes DQN a off-policy "offline learning" which is able to learn from the experience and others' experience。經(jīng)驗回放對強化學(xué)習(xí)的學(xué)習(xí)過程進行訓(xùn)練滑潘。Why,因為RL負(fù)責(zé)收集數(shù)據(jù)锨咙,但上下文數(shù)據(jù)的關(guān)聯(lián)性很強 V.S. 神經(jīng)網(wǎng)絡(luò)訓(xùn)練時要求數(shù)據(jù)是獨立同分布的语卤。所以用經(jīng)驗回放來打破數(shù)據(jù)的關(guān)聯(lián)性。

解釋二:DeepMind創(chuàng)始人Hassabis是倫敦大學(xué)神經(jīng)科學(xué)博士:人在睡覺時,海馬體會把一天的記憶重放給大腦皮層粹舵。

5

如上圖钮孵,強化學(xué)習(xí)時,會把數(shù)據(jù)存到一個DB齐婴,then均勻隨機采樣抽取數(shù)據(jù)油猫,來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。2013NIPS就指出了柠偶。

2015nature提出目標(biāo)網(wǎng)絡(luò)來進一步減小數(shù)據(jù)間的關(guān)聯(lián)性情妖。DQN用目標(biāo)網(wǎng)絡(luò)Q-targets來單獨處理時間差分算法中的TD偏差。

Fixed Q-targets makes DQN owns 2 networks with same structures but different parameters: one for predicting Q real with experience parameters and the other predict Q estimate with the latest parameters.

與表格型傳統(tǒng)Qlearning不同诱担,用NN進行值函數(shù)逼進時毡证,每一步更新的是網(wǎng)絡(luò)權(quán)值參數(shù),而不是圖2第6行的Q值了蔫仙,換成了梯度下降更新:


6

7是TD目標(biāo)料睛,用網(wǎng)絡(luò)參數(shù)theta來計算8。

7
8


9動作值函數(shù)逼近網(wǎng)絡(luò)

以往神經(jīng)網(wǎng)絡(luò)逼近值函數(shù)時摇邦,【計算TD目標(biāo)的動作值函數(shù)】用的是網(wǎng)絡(luò)參數(shù)theta恤煞,與梯度計算【要逼近的動作值函數(shù)】,所用的網(wǎng)絡(luò)參數(shù)一樣施籍,這樣就容易導(dǎo)致數(shù)據(jù)關(guān)聯(lián)性居扒,訓(xùn)練不穩(wěn)定,事實上丑慎,這兩個操作的更新頻率等是不完全一樣的喜喂。所以單獨弄一個TD目標(biāo)網(wǎng)絡(luò)來【計算TD目標(biāo)】,theta-竿裂;【逼近值函數(shù)】的網(wǎng)絡(luò)用theta玉吁;【計算TD目標(biāo)的動作函數(shù)】每個固定的步數(shù)更新一次,【用于逼近的動作值函數(shù)網(wǎng)絡(luò)】每一步都更新腻异。所以值函數(shù)的更新變成:

10

DQN偽代碼:

11

第[1]行进副,初始化回放記憶D,可容納的數(shù)據(jù)條數(shù)為N

第[2]行悔常,利用隨機權(quán)值theta來初始化動作行為值函數(shù)Q

第[3]行敢会,令theta- = theta來計算TD目標(biāo)的動作行為值Q

第[4]行,循環(huán)每次事件

第[5]行这嚣,初始化每次事件的第一個狀態(tài)s1 ,預(yù)處理得到狀態(tài)對應(yīng)的特征輸入

第[6]行鸥昏,循環(huán)每個事件的每一步

第[7]行,利用概率thegma選一個隨機動作at

第[8]行姐帚,若小概率事件沒發(fā)生吏垮,則用貪婪策略選擇當(dāng)前值函數(shù)最大的那個動作,注意,這里選最大動作時用到的值函數(shù)網(wǎng)絡(luò)與逼近值函數(shù)所用的網(wǎng)絡(luò)是一個網(wǎng)絡(luò)膳汪,都對應(yīng)著theta唯蝶。

注意:第[7]行和第[8]行是行動策略,即thegma-greedy策略遗嗽。

第[9]行粘我,在仿真器中執(zhí)行動作at,觀測回報rt與圖像xt+1

第[10]行痹换,設(shè)置st+1 = st, at, xt+1, 預(yù)處理

第[11]行征字,將轉(zhuǎn)換(,娇豫,匙姜,)儲存在回放記憶D中

第[12]行,從回放記憶D中均勻隨機采樣一個轉(zhuǎn)換樣本數(shù)據(jù)

第[13]行冯痢,判斷是否是一個事件的終止?fàn)顟B(tài)氮昧,若是終止?fàn)顟B(tài)則TD目標(biāo)為rj,否則利用TD目標(biāo)網(wǎng)絡(luò)theata- 來計算TD目標(biāo)

第[14]行浦楣,執(zhí)行一次梯度下降算法

第[15]行袖肥,更新動作值函數(shù)逼近的網(wǎng)絡(luò)參數(shù)theta

第[16]行,每隔C步更新一次TD目標(biāo)網(wǎng)絡(luò)權(quán)值即令theta- ?= theta

第[17]行振劳,結(jié)束每次事件內(nèi)循環(huán)

第[18]行椎组,結(jié)束事件間的循環(huán)

我們可以看到,在第[12]行澎迎,利用了經(jīng)驗回放庐杨;在[13]行利用了獨立的目標(biāo)網(wǎng)絡(luò)theta-选调。第[15]行夹供,更新動作值函數(shù)逼近網(wǎng)絡(luò)參數(shù);第[17]行更新目標(biāo)網(wǎng)絡(luò)參數(shù).

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末仁堪,一起剝皮案震驚了整個濱河市哮洽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌弦聂,老刑警劉巖鸟辅,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異莺葫,居然都是意外死亡匪凉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進店門捺檬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來再层,“玉大人,你說我怎么就攤上這事∧羰埽” “怎么了蒿秦?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蛋济。 經(jīng)常有香客問我棍鳖,道長,這世上最難降的妖魔是什么碗旅? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任渡处,我火速辦了婚禮,結(jié)果婚禮上扛芽,老公的妹妹穿的比我還像新娘骂蓖。我一直安慰自己,他們只是感情好川尖,可當(dāng)我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布登下。 她就那樣靜靜地躺著,像睡著了一般叮喳。 火紅的嫁衣襯著肌膚如雪被芳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天馍悟,我揣著相機與錄音畔濒,去河邊找鬼。 笑死锣咒,一個胖子當(dāng)著我的面吹牛侵状,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播毅整,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼趣兄,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了悼嫉?” 一聲冷哼從身側(cè)響起艇潭,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎戏蔑,沒想到半個月后蹋凝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡总棵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年鳍寂,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片情龄。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡迄汛,死狀恐怖候味,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情隔心,我是刑警寧澤白群,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站硬霍,受9級特大地震影響帜慢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜唯卖,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一粱玲、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拜轨,春花似錦抽减、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至法牲,卻和暖如春史汗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背拒垃。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工停撞, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人悼瓮。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓戈毒,卻偏偏與公主長得像,于是被迫代替她去往敵國和親横堡。 傳聞我的和親對象是個殘疾皇子埋市,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容