[DQN] Playing Atari with Deep Reinforcement Learning

論文鏈接:https://arxiv.org/abs/1312.5602
引用:Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.

概述

Deep Reinforcement Learning (DQN) 是一個 model-free装黑、off-policy 的強化學習算法,使用深度神經網絡作為非線性的函數估計弓熏,是一個“端到端”訓練的算法恋谭。Deep Q-network 直接接受RGB三通道圖片作為輸入,輸入為N個動作對應的Q值挽鞠,即 Q(s,a)疚颊,論文的實驗主要基于七個Atari游戲。

算法

DQN 算法

主要的創(chuàng)新點

  • 引入了一個replay buffer信认,用于存儲采樣材义,即一個四元組:[state_t,action_t,reward_t,state_{t+1}],每次梯度更新需要從buffer中隨機抽取一批數據來進行梯度下降嫁赏,由于buffer本身有大小限制其掂,所以新進來的數據會頂替舊的數據(按隊列規(guī)則,先進先出)潦蝇,這樣的好處在于:可以減少每個sample之間的關聯性款熬,減少方差,(因為訓練時假設每個sample都是iid的攘乒,也就是 independently and identically distributed贤牛,但是如果直接使用按照時間序列依次采樣得到的sample來訓練,顯然他們是不符合iid的)则酝,并且可以使用batch訓練來充分利用硬件資源殉簸。
  • 使用了target network和policy network,采樣時使用target network來取得數據,但是訓練時更新policy network的參數喂链,在一定的步驟數后返十,將policy network的參數再拷貝給target network。
  • 由于有一個replay buffer椭微,而且batch size要遠遠大于1洞坑,而每一步都會采樣更新,所以幾乎每個sample都會被使用好多次蝇率,所以是 data efficient 的迟杂。
  • 可以端到端訓練,因為輸入時直接使用游戲界面的RGB圖像本慕,輸出時Q值排拷。
  • 網絡底層對RGB圖片進行了一定的預處理,將其轉換成了灰度圖锅尘,且裁剪出中間的一個游戲的主體部分

其他的點

  • 實驗所測試的所有Atari游戲均采用了同一套網絡結構和超參數(很強的適應性)
  • 在進行evaluation的時候监氢,除了傳統(tǒng)的使用累計獎賞或平均獎賞外,還使用了一些state對應的Q值變化來進行評估藤违,更能體現出算法的穩(wěn)定性
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末浪腐,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子顿乒,更是在濱河造成了極大的恐慌议街,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件璧榄,死亡現場離奇詭異特漩,居然都是意外死亡,警方通過查閱死者的電腦和手機骨杂,發(fā)現死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門涂身,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人腊脱,你說我怎么就攤上這事访得。” “怎么了陕凹?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鳄炉。 經常有香客問我杜耙,道長,這世上最難降的妖魔是什么拂盯? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任佑女,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘团驱。我一直安慰自己摸吠,他們只是感情好,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布嚎花。 她就那樣靜靜地躺著寸痢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪紊选。 梳的紋絲不亂的頭發(fā)上啼止,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天,我揣著相機與錄音兵罢,去河邊找鬼。 笑死,一個胖子當著我的面吹牛度气,可吹牛的內容都是我干的墨榄。 我是一名探鬼主播,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼此蜈,長吁一口氣:“原來是場噩夢啊……” “哼即横!你這毒婦竟也來了?” 一聲冷哼從身側響起舶替,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤令境,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后顾瞪,有當地人在樹林里發(fā)現了一具尸體舔庶,經...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年陈醒,在試婚紗的時候發(fā)現自己被綠了惕橙。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡钉跷,死狀恐怖弥鹦,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情爷辙,我是刑警寧澤彬坏,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站膝晾,受9級特大地震影響栓始,放射性物質發(fā)生泄漏。R本人自食惡果不足惜血当,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一幻赚、第九天 我趴在偏房一處隱蔽的房頂上張望禀忆。 院中可真熱鬧,春花似錦落恼、人聲如沸箩退。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽戴涝。三九已至,卻和暖如春吠昭,著一層夾襖步出監(jiān)牢的瞬間喊括,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工矢棚, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留郑什,地道東北人。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓蒲肋,卻偏偏與公主長得像蘑拯,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子兜粘,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內容