論文鏈接:https://arxiv.org/abs/1312.5602
引用:Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
概述
Deep Reinforcement Learning (DQN) 是一個 model-free装黑、off-policy 的強化學習算法,使用深度神經網絡作為非線性的函數估計弓熏,是一個“端到端”訓練的算法恋谭。Deep Q-network 直接接受RGB三通道圖片作為輸入,輸入為N個動作對應的Q值挽鞠,即 疚颊,論文的實驗主要基于七個Atari游戲。
算法
主要的創(chuàng)新點
- 引入了一個replay buffer信认,用于存儲采樣材义,即一個四元組:,每次梯度更新需要從buffer中隨機抽取一批數據來進行梯度下降嫁赏,由于buffer本身有大小限制其掂,所以新進來的數據會頂替舊的數據(按隊列規(guī)則,先進先出)潦蝇,這樣的好處在于:可以減少每個sample之間的關聯性款熬,減少方差,(因為訓練時假設每個sample都是iid的攘乒,也就是 independently and identically distributed贤牛,但是如果直接使用按照時間序列依次采樣得到的sample來訓練,顯然他們是不符合iid的)则酝,并且可以使用batch訓練來充分利用硬件資源殉簸。
- 使用了target network和policy network,采樣時使用target network來取得數據,但是訓練時更新policy network的參數喂链,在一定的步驟數后返十,將policy network的參數再拷貝給target network。
- 由于有一個replay buffer椭微,而且batch size要遠遠大于1洞坑,而每一步都會采樣更新,所以幾乎每個sample都會被使用好多次蝇率,所以是 data efficient 的迟杂。
- 可以端到端訓練,因為輸入時直接使用游戲界面的RGB圖像本慕,輸出時Q值排拷。
- 網絡底層對RGB圖片進行了一定的預處理,將其轉換成了灰度圖锅尘,且裁剪出中間的一個游戲的主體部分
其他的點
- 實驗所測試的所有Atari游戲均采用了同一套網絡結構和超參數(很強的適應性)
- 在進行evaluation的時候监氢,除了傳統(tǒng)的使用累計獎賞或平均獎賞外,還使用了一些state對應的Q值變化來進行評估藤违,更能體現出算法的穩(wěn)定性