強化學(xué)習(xí)——Deep Q Network

一脓豪、什么是Deep Q Network

這次我們來說說強化學(xué)習(xí)中的 Deep Q Network 簡稱為 DQN昔榴。Google Deep mind 團(tuán)隊就是靠著這 DQN 使計算機(jī)玩電動玩得比我們還厲害街州。

DQN 是一種融合了 神經(jīng)網(wǎng)絡(luò) 和 Q_learning 的方法劈伴,如果你還不了解 Q_learning,可以看看《強化學(xué)習(xí)——Q_learning》這篇文章告希。

傳統(tǒng)的 Q 表格形式的強化學(xué)習(xí)有一個瓶頸桥温。當(dāng)今問題是在太復(fù)雜引矩,使用表格來存儲每一個狀態(tài) state 和 action 所擁有的 Q 值,計算機(jī)有再大的內(nèi)存都不夠,而且每次在這么大的表格中搜索對應(yīng)的狀態(tài)也是一件很耗時的事旺韭。

所以氛谜,我們可以將 狀態(tài) 和 動作 當(dāng)成神經(jīng)網(wǎng)絡(luò)的輸入,然后經(jīng)過神經(jīng)網(wǎng)絡(luò)分析后得到動作的 Q 值区端,這樣我們就沒必要在表格中記錄 Q 值值漫,而是直接使用神經(jīng)網(wǎng)絡(luò)生成 Q 值。

還有一種形式的是我們只輸入狀態(tài)值织盼,輸出所有的動作值杨何,然后按照 Q learning 的原則,直接選擇擁有最大值的動作當(dāng)做下一步要做的動作沥邻。接下來危虱,我們就按照這種方式來說明。

二唐全、神經(jīng)網(wǎng)絡(luò)的更新

我們知道神經(jīng)網(wǎng)絡(luò)是要被訓(xùn)練才能預(yù)測出準(zhǔn)確的值埃跷。那在強化學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)是如何被訓(xùn)練的呢邮利?首先弥雹,我們需要 a1、a2 正確的Q值延届,這個 Q 值我們就用之前在 Q learning 中的 Q 現(xiàn)實來代替缅糟。

同樣我們還需要一個 Q 估計,來實現(xiàn)神經(jīng)網(wǎng)絡(luò)的更新祷愉。所以神經(jīng)網(wǎng)絡(luò)的的參數(shù)就是舊的神經(jīng)網(wǎng)絡(luò)參數(shù)加學(xué)習(xí)率 alpha 乘以 Q 現(xiàn)實 和 Q 估計的差值。

我們通過 NN 預(yù)測出Q(s2, a1) 和 Q(s2,a2) 的值赦颇,這就是 Q 估計. 然后我們選取 Q 估計中最大值的動作來換取環(huán)境中的獎勵 reward. 而 Q 現(xiàn)實中也包含從神經(jīng)網(wǎng)絡(luò)分析出來的兩個 Q 估計值, 不過這個 Q 估計是針對于下一步在 s’ 的估計. 最后再通過剛剛所說的算法更新神經(jīng)網(wǎng)絡(luò)中的參數(shù).

三二鳄、Experience replay 和 Fixed Q-targets

簡單來說,DQN 有一個記憶庫用于學(xué)習(xí)之前的經(jīng)歷媒怯。Q learning 是一種 off-policy 離線學(xué)習(xí)法订讼,它能學(xué)習(xí)當(dāng)前經(jīng)歷著的, 也能學(xué)習(xí)過去經(jīng)歷過的,甚至是學(xué)習(xí)別人的經(jīng)歷扇苞。所以每次 DQN 更新的時候欺殿,我們都可以隨機(jī)抽取一些之前的經(jīng)歷進(jìn)行學(xué)習(xí)。隨機(jī)抽取這種做法打亂了經(jīng)歷之間的相關(guān)性鳖敷,也使得神經(jīng)網(wǎng)絡(luò)更新更有效率脖苏。

Fixed Q-targets 也是一種打亂相關(guān)性的機(jī)理,如果使用 fixed Q-targets定踱,我們就會在 DQN 中使用到兩個結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò)棍潘,預(yù)測 Q 估計 的神經(jīng)網(wǎng)絡(luò)具備最新的參數(shù),而預(yù)測 Q 現(xiàn)實的神經(jīng)網(wǎng)絡(luò)使用的參數(shù)則是很久以前的。

以上內(nèi)容參考莫凡Python亦歉。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末恤浪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子肴楷,更是在濱河造成了極大的恐慌水由,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赛蔫,死亡現(xiàn)場離奇詭異砂客,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)濒募,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進(jìn)店門鞭盟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人瑰剃,你說我怎么就攤上這事齿诉。” “怎么了晌姚?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵粤剧,是天一觀的道長。 經(jīng)常有香客問我挥唠,道長抵恋,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任宝磨,我火速辦了婚禮弧关,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘唤锉。我一直安慰自己世囊,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布窿祥。 她就那樣靜靜地躺著株憾,像睡著了一般。 火紅的嫁衣襯著肌膚如雪晒衩。 梳的紋絲不亂的頭發(fā)上嗤瞎,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天,我揣著相機(jī)與錄音听系,去河邊找鬼贝奇。 笑死,一個胖子當(dāng)著我的面吹牛靠胜,可吹牛的內(nèi)容都是我干的弃秆。 我是一名探鬼主播届惋,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼菠赚!你這毒婦竟也來了脑豹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤衡查,失蹤者是張志新(化名)和其女友劉穎瘩欺,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拌牲,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡俱饿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了塌忽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拍埠。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖土居,靈堂內(nèi)的尸體忽然破棺而出枣购,到底是詐尸還是另有隱情,我是刑警寧澤擦耀,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布棉圈,位于F島的核電站,受9級特大地震影響眷蜓,放射性物質(zhì)發(fā)生泄漏分瘾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一吁系、第九天 我趴在偏房一處隱蔽的房頂上張望德召。 院中可真熱鬧,春花似錦汽纤、人聲如沸上岗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至逞姿,卻和暖如春辞嗡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背滞造。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工续室, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人谒养。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓挺狰,卻偏偏與公主長得像明郭,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子丰泊,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內(nèi)容