《Playing Atari with Deep Reinforcement Learning》閱讀筆記

領(lǐng)域:強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)很久以來(lái)的一個(gè)重要挑戰(zhàn)就是學(xué)習(xí)control agents能夠直接從高維度的場(chǎng)景輸入抄谐,例如視覺(jué)或者語(yǔ)言中张弛。大多數(shù)成功的RL應(yīng)用還是需要依賴于手工特征晾腔,結(jié)合線性的value function或者policy representation犁苏。

1. 挑戰(zhàn)

強(qiáng)化學(xué)習(xí)相比其他深度學(xué)習(xí)方法的一些挑戰(zhàn):1. 成功的深度學(xué)習(xí)方法都是有大量人工標(biāo)注的數(shù)據(jù)的嚷节。但是RL聂儒,需要有一個(gè)標(biāo)量的reward,這種信號(hào)是稀疏的硫痰,有噪聲的衩婚,有延遲的。2. 大多數(shù)深度學(xué)習(xí)算法假設(shè)數(shù)據(jù)樣本之間是獨(dú)立的效斑,但是強(qiáng)化學(xué)習(xí)會(huì)遇到一系列的有強(qiáng)關(guān)聯(lián)性的states非春。也就是說(shuō)在RL中,當(dāng)算法學(xué)習(xí)到新的行為時(shí)缓屠,數(shù)據(jù)分布會(huì)改變奇昙。

2. 背景

agent與環(huán)境進(jìn)行交互,這里的環(huán)境就是Atari的模擬器敌完,有一系列的actions储耐,observations和rewards。環(huán)境是隨機(jī)的滨溉,模擬器內(nèi)部的狀態(tài)是不能被agent觀測(cè)的什湘,而是觀測(cè)一個(gè)來(lái)自模擬器的圖片长赞,并且收到rewards。

agent的目的是與模擬器交互禽炬,選擇能使得將來(lái)的reward最大的action涧卵。

TD-gammon方法只適用于特殊情況,并且只在backgammon下work腹尖,有可能是因?yàn)殡S機(jī)幫助搜索了state空間,并且可以使得value function更加平滑伐脖。model-free的具有非線性的近似器热幔,或者離策略學(xué)習(xí)可能引起Q-network偏離。因此大部分強(qiáng)化學(xué)習(xí)使用線性函數(shù)近似器讼庇。

Q-learning的偏離問(wèn)題可以通過(guò)gradient temporal-difference方法來(lái)解決绎巨,這些方法被證明通過(guò)非線性近似器評(píng)估一個(gè)固定的策略的時(shí)候是收斂的∪渥模或者通過(guò)線性近似器學(xué)習(xí)control policy時(shí)场勤,使用restricted variant of Q-learning

NFQ使用batch更新,每個(gè)iteration計(jì)算cost歼跟,這個(gè)cost是正比于整個(gè)數(shù)據(jù)集的和媳,我們考慮隨機(jī)梯度更新,每次迭代的常數(shù)成本較低哈街,并且可擴(kuò)展到大型數(shù)據(jù)集留瞳。需要先通過(guò)一個(gè)autoencoder將信息映射到低緯度的表示上,然后再應(yīng)用到NFQ骚秦。

3. 創(chuàng)新點(diǎn)

本文的方法是端對(duì)端的她倘,直接來(lái)源于visual輸入,因此可能學(xué)習(xí)到能區(qū)分action-value的特征作箍。本文方法與TD-Gammon或者其他online方法的不同在于硬梁,使用experience replay。

本文方法相比標(biāo)準(zhǔn)的online Q-learning有很多優(yōu)勢(shì)胞得,1. 每一步的經(jīng)驗(yàn)可能被用在多次權(quán)重更新上荧止,有更高的數(shù)據(jù)效率。 2.從連續(xù)樣本進(jìn)行學(xué)習(xí)是不夠的懒震,因?yàn)闃颖局g的關(guān)聯(lián)性很高罩息,隨機(jī)的樣本可以打破這種關(guān)聯(lián)性,因此可以減少更新的變動(dòng)个扰。3.學(xué)習(xí)on-policy瓷炮,當(dāng)前的參數(shù)決定了下一個(gè)數(shù)據(jù)樣本,可能會(huì)偏離递宅,并且陷入局部最小娘香。但是通過(guò)experience replay苍狰,可平滑并且避免參數(shù)的震蕩和分歧。

算法
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末烘绽,一起剝皮案震驚了整個(gè)濱河市淋昭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌安接,老刑警劉巖翔忽,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異盏檐,居然都是意外死亡歇式,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)胡野,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)材失,“玉大人,你說(shuō)我怎么就攤上這事硫豆×蓿” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵熊响,是天一觀的道長(zhǎng)旨别。 經(jīng)常有香客問(wèn)我,道長(zhǎng)耘眨,這世上最難降的妖魔是什么昼榛? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮剔难,結(jié)果婚禮上胆屿,老公的妹妹穿的比我還像新娘。我一直安慰自己偶宫,他們只是感情好非迹,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著纯趋,像睡著了一般憎兽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吵冒,一...
    開(kāi)封第一講書(shū)人閱讀 49,111評(píng)論 1 285
  • 那天纯命,我揣著相機(jī)與錄音,去河邊找鬼痹栖。 笑死亿汞,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的揪阿。 我是一名探鬼主播疗我,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼咆畏,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了吴裤?” 一聲冷哼從身側(cè)響起旧找,我...
    開(kāi)封第一講書(shū)人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎麦牺,沒(méi)想到半個(gè)月后钮蛛,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡剖膳,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年愿卒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潮秘。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖易结,靈堂內(nèi)的尸體忽然破棺而出枕荞,到底是詐尸還是另有隱情,我是刑警寧澤搞动,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布躏精,位于F島的核電站,受9級(jí)特大地震影響鹦肿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一煤伟、第九天 我趴在偏房一處隱蔽的房頂上張望恐似。 院中可真熱鬧,春花似錦涣旨、人聲如沸歪架。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)和蚪。三九已至,卻和暖如春烹棉,著一層夾襖步出監(jiān)牢的瞬間攒霹,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工浆洗, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留催束,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓辅髓,卻偏偏與公主長(zhǎng)得像泣崩,于是被迫代替她去往敵國(guó)和親少梁。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容