領(lǐng)域:強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)很久以來(lái)的一個(gè)重要挑戰(zhàn)就是學(xué)習(xí)control agents能夠直接從高維度的場(chǎng)景輸入抄谐,例如視覺(jué)或者語(yǔ)言中张弛。大多數(shù)成功的RL應(yīng)用還是需要依賴于手工特征晾腔,結(jié)合線性的value function或者policy representation犁苏。
1. 挑戰(zhàn)
強(qiáng)化學(xué)習(xí)相比其他深度學(xué)習(xí)方法的一些挑戰(zhàn):1. 成功的深度學(xué)習(xí)方法都是有大量人工標(biāo)注的數(shù)據(jù)的嚷节。但是RL聂儒,需要有一個(gè)標(biāo)量的reward,這種信號(hào)是稀疏的硫痰,有噪聲的衩婚,有延遲的。2. 大多數(shù)深度學(xué)習(xí)算法假設(shè)數(shù)據(jù)樣本之間是獨(dú)立的效斑,但是強(qiáng)化學(xué)習(xí)會(huì)遇到一系列的有強(qiáng)關(guān)聯(lián)性的states非春。也就是說(shuō)在RL中,當(dāng)算法學(xué)習(xí)到新的行為時(shí)缓屠,數(shù)據(jù)分布會(huì)改變奇昙。
2. 背景
agent與環(huán)境進(jìn)行交互,這里的環(huán)境就是Atari的模擬器敌完,有一系列的actions储耐,observations和rewards。環(huán)境是隨機(jī)的滨溉,模擬器內(nèi)部的狀態(tài)是不能被agent觀測(cè)的什湘,而是觀測(cè)一個(gè)來(lái)自模擬器的圖片长赞,并且收到rewards。
agent的目的是與模擬器交互禽炬,選擇能使得將來(lái)的reward最大的action涧卵。
TD-gammon方法只適用于特殊情況,并且只在backgammon下work腹尖,有可能是因?yàn)殡S機(jī)幫助搜索了state空間,并且可以使得value function更加平滑伐脖。model-free的具有非線性的近似器热幔,或者離策略學(xué)習(xí)可能引起Q-network偏離。因此大部分強(qiáng)化學(xué)習(xí)使用線性函數(shù)近似器讼庇。
Q-learning的偏離問(wèn)題可以通過(guò)gradient temporal-difference方法來(lái)解決绎巨,這些方法被證明通過(guò)非線性近似器評(píng)估一個(gè)固定的策略的時(shí)候是收斂的∪渥模或者通過(guò)線性近似器學(xué)習(xí)control policy時(shí)场勤,使用restricted variant of Q-learning
NFQ使用batch更新,每個(gè)iteration計(jì)算cost歼跟,這個(gè)cost是正比于整個(gè)數(shù)據(jù)集的和媳,我們考慮隨機(jī)梯度更新,每次迭代的常數(shù)成本較低哈街,并且可擴(kuò)展到大型數(shù)據(jù)集留瞳。需要先通過(guò)一個(gè)autoencoder將信息映射到低緯度的表示上,然后再應(yīng)用到NFQ骚秦。
3. 創(chuàng)新點(diǎn)
本文的方法是端對(duì)端的她倘,直接來(lái)源于visual輸入,因此可能學(xué)習(xí)到能區(qū)分action-value的特征作箍。本文方法與TD-Gammon或者其他online方法的不同在于硬梁,使用experience replay。
本文方法相比標(biāo)準(zhǔn)的online Q-learning有很多優(yōu)勢(shì)胞得,1. 每一步的經(jīng)驗(yàn)可能被用在多次權(quán)重更新上荧止,有更高的數(shù)據(jù)效率。 2.從連續(xù)樣本進(jìn)行學(xué)習(xí)是不夠的懒震,因?yàn)闃颖局g的關(guān)聯(lián)性很高罩息,隨機(jī)的樣本可以打破這種關(guān)聯(lián)性,因此可以減少更新的變動(dòng)个扰。3.學(xué)習(xí)on-policy瓷炮,當(dāng)前的參數(shù)決定了下一個(gè)數(shù)據(jù)樣本,可能會(huì)偏離递宅,并且陷入局部最小娘香。但是通過(guò)experience replay苍狰,可平滑并且避免參數(shù)的震蕩和分歧。