前面寫過兩篇論文解讀碟贾,都是關(guān)于Successor Features在遷移強(qiáng)化學(xué)習(xí)中的應(yīng)用(點(diǎn)擊進(jìn)入第一篇衫贬,點(diǎn)擊進(jìn)入第二篇)偿凭。這兩篇文章都是基于強(qiáng)化學(xué)習(xí)中的Successor Representation (SR)概念發(fā)展出來(lái)的,今天我們來(lái)詳細(xì)探討一下這里的Successor Representation锣光。
【背景及發(fā)展脈絡(luò)】
一般強(qiáng)化學(xué)習(xí)算法分為兩類:model-based和model-free炉爆。Model-based的算法通過reward函數(shù)和(或)狀態(tài)轉(zhuǎn)移函數(shù)的學(xué)習(xí)來(lái)估計(jì)值函數(shù);而后者不考慮模型的具體表達(dá)形式岂津,從狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)序列信號(hào)中直接估計(jì)值函數(shù)虱黄。
以上兩類算法各有優(yōu)劣,從算法的計(jì)算效率來(lái)看吮成,model-free更勝一籌橱乱,因?yàn)樗鼜慕?jīng)驗(yàn)數(shù)據(jù)中對(duì)值函數(shù)進(jìn)行估計(jì),不需要對(duì)狀態(tài)空間中的所有狀態(tài)進(jìn)行遍歷粱甫,因此特別適用于像神經(jīng)網(wǎng)絡(luò)這樣基于數(shù)據(jù)的函數(shù)擬合器泳叠。但是其缺點(diǎn)就是一旦采樣數(shù)據(jù)的分布發(fā)生變化,或者環(huán)境發(fā)生了變化茶宵,則之前學(xué)習(xí)到的參數(shù)統(tǒng)統(tǒng)失效危纫,甚至有的時(shí)候一些細(xì)微的變化都會(huì)導(dǎo)致性能大幅度下降,也就是所謂的“災(zāi)難性遺忘(catastrophic forgetting)”問題乌庶。因此种蝶,從算法的靈活性來(lái)看,model-free的算法表現(xiàn)較差瞒大。而model-based算法則正好反過來(lái)螃征,它在計(jì)算效率上不如model-free算法節(jié)省資源,但是模型更加靈活透敌。這是因?yàn)閙odel-based算法具有模型本身的一些先驗(yàn)知識(shí)盯滚,因此當(dāng)環(huán)境發(fā)生變化的時(shí)候锅棕,可以從模型參數(shù)上對(duì)模型進(jìn)行相應(yīng)的修正,則算法依然能夠表現(xiàn)得很好淌山。但是這類算法在狀態(tài)空間比較大的時(shí)候裸燎,將會(huì)特別消耗計(jì)算資源,甚至不可求解泼疑。
那能不能找到一種算法德绿,能夠從計(jì)算效率(efficiency)和靈活性(flexibility)之間進(jìn)行折中呢?這就引入了今天要介紹的Successor Representations退渗。
Successor Representation最早由MIT的Peter Dayan于1993年提出(點(diǎn)擊論文鏈接) [1]移稳,以下我們簡(jiǎn)稱SR』嵊停考慮到TD算法的核心是估計(jì)從當(dāng)前時(shí)刻開始到未來(lái)的累積獎(jiǎng)勵(lì)值(value function)个粱,Dayan認(rèn)為這個(gè)值和后繼狀態(tài)的相似度關(guān)系密切。如果有一個(gè)很好的表征(representation)能夠描述當(dāng)前狀態(tài)到未來(lái)某個(gè)狀態(tài)的轉(zhuǎn)移特性翻翩,則value function就可以分解為兩個(gè)部分都许,一部分是這個(gè)表征,另一部分描述獎(jiǎng)勵(lì)函數(shù)嫂冻。于是他提出了SR的方法胶征,結(jié)合TD learning的優(yōu)勢(shì)和基于模型算法的靈活性,使得該算法被稱為除了model-based和model-free的第三類強(qiáng)化學(xué)習(xí)算法 [2, 3]桨仿。
SR算法剛開始提出來(lái)睛低,并沒有受到太多重視。直到近幾年隨著深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展服傍,有人開始注意到基于SR的強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)钱雷。特別地,在算法靈活性上吹零,由于SR對(duì)環(huán)境的依賴性并不像TD-learning那么大罩抗,因此在遷移強(qiáng)化學(xué)習(xí)領(lǐng)域特別受到重視。比較典型的利用SR來(lái)做遷移強(qiáng)化學(xué)習(xí)的文章請(qǐng)參考 [3-6]瘪校。
為了研究基于SR表征的生理學(xué)基礎(chǔ)澄暮,Momennejad等人在《Nature》的“人類行為”子刊上發(fā)表文章,在人類和嚙齒類動(dòng)物上做了大量的實(shí)驗(yàn)阱扬,來(lái)證明SR具有一定的生物學(xué)基礎(chǔ) [7]泣懊。另外Gershman也從行為學(xué)、神經(jīng)科學(xué)的角度麻惶,對(duì)SR的計(jì)算邏輯和神經(jīng)學(xué)基礎(chǔ)進(jìn)行了詳細(xì)的分析馍刮,并認(rèn)為SR在計(jì)算效率和靈活性上,相較于 model-based 和 model-free 實(shí)現(xiàn)了很好的折中 [2]窃蹋,如下圖所示卡啰。
【SR的定義及其和強(qiáng)化學(xué)習(xí)的關(guān)系】
SR將智能體在當(dāng)前時(shí)刻的狀態(tài)用一個(gè)特征來(lái)表示,該特征不僅和當(dāng)前狀態(tài)有關(guān)匈辱,還和未來(lái)時(shí)刻的后繼狀態(tài)序列有關(guān)振湾,因此,和智能體所使用的策略也有關(guān)系亡脸。SR并沒有否定傳統(tǒng)強(qiáng)化學(xué)習(xí)的理論框架押搪,而是在其基礎(chǔ)上,提出了一種新的思路來(lái)求解最優(yōu)策略浅碾。SR可以被定義為:
,????(1)
其中如果括號(hào)里的為真大州,0則表示為非真〈剐唬可以看出厦画,(1)式也可以寫成Bellman方程:
.????(2)
因此,給定一個(gè)SR滥朱,基于策略的Q函數(shù)就可以表示為:
.????(3)
當(dāng)然根暑,這里的(3)式要想求得精確值,需要對(duì)狀態(tài)空間中的每一個(gè)狀態(tài)進(jìn)行遍歷求解焚虱,這極其消耗計(jì)算資源购裙。為此懂版,Kulkarni等人在 [3] 中用非線性函數(shù)擬合器來(lái)逼近這里的Q函數(shù)(即(3)式)鹃栽。
首先,他們將每個(gè)狀態(tài)用一個(gè)維的特征向量
來(lái)表示躯畴,并用一個(gè)參數(shù)化的神經(jīng)網(wǎng)絡(luò)將狀態(tài)映射到特征空間中民鼓,即
。針對(duì)每個(gè)
蓬抄,再定義一個(gè)基于特征的SR丰嘉,記作
。然后用另外一個(gè)神經(jīng)網(wǎng)絡(luò)
來(lái)擬合
嚷缭。除此之外饮亏,對(duì)于reward函數(shù),用一個(gè)權(quán)重向量
和
作線性組合得到reward函數(shù)的近似值阅爽,即
路幸,其中
。
經(jīng)過以上的操作付翁,(3)式對(duì)Q函數(shù)的求解简肴,可以轉(zhuǎn)化為:
.????(4)
而則可以通過Bellman方程求解:
.????(5)
其中,.????(6)
以上就是基于SR做強(qiáng)化學(xué)習(xí)的基本模式百侧,這種方式使得Q函數(shù)的求解轉(zhuǎn)化為1)SR的求解和2)權(quán)重的求解砰识∧馨牵可以發(fā)現(xiàn),前者的學(xué)習(xí)由于具有Bellman方程形式辫狼,因此一般的強(qiáng)化學(xué)習(xí)算法都適用于求解該問題初斑;對(duì)于后者,則普通的監(jiān)督學(xué)習(xí)算法就可以擬合了膨处。SR作為環(huán)境狀態(tài)的一種表征越平,對(duì)不同的任務(wù)具有一般性,因此這種算法求出來(lái)的模型比較穩(wěn)定和靈活灵迫。不同的
可以代表不同的任務(wù)秦叛,所以也具有一定的可遷移性。
在此基礎(chǔ)上瀑粥,由于Barreto等人發(fā)現(xiàn)了基于SR強(qiáng)化學(xué)習(xí)的可遷移性優(yōu)勢(shì)挣跋,于是提出了基于Successor Feature(SFs)和Generalized Policy Improvement(GPI)的遷移強(qiáng)化學(xué)習(xí)框架。關(guān)于這部分內(nèi)容狞换,請(qǐng)各位參考我前面的兩篇文章:1)論文解讀:Successor Features for Transfer in Reinforcement Learning避咆;2)論文解讀:Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement。
【SR的優(yōu)勢(shì)和缺點(diǎn)】
盡管基于SR的強(qiáng)化學(xué)習(xí)具有一定的遷移性修噪,但是畢竟?fàn)顟B(tài)的轉(zhuǎn)移是和策略息息相關(guān)的查库。一旦策略發(fā)生變化,則學(xué)習(xí)出來(lái)的SR或者SFs仍然需要繼續(xù)學(xué)習(xí)才能保持其準(zhǔn)確性黄琼。也就是說(shuō)祷杈,對(duì)于遷移強(qiáng)化學(xué)習(xí)來(lái)說(shuō)胸墙,它仍具有一定的不足。
Lehnert等人在 [8] 中,專門針對(duì)基于 SFs 遷移強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)和限制進(jìn)行了研究和分析磕潮。在單任務(wù)強(qiáng)化學(xué)習(xí)中询筏,基于SFs的算法在收斂速度上不如Q-learning快绵脯。這是因?yàn)榛赟Fs的學(xué)習(xí)在一開始不僅要學(xué)習(xí)特征渊迁,還要擬合reward函數(shù),因此在效率上不如Q-learning剃盾。
在多任務(wù)強(qiáng)化學(xué)習(xí)學(xué)習(xí)中腺占,雖然任務(wù)的初始學(xué)習(xí)速度不如Q-learning快,但是當(dāng)reward函數(shù)發(fā)生一點(diǎn)變化之后痒谴,SFs的性能表現(xiàn)出了更好的魯棒性衰伯。但是這種好的性質(zhì),在reward函數(shù)發(fā)生較大變化的情況下闰歪,則不是很明顯嚎研。
因此,在遷移強(qiáng)化學(xué)習(xí)中,基于SFs的算法性能仍是有限的临扮。一旦在源任務(wù)上學(xué)到了最優(yōu)策略论矾,其SR或者SFs就和
密切相關(guān)。要想在目標(biāo)任務(wù)上快速得到新的最優(yōu)策略杆勇,學(xué)習(xí)一個(gè)新的SR或者SFs是不可避免的贪壳,這就又回到遷移強(qiáng)化學(xué)習(xí)問題本身來(lái)了。
【總結(jié)】
SR作為一種狀態(tài)表征方式蚜退,結(jié)合了model-based和model-free兩類算法的優(yōu)勢(shì)闰靴,使得基于SR的算法在模型靈活性和計(jì)算效率上有一個(gè)較好的折中。SR的這一特點(diǎn)被應(yīng)用在了遷移強(qiáng)化學(xué)習(xí)中钻注,但是仍然具有一定的限制蚂且。對(duì)于遷移強(qiáng)化學(xué)習(xí)來(lái)說(shuō),如果能從不同任務(wù)幅恋、不同環(huán)境中找到一個(gè)可遷移的特征表達(dá)杏死,那再好不過了。但是Successor Representation卻不具備理想的特征可遷移性捆交,因?yàn)樗蕾囉谝粋€(gè)特定的策略淑翼。一旦學(xué)到了某個(gè)任務(wù)最優(yōu)策略的SR,則不太容易直接將它遷移到另一個(gè)不同任務(wù)的最優(yōu)策略上品追。
【參考文獻(xiàn)】
[1]?Dayan, Peter. "Improving generalization for temporal difference learning: The successor representation."?Neural Computation?5, no. 4 (1993): 613-624.
[2] Gershman, Samuel J. "The successor representation: its computational logic and neural substrates."?Journal of Neuroscience?38, no. 33 (2018): 7193-7200.
[3] Kulkarni, Tejas D., Ardavan Saeedi, Simanta Gautam, and Samuel J. Gershman. "Deep successor reinforcement learning."?arXiv preprint arXiv:1606.02396?(2016).
[4] Zhang, Jingwei, Jost Tobias Springenberg, Joschka Boedecker, and Wolfram Burgard. "Deep reinforcement learning with successor features for navigation across similar environments." In?2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 2371-2378. IEEE, 2017.
[5] Barreto, André, Will Dabney, Rémi Munos, Jonathan J. Hunt, Tom Schaul, Hado P. van Hasselt, and David Silver. "Successor features for transfer in reinforcement learning." In?Advances in neural information processing systems, pp. 4055-4065. 2017.
[6] Barreto, Andre, Diana Borsa, John Quan, Tom Schaul, David Silver, Matteo Hessel, Daniel Mankowitz, Augustin Zidek, and Remi Munos. "Transfer in deep reinforcement learning using successor features and generalised policy improvement." In?International Conference on Machine Learning, pp. 501-510. 2018.
[7] Momennejad, Ida, Evan M. Russek, Jin H. Cheong, Matthew M. Botvinick, Nathaniel Douglass Daw, and Samuel J. Gershman. "The successor representation in human reinforcement learning."?Nature Human Behaviour?1, no. 9 (2017): 680-692.
[8] Lehnert, Lucas, Stefanie Tellex, and Michael L. Littman. "Advantages and limitations of using successor features for transfer in reinforcement learning."?arXiv preprint arXiv:1708.00102?(2017).
[9]?Barreto, André, Shaobo Hou, Diana Borsa, David Silver, and Doina Precup. "Fast reinforcement learning with generalized policy updates."?Proceedings of the National Academy of Sciences?(2020).