深入理解：強(qiáng)化學(xué)習(xí)之Successor Representation

前面寫過兩篇論文解讀碟贾，都是關(guān)于Successor Features在遷移強(qiáng)化學(xué)習(xí)中的應(yīng)用（點(diǎn)擊進(jìn)入第一篇衫贬，點(diǎn)擊進(jìn)入第二篇）偿凭。這兩篇文章都是基于強(qiáng)化學(xué)習(xí)中的Successor Representation (SR)概念發(fā)展出來(lái)的，今天我們來(lái)詳細(xì)探討一下這里的Successor Representation锣光。

【背景及發(fā)展脈絡(luò)】

一般強(qiáng)化學(xué)習(xí)算法分為兩類：model-based和model-free炉爆。Model-based的算法通過reward函數(shù)和（或）狀態(tài)轉(zhuǎn)移函數(shù)的學(xué)習(xí)來(lái)估計(jì)值函數(shù)；而后者不考慮模型的具體表達(dá)形式岂津，從狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)序列信號(hào)中直接估計(jì)值函數(shù)虱黄。

以上兩類算法各有優(yōu)劣，從算法的計(jì)算效率來(lái)看吮成，model-free更勝一籌橱乱，因?yàn)樗鼜慕?jīng)驗(yàn)數(shù)據(jù)中對(duì)值函數(shù)進(jìn)行估計(jì)，不需要對(duì)狀態(tài)空間中的所有狀態(tài)進(jìn)行遍歷粱甫，因此特別適用于像神經(jīng)網(wǎng)絡(luò)這樣基于數(shù)據(jù)的函數(shù)擬合器泳叠。但是其缺點(diǎn)就是一旦采樣數(shù)據(jù)的分布發(fā)生變化，或者環(huán)境發(fā)生了變化茶宵，則之前學(xué)習(xí)到的參數(shù)統(tǒng)統(tǒng)失效危纫，甚至有的時(shí)候一些細(xì)微的變化都會(huì)導(dǎo)致性能大幅度下降，也就是所謂的“災(zāi)難性遺忘（catastrophic forgetting）”問題乌庶。因此种蝶，從算法的靈活性來(lái)看，model-free的算法表現(xiàn)較差瞒大。而model-based算法則正好反過來(lái)螃征，它在計(jì)算效率上不如model-free算法節(jié)省資源，但是模型更加靈活透敌。這是因?yàn)閙odel-based算法具有模型本身的一些先驗(yàn)知識(shí)盯滚，因此當(dāng)環(huán)境發(fā)生變化的時(shí)候锅棕，可以從模型參數(shù)上對(duì)模型進(jìn)行相應(yīng)的修正，則算法依然能夠表現(xiàn)得很好淌山。但是這類算法在狀態(tài)空間比較大的時(shí)候裸燎，將會(huì)特別消耗計(jì)算資源，甚至不可求解泼疑。

那能不能找到一種算法德绿，能夠從計(jì)算效率（efficiency）和靈活性（flexibility）之間進(jìn)行折中呢？這就引入了今天要介紹的Successor Representations退渗。

Successor Representation最早由MIT的Peter Dayan于1993年提出（點(diǎn)擊論文鏈接） [1]移稳，以下我們簡(jiǎn)稱SR』嵊停考慮到TD算法的核心是估計(jì)從當(dāng)前時(shí)刻開始到未來(lái)的累積獎(jiǎng)勵(lì)值（value function）个粱，Dayan認(rèn)為這個(gè)值和后繼狀態(tài)的相似度關(guān)系密切。如果有一個(gè)很好的表征（representation）能夠描述當(dāng)前狀態(tài)到未來(lái)某個(gè)狀態(tài)的轉(zhuǎn)移特性翻翩，則value function就可以分解為兩個(gè)部分都许，一部分是這個(gè)表征，另一部分描述獎(jiǎng)勵(lì)函數(shù)嫂冻。于是他提出了SR的方法胶征，結(jié)合TD learning的優(yōu)勢(shì)和基于模型算法的靈活性，使得該算法被稱為除了model-based和model-free的第三類強(qiáng)化學(xué)習(xí)算法 [2, 3]桨仿。

SR算法剛開始提出來(lái)睛低，并沒有受到太多重視。直到近幾年隨著深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展服傍，有人開始注意到基于SR的強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)钱雷。特別地，在算法靈活性上吹零，由于SR對(duì)環(huán)境的依賴性并不像TD-learning那么大罩抗，因此在遷移強(qiáng)化學(xué)習(xí)領(lǐng)域特別受到重視。比較典型的利用SR來(lái)做遷移強(qiáng)化學(xué)習(xí)的文章請(qǐng)參考 [3-6]瘪校。

為了研究基于SR表征的生理學(xué)基礎(chǔ)澄暮，Momennejad等人在《Nature》的“人類行為”子刊上發(fā)表文章，在人類和嚙齒類動(dòng)物上做了大量的實(shí)驗(yàn)阱扬，來(lái)證明SR具有一定的生物學(xué)基礎(chǔ) [7]泣懊。另外Gershman也從行為學(xué)、神經(jīng)科學(xué)的角度麻惶，對(duì)SR的計(jì)算邏輯和神經(jīng)學(xué)基礎(chǔ)進(jìn)行了詳細(xì)的分析馍刮，并認(rèn)為SR在計(jì)算效率和靈活性上，相較于 model-based 和 model-free 實(shí)現(xiàn)了很好的折中 [2]窃蹋，如下圖所示卡啰。

算法效率静稻、靈活性比較圖

【SR的定義及其和強(qiáng)化學(xué)習(xí)的關(guān)系】

SR將智能體在當(dāng)前時(shí)刻的狀態(tài)用一個(gè)特征來(lái)表示，該特征不僅和當(dāng)前狀態(tài)有關(guān)匈辱，還和未來(lái)時(shí)刻的后繼狀態(tài)序列有關(guān)振湾，因此，和智能體所使用的策略也有關(guān)系亡脸。SR并沒有否定傳統(tǒng)強(qiáng)化學(xué)習(xí)的理論框架押搪，而是在其基礎(chǔ)上，提出了一種新的思路來(lái)求解最優(yōu)策略浅碾。SR可以被定義為：

$M(s, s^\prime, a) = \mathbb{E}\left[ \sum_{t=0}^{\infty}{\gamma^t \mathbb{1}[s_t=s^\prime] | s_0=s, a_0=a} \right]$ ,????（1）

其中 $\mathbb{1}[\cdot]=1$ 如果括號(hào)里的為真大州，0則表示為非真〈剐唬可以看出厦画，（1）式也可以寫成Bellman方程：

$M(s, s^\prime, a) = \mathbb{1}[s_t=s^\prime] + \gamma \mathbb{E}{\left[ M(s_{t+1}, s^\prime, a_{t+1}) \right]}$ .????（2）

因此，給定一個(gè)SR滥朱，基于策略 $\pi$ 的Q函數(shù)就可以表示為：

$Q^{\pi}(s, a) = \sum_{s^\prime \in \mathcal{S}}{M(s, s^\prime, a) R(s^\prime)}$ .????（3）

當(dāng)然根暑，這里的（3）式要想求得精確值，需要對(duì)狀態(tài)空間中的每一個(gè)狀態(tài) $s^\prime$ 進(jìn)行遍歷求解焚虱，這極其消耗計(jì)算資源购裙。為此懂版，Kulkarni等人在 [3] 中用非線性函數(shù)擬合器來(lái)逼近這里的Q函數(shù)（即（3）式）鹃栽。

首先，他們將每個(gè)狀態(tài)用一個(gè) $D$ 維的特征向量 $\phi_s$ 來(lái)表示躯畴，并用一個(gè)參數(shù)化的神經(jīng)網(wǎng)絡(luò)將狀態(tài)映射到特征空間中民鼓，即 $f_{\theta}: \mathcal{S} \rightarrow \mathbb{R}^D$ 。針對(duì)每個(gè) $\phi_s$ 蓬抄，再定義一個(gè)基于特征的SR丰嘉，記作 $m_{sa}$ 。然后用另外一個(gè)神經(jīng)網(wǎng)絡(luò) $u_{\alpha}(\phi_s, a)$ 來(lái)擬合 $m_{sa}$ 嚷缭。除此之外饮亏，對(duì)于reward函數(shù)，用一個(gè)權(quán)重向量 $\boldsymbol{w}$ 和 $\phi_s$ 作線性組合得到reward函數(shù)的近似值阅爽，即 $\phi_S: R(s) \approx \phi_s \cdot \boldsymbol{w}$ 路幸，其中 $\boldsymbol{w} \in \mathbb{R}^D$ 。

經(jīng)過以上的操作付翁，（3）式對(duì)Q函數(shù)的求解简肴，可以轉(zhuǎn)化為：

$Q^{\pi}(s, a) \approx m_{sa} \cdot \boldsymbol{w}$ .????（4）

而 $m_{sa}$ 則可以通過Bellman方程求解：

$m_{sa} = \phi_s + \gamma \mathbb{E}{\left[ m_{s_{t+1}a^\prime} \right]}$ .????（5）

其中， $a^\prime = \arg\max_a{m_{s_{t+1}a} \cdot \boldsymbol{w}}$ .????（6）

以上就是基于SR做強(qiáng)化學(xué)習(xí)的基本模式百侧，這種方式使得Q函數(shù)的求解轉(zhuǎn)化為1）SR的求解和2）權(quán)重 $\boldsymbol{w}$ 的求解砰识∧馨牵可以發(fā)現(xiàn)，前者的學(xué)習(xí)由于具有Bellman方程形式辫狼，因此一般的強(qiáng)化學(xué)習(xí)算法都適用于求解該問題初斑；對(duì)于后者，則普通的監(jiān)督學(xué)習(xí)算法就可以擬合了膨处。SR作為環(huán)境狀態(tài)的一種表征越平，對(duì)不同的任務(wù)具有一般性，因此這種算法求出來(lái)的模型比較穩(wěn)定和靈活灵迫。不同的 $\boldsymbol{w}$ 可以代表不同的任務(wù)秦叛，所以也具有一定的可遷移性。

在此基礎(chǔ)上瀑粥，由于Barreto等人發(fā)現(xiàn)了基于SR強(qiáng)化學(xué)習(xí)的可遷移性優(yōu)勢(shì)挣跋，于是提出了基于Successor Feature（SFs）和Generalized Policy Improvement（GPI）的遷移強(qiáng)化學(xué)習(xí)框架。關(guān)于這部分內(nèi)容狞换，請(qǐng)各位參考我前面的兩篇文章：1）論文解讀：Successor Features for Transfer in Reinforcement Learning避咆；2）論文解讀：Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement。

【SR的優(yōu)勢(shì)和缺點(diǎn)】

盡管基于SR的強(qiáng)化學(xué)習(xí)具有一定的遷移性修噪，但是畢竟?fàn)顟B(tài)的轉(zhuǎn)移是和策略息息相關(guān)的查库。一旦策略發(fā)生變化，則學(xué)習(xí)出來(lái)的SR或者SFs仍然需要繼續(xù)學(xué)習(xí)才能保持其準(zhǔn)確性黄琼。也就是說(shuō)祷杈，對(duì)于遷移強(qiáng)化學(xué)習(xí)來(lái)說(shuō)胸墙，它仍具有一定的不足。

Lehnert等人在 [8] 中，專門針對(duì)基于 SFs 遷移強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)和限制進(jìn)行了研究和分析磕潮。在單任務(wù)強(qiáng)化學(xué)習(xí)中询筏，基于SFs的算法在收斂速度上不如Q-learning快绵脯。這是因?yàn)榛赟Fs的學(xué)習(xí)在一開始不僅要學(xué)習(xí)特征渊迁，還要擬合reward函數(shù)，因此在效率上不如Q-learning剃盾。

在多任務(wù)強(qiáng)化學(xué)習(xí)學(xué)習(xí)中腺占，雖然任務(wù)的初始學(xué)習(xí)速度不如Q-learning快，但是當(dāng)reward函數(shù)發(fā)生一點(diǎn)變化之后痒谴，SFs的性能表現(xiàn)出了更好的魯棒性衰伯。但是這種好的性質(zhì)，在reward函數(shù)發(fā)生較大變化的情況下闰歪，則不是很明顯嚎研。

因此，在遷移強(qiáng)化學(xué)習(xí)中，基于SFs的算法性能仍是有限的临扮。一旦在源任務(wù)上學(xué)到了最優(yōu)策略 $\pi^*$ 论矾，其SR或者SFs就和 $\pi^*$ 密切相關(guān)。要想在目標(biāo)任務(wù)上快速得到新的最優(yōu)策略杆勇，學(xué)習(xí)一個(gè)新的SR或者SFs是不可避免的贪壳，這就又回到遷移強(qiáng)化學(xué)習(xí)問題本身來(lái)了。

【總結(jié)】

SR作為一種狀態(tài)表征方式蚜退，結(jié)合了model-based和model-free兩類算法的優(yōu)勢(shì)闰靴，使得基于SR的算法在模型靈活性和計(jì)算效率上有一個(gè)較好的折中。SR的這一特點(diǎn)被應(yīng)用在了遷移強(qiáng)化學(xué)習(xí)中钻注，但是仍然具有一定的限制蚂且。對(duì)于遷移強(qiáng)化學(xué)習(xí)來(lái)說(shuō)，如果能從不同任務(wù)幅恋、不同環(huán)境中找到一個(gè)可遷移的特征表達(dá)杏死，那再好不過了。但是Successor Representation卻不具備理想的特征可遷移性捆交，因?yàn)樗蕾囉谝粋€(gè)特定的策略淑翼。一旦學(xué)到了某個(gè)任務(wù)最優(yōu)策略的SR，則不太容易直接將它遷移到另一個(gè)不同任務(wù)的最優(yōu)策略上品追。

【參考文獻(xiàn)】

[1]?Dayan, Peter. "Improving generalization for temporal difference learning: The successor representation."?Neural Computation?5, no. 4 (1993): 613-624.

[2] Gershman, Samuel J. "The successor representation: its computational logic and neural substrates."?Journal of Neuroscience?38, no. 33 (2018): 7193-7200.

[3] Kulkarni, Tejas D., Ardavan Saeedi, Simanta Gautam, and Samuel J. Gershman. "Deep successor reinforcement learning."?arXiv preprint arXiv:1606.02396?(2016).

[4] Zhang, Jingwei, Jost Tobias Springenberg, Joschka Boedecker, and Wolfram Burgard. "Deep reinforcement learning with successor features for navigation across similar environments." In?2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 2371-2378. IEEE, 2017.

[5] Barreto, André, Will Dabney, Rémi Munos, Jonathan J. Hunt, Tom Schaul, Hado P. van Hasselt, and David Silver. "Successor features for transfer in reinforcement learning." In?Advances in neural information processing systems, pp. 4055-4065. 2017.

[6] Barreto, Andre, Diana Borsa, John Quan, Tom Schaul, David Silver, Matteo Hessel, Daniel Mankowitz, Augustin Zidek, and Remi Munos. "Transfer in deep reinforcement learning using successor features and generalised policy improvement." In?International Conference on Machine Learning, pp. 501-510. 2018.

[7] Momennejad, Ida, Evan M. Russek, Jin H. Cheong, Matthew M. Botvinick, Nathaniel Douglass Daw, and Samuel J. Gershman. "The successor representation in human reinforcement learning."?Nature Human Behaviour?1, no. 9 (2017): 680-692.

[8] Lehnert, Lucas, Stefanie Tellex, and Michael L. Littman. "Advantages and limitations of using successor features for transfer in reinforcement learning."?arXiv preprint arXiv:1708.00102?(2017).

[9]?Barreto, André, Shaobo Hou, Diana Borsa, David Silver, and Doina Precup. "Fast reinforcement learning with generalized policy updates."?Proceedings of the National Academy of Sciences?(2020).

最后編輯于：2021.02.22 09:52:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末玄括，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子肉瓦，更是在濱河造成了極大的恐慌遭京，老刑警劉巖，帶你破解...
沈念sama閱讀 221,635評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件风宁，死亡現(xiàn)場(chǎng)離奇詭異洁墙，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)戒财，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,543評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)捺弦，“玉大人饮寞，你說(shuō)我怎么就攤上這事×泻穑” “怎么了幽崩？”我有些...
開封第一講書人閱讀 168,083評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)寞钥。經(jīng)常有香客問我慌申，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,640評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任蹄溉，我火速辦了婚禮咨油，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘柒爵。我一直安慰自己役电，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,640評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布棉胀。她就那樣靜靜地躺著法瑟，像睡著了一般。火紅的嫁衣襯著肌膚如雪唁奢。梳的紋絲不亂的頭發(fā)上霎挟，一...
開封第一講書人閱讀 52,262評(píng)論 1贊 308
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音麻掸，去河邊找鬼氓扛。笑死，一個(gè)胖子當(dāng)著我的面吹牛论笔，可吹牛的內(nèi)容都是我干的采郎。我是一名探鬼主播，決...
沈念sama閱讀 40,833評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼狂魔，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蒜埋！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起最楷，我...
開封第一講書人閱讀 39,736評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤整份，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后籽孙，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體烈评，經(jīng)...
沈念sama閱讀 46,280評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,369評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年犯建，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了讲冠。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,503評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡适瓦，死狀恐怖竿开，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情玻熙，我是刑警寧澤否彩，帶...
沈念sama閱讀 36,185評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站嗦随，受9級(jí)特大地震影響列荔，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,870評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一贴浙、第九天我趴在偏房一處隱蔽的房頂上張望砂吞。院中可真熱鬧，春花似錦悬而、人聲如沸呜舒。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,340評(píng)論 0贊 24
一樁弒父案笨奠，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)袭蝗。三九已至，卻和暖如春般婆，著一層夾襖步出監(jiān)牢的瞬間到腥，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,460評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工蔚袍，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乡范，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,909評(píng)論 3贊 376
代替公主和親
正文我出身青樓啤咽，卻偏偏與公主長(zhǎng)得像晋辆，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子宇整，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,512評(píng)論 2贊 359

深入理解：強(qiáng)化學(xué)習(xí)之Successor Representation

推薦閱讀更多精彩內(nèi)容