論文解讀:Successor Features for Transfer in Reinforcement Learning

論文題目:Successor Features for Transfer in Reinforcement Learning

論文鏈接http://papers.nips.cc/paper/6994-successor-features-for-transfer-in-reinforcement-learning.pdf

論文出處:NeurIPS?2017

摘要:這里的transfer in reinforcement learning指的是RL算法不是僅在某個(gè)具體任務(wù)中學(xué)習(xí)最優(yōu)策略(傳統(tǒng)強(qiáng)化學(xué)習(xí))绍刮,而是在不同任務(wù)之間通過transfer來學(xué)習(xí)的更一般的算法。本文提出的遷移學(xué)習(xí)框架挨摸,主要針對reward函數(shù)不同孩革,但是環(huán)境的動力學(xué)模型保持不變的情況。所提出的方法基于兩個(gè)key ideas:1)successor features (SFs):一種將環(huán)境的模型從reward中分離出來的值函數(shù)表征得运;2)generalized policy improvement (GPI):一種考慮一組策略膝蜈,而不是單個(gè)策略的GPI(傳統(tǒng)GPI的擴(kuò)展)。將這兩種想法放在一起熔掺,可以實(shí)現(xiàn)任務(wù)之間自由的信息交換(任務(wù)遷移)饱搏。

論文主要思路

本文所期望的遷移方法需要具備兩個(gè)性質(zhì):1)任務(wù)之間的信息流不應(yīng)由反映任務(wù)本身之間的關(guān)系(例如層次或時(shí)間依賴性)的剛性圖來規(guī)定。 相反置逻,只要有用推沸,就應(yīng)該跨任務(wù)交換信息。 2)遷移應(yīng)該盡可能地整合到RL框架中券坞,而不是以單獨(dú)的問題擺出鬓催,最好采用對智能體幾乎透明的方式。

本文的創(chuàng)新基于兩點(diǎn):第一恨锚,將successor representation方法擴(kuò)展宇驾,提出successor features來描述值函數(shù);第二眠冈,將傳統(tǒng)針對單個(gè)策略的GPI擴(kuò)展成多個(gè)策略的GPI飞苇。

Successor Features (SFs)的定義及其學(xué)習(xí)

傳統(tǒng)的強(qiáng)化學(xué)習(xí),通過一個(gè)特定的reward函數(shù)來指定一個(gè)具體的任務(wù)蜗顽,即r(s, a, s^\prime)。這里雨让,作者假設(shè)reward函數(shù)可以表示成

r(s, a, s^\prime)=\phi(s, a, s^\prime)^T\boldsymbol{w},? ? ? ? ? ? ? ? ? ? (1)

其中雇盖,\phi(s, a, s^\prime)\in \mathbb{R}^d是關(guān)于(s, a, s^\prime)的特征,t時(shí)刻下該值記為\phi(s_t, a_t, s_{t+1})=\phi_t栖忠,\boldsymbol{w}是權(quán)重崔挖。

有了式(1)贸街,策略\pi的Q函數(shù)可以表示為

Q^{\pi}(s,a)=\mathbb{E}^{\pi}\left[ \sum_{i=t}^{\infty}{\gamma^{i-t}\phi_{i+1}|S_t=s, A_t=a} \right]^T \boldsymbol{w}=\psi^{\pi}(s,a)^T \boldsymbol{w}.? ? ? ? ? (2)

(2)式中的\psi^{\pi}(s,a)就是策略\pi下狀態(tài)-動作二元組(s,a)的successor features(如下圖所示)。因此狸相,Q函數(shù)的學(xué)習(xí)薛匪,包含了對\psi^\pi\boldsymbol{w}的學(xué)習(xí)。

\boldsymbol{w}的學(xué)習(xí)脓鹃,和reward有關(guān)逸尖。根據(jù)(1)式,如果有了\phi瘸右,那么\boldsymbol{w}的學(xué)習(xí)就是普通的監(jiān)督式學(xué)習(xí)娇跟,r(s,a,s^\prime) \approx\phi(s,a,s^\prime)^T\tilde{\boldsymbol{w}}。當(dāng)然太颤,\phi也可以通過監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)苞俘。

關(guān)于\psi^{\pi}的學(xué)習(xí),需要利用(2)式的貝爾曼方程形式龄章,即

\psi^{\pi}(s,a) = \phi_{t+1} + \gamma \mathbb{E}^{\pi} \left[ \psi^{\pi}(S_{t+1}, \pi(S_{t+1})) | S_t=s, A_t=a \right].? ? ? ? (3)


Successor Features示意圖

通過SFs實(shí)現(xiàn)遷移學(xué)習(xí):

作者假設(shè)在環(huán)境的動力學(xué)模型不變的情況下吃谣,\phi \in \mathbb{R}^d是不變的。因此做裙,根據(jù)(1)式岗憋,不同的\boldsymbol{w}就描述了不同的任務(wù),或者不同的MDP菇用。作者將\phi表示下的所有任務(wù)定義為一個(gè)MDP集合:

\mathcal{M}^{\phi} \equiv\left\{ M(\mathcal{S}, \mathcal{A}, p, r, \gamma) | r(s,a,s^\prime)=\phi(s,a,s^\prime)^T \boldsymbol{w} \right\}.? ? ? (4)

這種情況下澜驮,假設(shè)source domain包括n個(gè)任務(wù),即\mathcal{M} \equiv\left\{ M_1, M_2, \cdots, M_n \right\}惋鸥,分別對應(yīng)n個(gè)不同的\boldsymbol{w}杂穷,即\left\{ \boldsymbol{w}_1, \boldsymbol{w}_2, \cdots, \boldsymbol{w}_n \right\},和n個(gè)最優(yōu)策略\left\{ \pi^*_1, \pi^*_2, \cdots, \pi^*_n \right\}卦绣。一旦\boldsymbol{w}_{n+1}給定耐量,或者學(xué)出來了,則新任務(wù)M_{n+1}的學(xué)習(xí)只需要研究\boldsymbol{w}_{n+1}\left\{ \boldsymbol{w}_1, \boldsymbol{w}_2, \cdots, \boldsymbol{w}_n \right\}之間的關(guān)系就行了滤港。

為此廊蜒,作者提出了兩個(gè)定理:

------------------------------------------------------------------------------------------------------------

定理1.(GPI)假設(shè)\pi_1, \pi_2, \cdots, \pi_nn個(gè)不同的策略,并且\tilde{Q}^{\pi_1}, \tilde{Q}^{\pi_2}, \cdots, \tilde{Q}^{\pi_n}是它們動作值函數(shù)的近似溅漾,滿足

|Q^{\pi_i}(s, a)-\tilde{Q}^{\pi_1}(s, a)| \le \epsilon, \forall s\in \mathcal{S}, a \in \mathcal{A}, \text{and} i \in \left\{1, 2, \cdots, n \right\}.? ? ? ?(5)

定義新的策略為

\pi(s) \in \arg\max_a \max_i{\tilde{Q}^{\pi_i}(s, a)}.? ? ? ? ? (6)

則? ?Q^{\pi}(s,a) \ge \max_i{Q^{\pi_i}(s,a)-\frac{2}{1-\gamma}\epsilon}, \forall s\in \mathcal{S} \text{and} a \in \mathcal{A}.? ? ? ? ?(7)

------------------------------------------------------------------------------------------------------------

這里的GPI是傳統(tǒng)強(qiáng)化學(xué)習(xí)GPI的一種推廣山叮,它針對多個(gè)任務(wù)的策略\pi,對當(dāng)前任務(wù)的策略進(jìn)行提升添履。定理1表明屁倔,策略(6)不會表現(xiàn)得比\pi_1, \pi_2, \cdots, \pi_n中的任何一個(gè)策略差。如果\arg\max_a \max_i{\tilde{Q}^{\pi_i}(s, a)} \bigcap \arg\max_a \max_i{\tilde{Q}^{\pi_i}(s^\prime, a)}=\emptyset, \text{for some} s, s^\prime \in \mathcal{S}暮胧,策略(6)將會嚴(yán)格比其它n個(gè)策略表現(xiàn)得更好锐借。

------------------------------------------------------------------------------------------------------------

定理2.?令M_i \in \mathcal{M}^{\phi}问麸,并且Q^{\pi^*_j}_i為策略\pi^*_jM_i中執(zhí)行時(shí)的動作值函數(shù),其中\pi^*_jM_j \in \mathcal{M}^{\phi}下的最優(yōu)策略钞翔。給定一組近似動作值函數(shù)的集合\left\{ \tilde{Q}^{\pi^*_1}_i, \tilde{Q}^{\pi^*_2}_i, \cdots, \tilde{Q}^{\pi^*_n}_i  \right\}严卖,使其滿足

|Q_i^{\pi^*_j}(s, a)-\tilde{Q}_i^{\pi^*_j}(s, a)| \le \epsilon, \forall s\in \mathcal{S}, a \in \mathcal{A}, \text{and} j \in \left\{1, 2, \cdots, n \right\}.? ? ? ? ? ? (8)

令??\pi(s) \in \arg\max_a \max_j{\tilde{Q}_i^{\pi^*_j}(s, a)},并且\phi_{max}=\max_{s, a}||\phi(s, a)||布轿,其中||\cdot||是由內(nèi)積誘導(dǎo)的范數(shù)哮笆。則

Q_i^{\pi^*_i}(s, a) - Q_i^{\pi}(s, a) \le  \frac{2}{1-\gamma}\left( \phi_{max}\min_j||\boldsymbol{w}_i-\boldsymbol{w}_j|| + \epsilon \right).? ? ? ? ? ? (9)

------------------------------------------------------------------------------------------------------------

定理2給出了從現(xiàn)有模型中進(jìn)行遷移學(xué)習(xí)的誤差上界。如果智能體之前學(xué)習(xí)過類似的任務(wù)驮捍,即\boldsymbol{w}_i\boldsymbol{w}_j比較接近疟呐,則任務(wù)遷移就會比較成功。如果之前沒有學(xué)習(xí)過东且,那就看前面學(xué)過的n個(gè)任務(wù)里启具,哪個(gè)距離\boldsymbol{w}_i比較近了。

以上就是本文算法的核心部分了珊泳。在我看來鲁冯,該算法最值得借鑒的地方就是將reward函數(shù)分解成兩部分,一部分是狀態(tài)轉(zhuǎn)移數(shù)據(jù)的特征色查,是通用的薯演;一部分是描述任務(wù)的權(quán)重,和任務(wù)有關(guān)秧了。這樣做跨扮,就把一族任務(wù)用特征函數(shù)\phi(s, a, s^\prime)來表示了,而任務(wù)族內(nèi)部各任務(wù)验毡,則由權(quán)重向量\boldsymbol{w}來表示衡创。

但是這里的\phi如何設(shè)計(jì),如何學(xué)習(xí)晶通,哪些任務(wù)不在\mathcal{M}^{\phi}以內(nèi)璃氢,作者似乎并沒有講清楚。此外狮辽,作者考慮的是離散動作一也,有限狀態(tài)的遷移強(qiáng)化學(xué)習(xí)。該算法在設(shè)計(jì)上喉脖,需要對所有的動作遍歷椰苟。

關(guān)于SFs的遷移強(qiáng)化學(xué)習(xí)算法今天先介紹到這里,后續(xù)針對該算法還會有更詳細(xì)的補(bǔ)充树叽。

已將所有內(nèi)容移至知乎個(gè)人主頁:https://www.zhihu.com/people/wenzhang-liu尊剔,以后有新的內(nèi)容也都在知乎上發(fā)布,歡迎關(guān)注菱皆!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末须误,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子仇轻,更是在濱河造成了極大的恐慌京痢,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件篷店,死亡現(xiàn)場離奇詭異祭椰,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)疲陕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進(jìn)店門方淤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蹄殃,你說我怎么就攤上這事携茂。” “怎么了诅岩?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵讳苦,是天一觀的道長。 經(jīng)常有香客問我吩谦,道長鸳谜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任式廷,我火速辦了婚禮咐扭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘滑废。我一直安慰自己蝗肪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布策严。 她就那樣靜靜地躺著穗慕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪妻导。 梳的紋絲不亂的頭發(fā)上逛绵,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天,我揣著相機(jī)與錄音倔韭,去河邊找鬼术浪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛寿酌,可吹牛的內(nèi)容都是我干的胰苏。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼醇疼,長吁一口氣:“原來是場噩夢啊……” “哼硕并!你這毒婦竟也來了法焰?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤倔毙,失蹤者是張志新(化名)和其女友劉穎埃仪,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陕赃,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡卵蛉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了么库。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片傻丝。...
    茶點(diǎn)故事閱讀 40,503評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖诉儒,靈堂內(nèi)的尸體忽然破棺而出葡缰,到底是詐尸還是另有隱情,我是刑警寧澤允睹,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布运准,位于F島的核電站,受9級特大地震影響缭受,放射性物質(zhì)發(fā)生泄漏胁澳。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一米者、第九天 我趴在偏房一處隱蔽的房頂上張望韭畸。 院中可真熱鬧,春花似錦蔓搞、人聲如沸胰丁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锦庸。三九已至,卻和暖如春蒲祈,著一層夾襖步出監(jiān)牢的瞬間甘萧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工梆掸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留扬卷,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓酸钦,卻偏偏與公主長得像怪得,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評論 2 359