論文題目:Successor Features for Transfer in Reinforcement Learning
論文鏈接:http://papers.nips.cc/paper/6994-successor-features-for-transfer-in-reinforcement-learning.pdf
論文出處:NeurIPS?2017
摘要:這里的transfer in reinforcement learning指的是RL算法不是僅在某個(gè)具體任務(wù)中學(xué)習(xí)最優(yōu)策略(傳統(tǒng)強(qiáng)化學(xué)習(xí))绍刮,而是在不同任務(wù)之間通過transfer來學(xué)習(xí)的更一般的算法。本文提出的遷移學(xué)習(xí)框架挨摸,主要針對reward函數(shù)不同孩革,但是環(huán)境的動力學(xué)模型保持不變的情況。所提出的方法基于兩個(gè)key ideas:1)successor features (SFs):一種將環(huán)境的模型從reward中分離出來的值函數(shù)表征得运;2)generalized policy improvement (GPI):一種考慮一組策略膝蜈,而不是單個(gè)策略的GPI(傳統(tǒng)GPI的擴(kuò)展)。將這兩種想法放在一起熔掺,可以實(shí)現(xiàn)任務(wù)之間自由的信息交換(任務(wù)遷移)饱搏。
論文主要思路:
本文所期望的遷移方法需要具備兩個(gè)性質(zhì):1)任務(wù)之間的信息流不應(yīng)由反映任務(wù)本身之間的關(guān)系(例如層次或時(shí)間依賴性)的剛性圖來規(guī)定。 相反置逻,只要有用推沸,就應(yīng)該跨任務(wù)交換信息。 2)遷移應(yīng)該盡可能地整合到RL框架中券坞,而不是以單獨(dú)的問題擺出鬓催,最好采用對智能體幾乎透明的方式。
本文的創(chuàng)新基于兩點(diǎn):第一恨锚,將successor representation方法擴(kuò)展宇驾,提出successor features來描述值函數(shù);第二眠冈,將傳統(tǒng)針對單個(gè)策略的GPI擴(kuò)展成多個(gè)策略的GPI飞苇。
Successor Features (SFs)的定義及其學(xué)習(xí):
傳統(tǒng)的強(qiáng)化學(xué)習(xí),通過一個(gè)特定的reward函數(shù)來指定一個(gè)具體的任務(wù)蜗顽,即。這里雨让,作者假設(shè)reward函數(shù)可以表示成
,? ? ? ? ? ? ? ? ? ? (1)
其中雇盖,是關(guān)于
的特征,
時(shí)刻下該值記為
栖忠,
是權(quán)重崔挖。
有了式(1)贸街,策略的Q函數(shù)可以表示為
.? ? ? ? ? (2)
(2)式中的就是策略
下狀態(tài)-動作二元組
的successor features(如下圖所示)。因此狸相,Q函數(shù)的學(xué)習(xí)薛匪,包含了對
和
的學(xué)習(xí)。
的學(xué)習(xí)脓鹃,和reward有關(guān)逸尖。根據(jù)(1)式,如果有了
瘸右,那么
的學(xué)習(xí)就是普通的監(jiān)督式學(xué)習(xí)娇跟,
。當(dāng)然太颤,
也可以通過監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)苞俘。
關(guān)于的學(xué)習(xí),需要利用(2)式的貝爾曼方程形式龄章,即
.? ? ? ? (3)
通過SFs實(shí)現(xiàn)遷移學(xué)習(xí):
作者假設(shè)在環(huán)境的動力學(xué)模型不變的情況下吃谣,是不變的。因此做裙,根據(jù)(1)式岗憋,不同的
就描述了不同的任務(wù),或者不同的MDP菇用。作者將
表示下的所有任務(wù)定義為一個(gè)MDP集合:
.? ? ? (4)
這種情況下澜驮,假設(shè)source domain包括個(gè)任務(wù),即
惋鸥,分別對應(yīng)
個(gè)不同的
杂穷,即
,和
個(gè)最優(yōu)策略
卦绣。一旦
給定耐量,或者學(xué)出來了,則新任務(wù)
的學(xué)習(xí)只需要研究
和
之間的關(guān)系就行了滤港。
為此廊蜒,作者提出了兩個(gè)定理:
------------------------------------------------------------------------------------------------------------
定理1.(GPI)假設(shè)為
個(gè)不同的策略,并且
是它們動作值函數(shù)的近似溅漾,滿足
? ? ? ?(5)
定義新的策略為
? ? ? ? ? (6)
則? ?? ? ? ? ?(7)
------------------------------------------------------------------------------------------------------------
這里的GPI是傳統(tǒng)強(qiáng)化學(xué)習(xí)GPI的一種推廣山叮,它針對多個(gè)任務(wù)的策略,對當(dāng)前任務(wù)的策略進(jìn)行提升添履。定理1表明屁倔,策略(6)不會表現(xiàn)得比
中的任何一個(gè)策略差。如果
暮胧,策略(6)將會嚴(yán)格比其它
個(gè)策略表現(xiàn)得更好锐借。
------------------------------------------------------------------------------------------------------------
定理2.?令问麸,并且
為策略
在
中執(zhí)行時(shí)的動作值函數(shù),其中
為
下的最優(yōu)策略钞翔。給定一組近似動作值函數(shù)的集合
严卖,使其滿足
? ? ? ? ? ? (8)
令??,并且
布轿,其中
是由內(nèi)積誘導(dǎo)的范數(shù)哮笆。則
.? ? ? ? ? ? (9)
------------------------------------------------------------------------------------------------------------
定理2給出了從現(xiàn)有模型中進(jìn)行遷移學(xué)習(xí)的誤差上界。如果智能體之前學(xué)習(xí)過類似的任務(wù)驮捍,即和
比較接近疟呐,則任務(wù)遷移就會比較成功。如果之前沒有學(xué)習(xí)過东且,那就看前面學(xué)過的
個(gè)任務(wù)里启具,哪個(gè)距離
比較近了。
以上就是本文算法的核心部分了珊泳。在我看來鲁冯,該算法最值得借鑒的地方就是將reward函數(shù)分解成兩部分,一部分是狀態(tài)轉(zhuǎn)移數(shù)據(jù)的特征色查,是通用的薯演;一部分是描述任務(wù)的權(quán)重,和任務(wù)有關(guān)秧了。這樣做跨扮,就把一族任務(wù)用特征函數(shù)來表示了,而任務(wù)族內(nèi)部各任務(wù)验毡,則由權(quán)重向量
來表示衡创。
但是這里的如何設(shè)計(jì),如何學(xué)習(xí)晶通,哪些任務(wù)不在
以內(nèi)璃氢,作者似乎并沒有講清楚。此外狮辽,作者考慮的是離散動作一也,有限狀態(tài)的遷移強(qiáng)化學(xué)習(xí)。該算法在設(shè)計(jì)上喉脖,需要對所有的動作遍歷椰苟。
關(guān)于SFs的遷移強(qiáng)化學(xué)習(xí)算法今天先介紹到這里,后續(xù)針對該算法還會有更詳細(xì)的補(bǔ)充树叽。
已將所有內(nèi)容移至知乎個(gè)人主頁:https://www.zhihu.com/people/wenzhang-liu尊剔,以后有新的內(nèi)容也都在知乎上發(fā)布,歡迎關(guān)注菱皆!