真誠的向大家推薦這個UP主摆昧,論文講述的方法清楚颂龙,脈絡清晰芜繁,聽君一席話勝讀十年書珊肃。
論文題目:Self-Supervised Policy Adaptation during Deployment(部署過程中的自監(jiān)督策略適配)
本文討論的是在reinforcement learning的方法訓練好了之后荣刑,在實際的部署過程中,環(huán)境可能發(fā)生了改變伦乔。為了應對這些環(huán)境的改變使算法更有魯棒性厉亏,作者提出:在部署的過程中要繼續(xù)對agent進行訓練。但在訓練過程中可能不太容易獲得reward信息烈和,在此作者引入了一個self-surpervise的任務爱只。幫助持續(xù)改善reinforcement learning中的encoder,達到對環(huán)境有一定的魯棒性的目的招刹。
下面是論文的具體內容:
左側的第一個網絡是一個encoder+兩個不同的head的結構恬试。一個head是做self-surprised learning窝趣,另一個head是做reinforcement learning的。在一開始做reinforcement learning的訓練過程中训柴,兩個head都是提供loss的哑舒。但是在部署階段的時候,因為不容易取得reinforcement learning的rewards幻馁,只剩下self-supervised learning洗鸵,但是即便如此,網絡依然能夠改善encoder的性能仗嗦,借此提升reinforcement learning的性能膘滨。
進一步我們需要了解文中所提到的Self-Supervised Learning(SSL)
作者研究了兩種Task:
一種是 Inverse Dynamics Prediction:
這一方法就是在有了一個transition之后得到state action和next state的pair。將state和next state輸入到encoder中稀拐,然后經過self-surprised的head火邓。其目的是預測state transition中執(zhí)行了什么樣的動作,與action的ground truth(gt)進行對比德撬。連續(xù)空間就用MSE
離散空間就用CE(cross entropy)贡翘。
這種方法規(guī)避了傳統(tǒng)的dynamics prediction需要對未來進行預測這樣一個困難的任務。而是將盡可能多的信息提供給網絡砰逻,讓網絡預測一個簡單的action鸣驱。即便如此依然可以取得一個不錯的性能。
另一種是rotation prediction
這個任務比上一個任務更為簡單蝠咆,也就是將圖像隨機旋轉0,90,180或者270°踊东,然后用四分類的classifier預測圖像究竟旋轉了多少度。
作者實驗證明第一種任務的性能更好刚操。
那么在我們得到了這些loss之后要如何對網絡進行更新呢闸翅?
非常簡單的使用了上一個時刻的減去gradient的方法,且不影響網絡在線的運行菊霜。
實驗結果證明坚冀,本文的方法在長時間的運行過程中取得了不錯的運行效果。
此外作者也匯報了豐富的ablation study的結果鉴逞,以及詳細的實驗設計记某。