迷霧探險13 | IMPALA論文

IMPALA:Importance-Weighted Actor-Learner Architectures

論文鏈接:https://arxiv.org/abs/1802.01561
DMLab-30項目 GitHub:https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

摘要

在本研究中愿吹,我們專注于使用單一強化學(xué)習智能體與單一參數(shù)集解決大型任務(wù)集合的問題零抬。在這樣的條件下,最主要的挑戰(zhàn)是處理越來越大的數(shù)據(jù)量和不斷增加的訓(xùn)練時間——這在單一任務(wù)學(xué)習中已經(jīng)是一個挑戰(zhàn)扁远。我們開發(fā)了一種新的分布式智能體 IMPALA(Importance-Weighted Actor Learner Architecture)扔枫,它可以擴展到數(shù)千臺機器上汛聚,每秒吞吐量高達 25 萬幀。我們通過結(jié)合決策和學(xué)習分離與新型離策略修正方法 V-trace短荐,達到了很高的吞吐量倚舀,實現(xiàn)了穩(wěn)定學(xué)習叹哭,這對于學(xué)習的穩(wěn)定性至關(guān)重要。我們展示了 IMPALA 在 DMLab-30(DeepMind Lab 環(huán)境中一組 30 個任務(wù)的集合)和 Atari-57(Arcade Learning Environment 中所有可用的 Atari 游戲)中進行多任務(wù)強化學(xué)習的有效性痕貌。我們的結(jié)果展示了 IMPALA 的性能優(yōu)于之前的智能體风罩,使用的數(shù)據(jù)更少,更重要的是新方法可以在多任務(wù)中展現(xiàn)出積極的遷移性質(zhì)舵稠。

論文三大成果

  • 發(fā)布一個多任務(wù)集合 DMLab-30
  • 推出一個高度可擴展的超升、基于分布式架構(gòu)的智能體架構(gòu) IMPALA
  • 基于該架構(gòu)提出了一種off-policy的新型離策略修正算法 V-trace

DMLab-30中允許研究人員訓(xùn)練單個智能體執(zhí)行多種任務(wù),這涉及了巨大的數(shù)據(jù)吞吐量柱查,為了高效利用每個數(shù)據(jù)點廓俭,開發(fā)了IMPALA來分部署處理數(shù)據(jù)(250K frams/s)

因為IMPALA受A3C啟發(fā)云石,多個actor獲得的參數(shù)作為經(jīng)驗匯總給總的learner唉工,因此actor有時會落后于learner,因此引入V-trace算法來彌補兩者的差異汹忠。

DMLab-30

  • 包含公共動作空間的視覺統(tǒng)一環(huán)境中的多種挑戰(zhàn)性任務(wù)淋硝,共30個空間。
  • 任務(wù)盡可能多樣化:具備不同的目標宽菜,從學(xué)習谣膳、記憶到導(dǎo)航;視覺上從亮度铅乡、現(xiàn)代風格的紋理從綠到淺棕色等继谚;物理空間上從開放的多山地帶到直角迷宮,再到開放的圓形房間阵幸;
  • 需要注意的是花履,這是一個多任務(wù)集合,這個場景和下個場景的任務(wù)目標和獎勵也不同挚赊,從遵循語言命令诡壁、使用鑰匙開門、采蘑菇荠割,到繪畫妹卿、沿著一條復(fù)雜、不可逆的路徑行走蔑鹦。
  • 從動作和觀察空間來看夺克,這些環(huán)境基本上是一樣的,允許單個智能體在該高度變化的任務(wù)集合的每一個環(huán)境中進行訓(xùn)練嚎朽。
  • 本質(zhì)上铺纽,這其實就是讓單個智能體在高度變化的環(huán)境中訓(xùn)練,使它最后可以適應(yīng)每個環(huán)境火鼻。
  • https://github.com/deepmind/lab
image.png

IMPALA

  • 一種新型分布式智能體 IMPALA室囊,利用高效的 TensorFlow 分布式架構(gòu)最大化數(shù)據(jù)吞吐量雕崩。
  • IMPALA 受流行的 A3C 架構(gòu)的啟發(fā),A3C 架構(gòu)使用多個分布式 actor 來學(xué)習智能體的參數(shù)融撞。在此類模型中盼铁,每個 actor 使用策略參數(shù)在環(huán)境中動作。actor 周期性地暫停探索尝偎,和中央?yún)?shù)服務(wù)器共享它們計算出的梯度饶火,用于梯度更新。
image.png
  • IMPALA 的 actor 不用于計算梯度致扯,而是用于收集經(jīng)驗(即觀察結(jié)果)肤寝,然后傳輸至可計算梯度的中央學(xué)習器,生成一個具備完全獨立的 actor 和 learner 的模型抖僵。
  • 也就是說鲤看,在訓(xùn)練之初,actor用策略π更新初始策略μ耍群,并在當前任務(wù)中進行幾輪迭代义桂。迭代完成后,它再把當前的狀態(tài)蹈垢、動作和獎勵 x1, a1, r1, . . . , xn, an, rn慷吊,以及相應(yīng)的策略分布μ(at|xt)、初始LSTM狀態(tài)排列成組曹抬,逐個輸入learner溉瓶。利用這些由多個actor收集的數(shù)據(jù),learner能不斷更新策略π谤民。
  • 為了利用現(xiàn)代計算系統(tǒng)堰酿,IMPALA 可使用單個學(xué)習器或執(zhí)行同步更新的多個學(xué)習器來實現(xiàn)。用這種方式分離學(xué)習和動作可以有效地提高整個系統(tǒng)的吞吐量赖临。
  • actor 不再需要等待學(xué)習步(像 batched A2C 架構(gòu)中那樣)胞锰。這使得我們可以在多個有趣的環(huán)境中訓(xùn)練 IMPALA,無需經(jīng)歷幀渲染時間的變動或耗時的任務(wù)重啟兢榨。


    A2C每次學(xué)習都需要暫停嗅榕,而IMPALA是連續(xù)的

    GPU優(yōu)化:(a)一個正常的LSTM;(b)將batch用于輸入層和輸出層吵聪;(c)將batch融合進整個網(wǎng)絡(luò)
  • 這個簡單的架構(gòu)使得learner可以在多個機器上并行計算(各actor不用排隊)凌那,大大提高了GPU的利用率。但是吟逝,在更新參數(shù)時帽蝶,由于learner的策略π可能比actor的策略μ提前做了幾次SGD,因此兩者間存在策略滯后的問題块攒。

V-trace

  • 決策與學(xué)習的分離會導(dǎo)致 actor 中的策略落后于學(xué)習器励稳。為了彌補這一差異佃乘,DeepMind 引入了一種原則性離策略優(yōu)勢 actor critic 算法——V-trace,它通過 actor 的off-policy彌補了軌跡驹尼。

首先趣避,我們定義:

  • 折扣因子(discount factor)γ ∈ [0, 1);
  • t時獎勵:rt = r(xt, at) 新翎;
  • xt為t時的狀態(tài)裸违;
  • at ~ μ(·|xt) 是遵循某個策略μ生成的動作额嘿。

我們把這個問題看作是馬爾可夫決策(MDP)中的discounted infinite-horizon RL問題限嫌,它的目標是找到一個策略π栓袖,能使未來獎勵的總和,即

最大化亏吝。而off-policy學(xué)習算法的思路是根據(jù)動作策略μ來學(xué)習另一個策略岭埠,如策略π(μ和π可能不同)的價值函數(shù)Vπ,我們也把π稱為目標策略顺呕。

詳細的數(shù)學(xué)計算可以在論文中找到枫攀,這里我們簡要介紹3點創(chuàng)新:

隨著時間s不斷推進括饶,價值參數(shù)θ會隨vs的梯度值不斷更新:
同時株茶,價值函數(shù)ω也會隨策略梯度的變化不斷更新:

為了防止函數(shù)過早收斂,論文模仿A3C图焰,在里面加入了一個和軌跡方向一致的熵:
智能體的參數(shù)就是通過總結(jié)這三個不斷更新獲得的系數(shù)進行調(diào)整的启盛,簡而言之,這是系統(tǒng)計算超參數(shù)的方法

結(jié)論

  • 由于 IMPALA 的優(yōu)化模型技羔,相對于類似智能體而言僵闯,它可以處理一到兩個數(shù)量級的更多經(jīng)驗,讓復(fù)雜環(huán)境中的學(xué)習變?yōu)榭赡堋?/li>
  • DeepMind 比較了 IMPALA 與幾種流行的 actor-critic 方法藤滥,發(fā)現(xiàn)新方法的速度有顯著提高鳖粟。此外,使用 IMPALA 的吞吐量增長與 actor 和 learner 的增加呈線性關(guān)系拙绊,這意味著分布式智能體模型和 V-trace 算法可以處理大規(guī)模實驗向图,甚至上千臺機器都沒有問題。
  • 在 DMLab-30 的測試中标沪,IMPALA 處理數(shù)據(jù)的效率是分布式 A3C 的 10 倍榄攀,最終得分是后者的二倍。另外金句,IMPALA 在多任務(wù)設(shè)置的訓(xùn)練中檩赢,相比單任務(wù)訓(xùn)練還展示了正向遷移的性質(zhì)。
image.png

原文地址:https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末违寞,一起剝皮案震驚了整個濱河市贞瞒,隨后出現(xiàn)的幾起案子偶房,更是在濱河造成了極大的恐慌,老刑警劉巖军浆,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝴悉,死亡現(xiàn)場離奇詭異,居然都是意外死亡瘾敢,警方通過查閱死者的電腦和手機拍冠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來簇抵,“玉大人庆杜,你說我怎么就攤上這事〉冢” “怎么了晃财?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長典蜕。 經(jīng)常有香客問我断盛,道長,這世上最難降的妖魔是什么愉舔? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任钢猛,我火速辦了婚禮,結(jié)果婚禮上轩缤,老公的妹妹穿的比我還像新娘命迈。我一直安慰自己,他們只是感情好火的,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布壶愤。 她就那樣靜靜地躺著,像睡著了一般馏鹤。 火紅的嫁衣襯著肌膚如雪征椒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天湃累,我揣著相機與錄音勃救,去河邊找鬼。 笑死脱茉,一個胖子當著我的面吹牛剪芥,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播琴许,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼税肪,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起益兄,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤锻梳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后净捅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體疑枯,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年蛔六,在試婚紗的時候發(fā)現(xiàn)自己被綠了荆永。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡国章,死狀恐怖具钥,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情液兽,我是刑警寧澤骂删,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站四啰,受9級特大地震影響宁玫,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜柑晒,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一欧瘪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧敦迄,春花似錦恋追、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽嗅绸。三九已至脾猛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鱼鸠,已是汗流浹背猛拴。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蚀狰,地道東北人愉昆。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像麻蹋,于是被迫代替她去往敵國和親跛溉。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354