姓名:吳兆陽(yáng) ?學(xué)號(hào):14020199009
轉(zhuǎn)自雷克世界
嵌牛導(dǎo)讀:我們一直在研究用于機(jī)器人控制的神經(jīng)網(wǎng)絡(luò)的基于學(xué)習(xí)的樣本高效方法。對(duì)于復(fù)雜的恨课、接觸點(diǎn)豐富的模擬機(jī)器人以及實(shí)際應(yīng)用中的機(jī)器人(圖1)惰说,我們的方法能夠?qū)W習(xí)軌跡跟蹤的運(yùn)動(dòng)技能磨德,而這一過(guò)程僅使用收集自機(jī)器人在環(huán)境中的隨機(jī)行為的數(shù)分鐘數(shù)據(jù)。在本文中,我們將對(duì)該方法和結(jié)果進(jìn)行簡(jiǎn)要概述典挑。
嵌牛鼻子:機(jī)器人運(yùn)動(dòng)
嵌牛提問(wèn):機(jī)器人如何實(shí)現(xiàn)自主運(yùn)動(dòng)酥宴?
嵌牛正文:
樣本效率:無(wú)模型的VS基于模型的
從經(jīng)驗(yàn)中學(xué)習(xí)機(jī)器人技能通常屬于強(qiáng)化學(xué)習(xí)的范疇。強(qiáng)化學(xué)習(xí)算法一般可以分為兩類:無(wú)模型您觉,即學(xué)習(xí)策略或值函數(shù)拙寡;以及基于模型的,即學(xué)習(xí)動(dòng)力學(xué)模型琳水。雖然無(wú)模型深度強(qiáng)化學(xué)習(xí)算法能夠?qū)W習(xí)廣泛的機(jī)器人技能肆糕,但它們往往會(huì)受到高昂的樣本復(fù)雜性的限制,通常需要數(shù)百萬(wàn)個(gè)樣本才能獲得良好的性能表現(xiàn)在孝,而且一次只能學(xué)習(xí)一項(xiàng)任務(wù)擎宝。盡管之前的一些研究已經(jīng)將這些無(wú)模型算法應(yīng)用于現(xiàn)實(shí)世界的操作任務(wù)中,但這些算法的高度復(fù)雜性和不靈活性已經(jīng)阻礙了它們?cè)诂F(xiàn)實(shí)世界中用于學(xué)習(xí)運(yùn)動(dòng)技能的應(yīng)用浑玛。
基于模型的強(qiáng)化學(xué)習(xí)算法通常被認(rèn)為是更有效的樣本绍申。然而,為了獲得良好的采樣效率顾彰,這些基于模型的算法通常使用相對(duì)簡(jiǎn)單的函數(shù)逼近器极阅,其不能很好地推廣到復(fù)雜的任務(wù),或者使用高斯過(guò)程這樣的概率動(dòng)力學(xué)模型涨享,其概括性好筋搏,但復(fù)雜和高三維的領(lǐng)域,如摩擦接觸厕隧,會(huì)導(dǎo)致不連續(xù)的動(dòng)力學(xué)系統(tǒng)奔脐。相反,我們使用中等大小的神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器吁讨,可以實(shí)現(xiàn)出色的樣本效率髓迎,同時(shí)仍然具有足夠的表現(xiàn)力,可以用于各種復(fù)雜和高維運(yùn)動(dòng)任務(wù)的推廣和應(yīng)用建丧。
基于模型深度強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)
在我們的研究中排龄,我們的目標(biāo)是將深度神經(jīng)網(wǎng)絡(luò)模型在其他領(lǐng)域中的成功擴(kuò)展到基于模型的強(qiáng)化學(xué)習(xí)中。近年來(lái)翎朱,先前那些將神經(jīng)網(wǎng)絡(luò)與基于模型的強(qiáng)化學(xué)習(xí)相結(jié)合的努力還沒(méi)有實(shí)現(xiàn)能夠與較簡(jiǎn)單的模型(例如高斯過(guò)程)相媲美的結(jié)果橄维。例如,Gu等人觀察到拴曲,即使是線性模型在合成經(jīng)驗(yàn)生成方面也能夠獲得較好的性能表現(xiàn)争舞,而Heess等人則在將涵蓋神經(jīng)網(wǎng)絡(luò)在內(nèi)的模型納入到無(wú)模型學(xué)習(xí)系統(tǒng)中看到了相對(duì)適度的益處。我們的方法依賴于一些關(guān)鍵的決策:首先澈灼,我們?cè)谝粋€(gè)模型預(yù)測(cè)控制框架內(nèi)使用已學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型竞川,其中系統(tǒng)可以迭代地重新規(guī)劃并修正錯(cuò)誤;其次,我們使用相對(duì)較短的范圍預(yù)測(cè)流译,以便我們不必依靠這個(gè)模型對(duì)未來(lái)做出非常準(zhǔn)確的預(yù)測(cè)。這兩個(gè)相對(duì)簡(jiǎn)單的設(shè)計(jì)決策使得我們的方法能夠執(zhí)行各種各樣的運(yùn)動(dòng)任務(wù)者疤,其中福澡,這些運(yùn)動(dòng)任務(wù)之前沒(méi)有使用通用的基于模型的強(qiáng)化學(xué)習(xí)方法進(jìn)行演示,即可以直接在原始狀態(tài)觀察中操作驹马。
我們的基于模型的強(qiáng)化學(xué)習(xí)方法如圖2所示革砸。我們保持一個(gè)迭代增加的軌跡數(shù)據(jù)集,并使用該數(shù)據(jù)集對(duì)動(dòng)態(tài)模型進(jìn)行訓(xùn)練糯累。這個(gè)數(shù)據(jù)集是用隨機(jī)軌跡進(jìn)行初始化的算利。然后,我們通過(guò)在使用數(shù)據(jù)集對(duì)神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)模型進(jìn)行訓(xùn)練泳姐、使用模型預(yù)測(cè)控制器(MPC)和已學(xué)習(xí)的動(dòng)態(tài)模型收集附加的軌跡以聚合到數(shù)據(jù)集上之間交替效拭,從而執(zhí)行強(qiáng)化學(xué)習(xí)。我們?cè)谙旅鎸?duì)這兩個(gè)組成部分進(jìn)行討論胖秒。
圖2.基于模型的強(qiáng)化學(xué)習(xí)算法概述
動(dòng)力學(xué)模型
我們將已學(xué)習(xí)的動(dòng)力學(xué)函數(shù)參數(shù)化為一個(gè)深度神經(jīng)網(wǎng)絡(luò)缎患,可以通過(guò)一些需要學(xué)習(xí)的權(quán)重進(jìn)行參數(shù)化。我們的動(dòng)力學(xué)函數(shù)以當(dāng)前狀態(tài)st和動(dòng)作at作為輸入阎肝,然后輸出預(yù)測(cè)的狀態(tài)差st + 1-st挤渔。動(dòng)力學(xué)模型本身可以在監(jiān)督學(xué)習(xí)環(huán)境中進(jìn)行訓(xùn)練,其中收集的訓(xùn)練數(shù)據(jù)以成對(duì)的輸入(st,at)和相應(yīng)的輸出標(biāo)注(st + 1,st)风题。
需要注意的是判导,我們上面所提到的“狀態(tài)”可以隨著智能體的變化而變化,并且可以包括諸如質(zhì)心位置沛硅、質(zhì)心速度眼刃、關(guān)節(jié)位置以及其他任何我們想選擇的可測(cè)量數(shù)值。
控制器
為了使用一個(gè)已學(xué)習(xí)的動(dòng)力學(xué)模型來(lái)完成任務(wù)摇肌,我們需要定義一個(gè)對(duì)任務(wù)進(jìn)行編碼的獎(jiǎng)勵(lì)函數(shù)鸟整。例如,標(biāo)準(zhǔn)的“x_vel”獎(jiǎng)勵(lì)可以編碼一個(gè)前進(jìn)的任務(wù)朦蕴。對(duì)于軌跡追蹤的任務(wù)篮条,我們制定了一個(gè)獎(jiǎng)勵(lì)函數(shù),能夠激勵(lì)靠近軌跡吩抓,并沿著軌跡前進(jìn)涉茧。
使用已學(xué)習(xí)的動(dòng)力學(xué)模型和任務(wù)獎(jiǎng)勵(lì)函數(shù),我們建立了一個(gè)基于模型的控制器疹娶。在每個(gè)時(shí)間步驟中伴栓,智能體通過(guò)隨機(jī)生成K個(gè)候選動(dòng)作序列,使用已學(xué)習(xí)的動(dòng)力學(xué)模型預(yù)測(cè)那些動(dòng)作序列的結(jié)果,并選擇對(duì)應(yīng)于最高累積獎(jiǎng)勵(lì)的序列(圖3)钳垮,做出到達(dá)未來(lái)所需H步的規(guī)劃惑淳。然后,我們只執(zhí)行動(dòng)作序列中的第一個(gè)動(dòng)作饺窿,繼而在下一個(gè)時(shí)間步驟中重復(fù)規(guī)劃過(guò)程歧焦。這種重新規(guī)劃使得該方法在學(xué)習(xí)動(dòng)力學(xué)模型中能夠?qū)共粶?zhǔn)確性。
圖3.使用已學(xué)習(xí)動(dòng)力學(xué)模型模擬多個(gè)候選動(dòng)作序列的過(guò)程示意圖肚医,預(yù)測(cè)其結(jié)果绢馍,并根據(jù)獎(jiǎng)勵(lì)函數(shù)選擇最佳動(dòng)作序列。
結(jié)果
我們首先在各種MuJoCo智能體上評(píng)估了我們的方法肠套,包括游泳者舰涌、half-cheetah和螞蟻。圖4顯示你稚,使用我們的已學(xué)習(xí)動(dòng)力學(xué)模型和MPC控制器瓷耙,智能體能夠遵循一組稀疏的路標(biāo)所定義的路徑。此外刁赖,我們的方法只用了幾分鐘的隨機(jī)數(shù)據(jù)對(duì)已學(xué)習(xí)的動(dòng)力學(xué)模型進(jìn)行訓(xùn)練哺徊,顯示了它的樣本效率。
請(qǐng)注意乾闰,使用這種方法的話落追,我們只需要對(duì)模型進(jìn)行一次訓(xùn)練,且僅需要改變獎(jiǎng)勵(lì)函數(shù)涯肩,就可以在運(yùn)行時(shí)將模型應(yīng)用于各種不同的期望軌跡轿钠,而不需要單獨(dú)的特定于任務(wù)的訓(xùn)練。
圖4:螞蟻病苗、游泳者和獵豹的移動(dòng)軌跡結(jié)果疗垛。每個(gè)智能體為了執(zhí)行這些不同的軌跡而使用的動(dòng)力學(xué)模型僅經(jīng)過(guò)一次訓(xùn)練,且僅使用隨機(jī)收集的訓(xùn)練數(shù)據(jù)硫朦。
我們方法中的哪些方面對(duì)取得良好的性能表現(xiàn)至關(guān)重要贷腕?我們首先考察了MPC規(guī)劃范圍H的變化。圖5表明咬展,如果范圍太短的話性能會(huì)受到影響泽裳,可能是由于不可恢復(fù)的貪婪行為。對(duì)于half-cheetah而言破婆,如果范圍太長(zhǎng)的話性能也會(huì)受到影響涮总,主要是因?yàn)橐褜W(xué)習(xí)動(dòng)力學(xué)模型中的不準(zhǔn)確性。圖6顯示了一個(gè)用于單一100步預(yù)測(cè)的已學(xué)習(xí)動(dòng)力學(xué)模型祷舀,顯示某些狀態(tài)元素的開(kāi)環(huán)預(yù)測(cè)最終偏離了基本事實(shí)瀑梗。因此烹笔,一個(gè)中等的規(guī)劃范圍最好避免貪婪行為,同時(shí)最小化不準(zhǔn)確模型所帶來(lái)的不利影響抛丽。
我們還改變了用來(lái)訓(xùn)練動(dòng)力學(xué)模型的初始隨機(jī)軌跡的數(shù)量谤职。圖7顯示,雖然較多數(shù)量的初始訓(xùn)練數(shù)據(jù)能夠?qū)е螺^高的初始性能亿鲜,但是數(shù)據(jù)聚合能夠使得即使是低數(shù)據(jù)初始化實(shí)驗(yàn)也能運(yùn)行以至達(dá)到較高的最終性能水平允蜈。這突出顯示了強(qiáng)化學(xué)習(xí)的策略數(shù)據(jù)是如何提高采樣效率的。
圖7:通過(guò)使用不同數(shù)量的初始隨機(jī)數(shù)據(jù)進(jìn)行訓(xùn)練的動(dòng)力學(xué)模型所獲得的任務(wù)性能表現(xiàn)曲線圖狡门。
值得注意的是陷寝,基于模型的控制器的最終性能仍然遠(yuǎn)低于無(wú)模型學(xué)習(xí)器(當(dāng)無(wú)模型學(xué)習(xí)器經(jīng)過(guò)數(shù)千次的經(jīng)驗(yàn)訓(xùn)練時(shí))锅很。這種次優(yōu)的性能表現(xiàn)有時(shí)被稱為“模型偏差(model bias)”其馏,并且是基于模型的強(qiáng)化學(xué)習(xí)中的一個(gè)已知問(wèn)題。為了解決這個(gè)問(wèn)題爆安,我們還提出了一種混合的方法叛复,結(jié)合了基于模型和無(wú)模型的學(xué)習(xí),以消除收斂的漸近偏差(asymptotic bias)扔仓,盡管這是要以附加的經(jīng)驗(yàn)為代價(jià)的褐奥。這種混合的方法,以及其他分析翘簇,論文中皆有詳述撬码。
學(xué)習(xí)在現(xiàn)實(shí)世界中運(yùn)行
圖8:VelociRoACH的長(zhǎng)度為10厘米,重量約為30克版保,每秒可以移動(dòng)27個(gè)身體長(zhǎng)度呜笑,并使用兩個(gè)電機(jī)來(lái)控制所具有的六條腿。
由于我們的基于模型的強(qiáng)化學(xué)習(xí)算法可以使用比無(wú)模型算法更少的經(jīng)驗(yàn)來(lái)學(xué)習(xí)運(yùn)動(dòng)步態(tài)彻犁,因此可以直接在真實(shí)世界中的機(jī)器人平臺(tái)上對(duì)其進(jìn)行評(píng)估叫胁。在其他研究中,我們研究了這種方法是如何完全從現(xiàn)實(shí)世界的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)的汞幢,從而完全從零開(kāi)始獲取一個(gè)millirobots(圖8)的運(yùn)動(dòng)步態(tài)的驼鹅。
對(duì)于許多應(yīng)用來(lái)說(shuō),Millirobots由于其體積小和制造成本低而成為十分具有前途的機(jī)器人平臺(tái)森篷。然而输钩,控制這些millirobots是非常困難的,主要是由于它們的動(dòng)力不足仲智、功率限制和大小等局限性张足。雖然手動(dòng)控制器有時(shí)可以控制這些millirobots,但是它們往往在動(dòng)力學(xué)機(jī)動(dòng)和復(fù)雜的地形上遇到困難坎藐。因此为牍,我們利用上面的基于模型的學(xué)習(xí)技術(shù)來(lái)使VelociRoach millirobot進(jìn)行軌跡追蹤哼绑。圖9顯示,我們的基于模型的控制器在經(jīng)過(guò)17分鐘的隨機(jī)數(shù)據(jù)訓(xùn)練后碉咆,可以精確地遵循高速軌跡抖韩。
圖9:使用我們的基于模型的學(xué)習(xí)方法,VelociRoACH能夠遵循各種期望軌跡疫铜。
為了分析模型的泛化能力茂浮,我們收集了地毯和聚苯乙烯泡沫塑料地形上的數(shù)據(jù),繼而對(duì)該方法進(jìn)行了評(píng)估壳咕,如表1所示席揽。正如預(yù)期的那樣,當(dāng)基于模型的控制器在與訓(xùn)練期間相同的地形上執(zhí)行時(shí)表現(xiàn)得非常好谓厘,表明模型將地形的知識(shí)結(jié)合在內(nèi)幌羞。然而,當(dāng)模型在來(lái)自兩個(gè)地形的數(shù)據(jù)中進(jìn)行訓(xùn)練時(shí)竟稳,性能會(huì)下降属桦,這可能表明,我們需要進(jìn)行更多的研究從而開(kāi)發(fā)出能夠用于學(xué)習(xí)適用于多種任務(wù)環(huán)境的模型的算法他爸。表2顯示聂宾,隨著越來(lái)越多的數(shù)據(jù)被用于訓(xùn)練動(dòng)力學(xué)模型,性能將會(huì)不斷提高诊笤,這是一個(gè)令人鼓舞的跡象系谐,表明我們的方法將會(huì)隨著時(shí)間的推移而不斷改進(jìn)(與手動(dòng)解決方案不同)。
表1:用不同類型的數(shù)據(jù)進(jìn)行訓(xùn)練以及在不同表面上執(zhí)行軌跡追蹤的模型的成本
我們希望這些結(jié)果展示了基于模型的方法在采樣效率機(jī)器人學(xué)習(xí)領(lǐng)域的未來(lái)前景讨跟,并鼓勵(lì)在這一方面進(jìn)行更多的研究纪他。