icra2021 reinforcement learning paper list

reinforcement learning

Autonomous Vehicle Navigation

Deep Reinforcement Learning for Mapless Navigation of a Hybrid Aerial Underwater Vehicle with Medium Transition

自從在 Atari 類游戲中將深度 Q 學習應(yīng)用于連續(xù)動作域以來观腊,用于運動控制的深度強化學習 (Deep-RL) 技術(shù)得到了質(zhì)的增強暑椰。如今,現(xiàn)代 Deep-RL 可以成功地應(yīng)用于解決多種類型車輛的廣泛復(fù)雜決策任務(wù)。基于此背景,在本文中,我們建議使用 Deep-RL 為混合無人機水下航行器 (HUAUV) 執(zhí)行自主無地圖導(dǎo)航,該機器人可以在空氣或水介質(zhì)中運行笼痛。我們開發(fā)了兩種方法,一種是確定性的琅拌,另一種是隨機的缨伊。我們的系統(tǒng)使用車輛的相對定位和簡單的稀疏距離數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)。我們將我們的方法與適用于飛行器無地圖導(dǎo)航的 BUG2 算法的改編版本進行了比較进宝。根據(jù)實驗結(jié)果刻坊,我們可以得出結(jié)論,基于 Deep-RL 的方法可以成功地用于 HUAUV 的無地圖導(dǎo)航和避障党晋。我們的車輛在兩種情況下都完成了導(dǎo)航谭胚,能夠在兩種環(huán)境中實現(xiàn)預(yù)期目標,甚至在避障能力上優(yōu)于基于行為的算法未玻。

ReLMoGen:將運動生成集成到用于移動操作的強化學習中

ReLMoGen: Integrating Motion Generation in Reinforcement Learning for Mobile Manipulation
許多強化學習 (RL) 方法使用聯(lián)合控制信號(位置灾而、速度、扭矩)作為連續(xù)控制任務(wù)的動作空間扳剿。我們建議以運動生成器(運動規(guī)劃器和軌跡執(zhí)行器的組合)的子目標的形式將動作空間提升到更高的水平旁趟。我們認為,通過提升動作空間和利用基于采樣的運動規(guī)劃器庇绽,我們可以有效地使用 RL 來解決在原始動作空間中使用現(xiàn)有 RL 方法無法解決的復(fù)雜锡搜、長期任務(wù)橙困。我們提出了 ReLMoGen——一個框架,它結(jié)合了一個學習策略來預(yù)測子目標和一個運動生成器來計劃和執(zhí)行達到這些子目標所需的運動耕餐。為了驗證我們的方法凡傅,我們將 ReLMoGen 應(yīng)用于兩種類型的任務(wù):1)交互式導(dǎo)航任務(wù),需要與環(huán)境交互才能到達目的地的導(dǎo)航問題蛾方,以及 2) 移動操作任務(wù),需要移動機器人底座的操作任務(wù)上陕。這些問題具有挑戰(zhàn)性桩砰,因為它們通常是長期的,在訓(xùn)練期間難以探索释簿,并且包含導(dǎo)航和交互的交替階段亚隅。我們的方法在逼真的模擬環(huán)境中以一組不同的七個機器人任務(wù)為基準。在所有設(shè)置中庶溶,ReLMoGen 都優(yōu)于最先進的 RL 和分層 RL 基線煮纵。ReLMoGen 在測試時還顯示出不同運動發(fā)生器之間的出色可轉(zhuǎn)移性,表明轉(zhuǎn)移到真實機器人的巨大潛力偏螺。欲了解更多信息行疏,請訪問項目網(wǎng)站:http://svl.stanford.edu.lib.ezproxy.ust.hk/projects/relmogen

Robot Navigation in Constrained Pedestrian Environments Using Reinforcement Learning
流暢地在行人周圍導(dǎo)航是部署在人類環(huán)境(如建筑物和家庭)中的移動機器人的必要能力套像。雖然社會導(dǎo)航的研究主要集中在開放空間中行人數(shù)量的可擴展性上酿联,但典型的室內(nèi)環(huán)境提出了受限空間的額外挑戰(zhàn),例如走廊和門口夺巩,這些空間限制了可操作性并影響了行人互動的模式贞让。我們提出了一種基于強化學習 (RL) 的方法來學習能夠動態(tài)適應(yīng)移動行人的存在的策略,同時在受限環(huán)境中的所需位置之間導(dǎo)航柳譬。策略網(wǎng)絡(luò)接收來自運動規(guī)劃器的指導(dǎo)喳张,該運動規(guī)劃器提供航路點以遵循全局規(guī)劃的軌跡,而 RL 處理本地交互美澳。我們探索了多布局訓(xùn)練的組合原則销部,發(fā)現(xiàn)在一組幾何簡單的布局中訓(xùn)練的策略成功地推廣到更復(fù)雜的看不見的布局,這些布局展示了訓(xùn)練期間可用結(jié)構(gòu)元素的組合制跟。超越類似墻壁世界的領(lǐng)域柴墩,我們展示了將學習策略轉(zhuǎn)移到兩個真實環(huán)境的看不見的 3D 重建。這些結(jié)果支持組合原理在現(xiàn)實世界建筑物中導(dǎo)航的適用性凫岖,并表明多智能體模擬在重建環(huán)境中用于涉及交互的任務(wù)的前景廣闊江咳。https://ai-stanford-edu.lib.ezproxy.ust.hk/~cdarpino/socialnavconstrained/

Localization and Mapping

用于在不確定性下自主探索的圖的零樣本強化學習

Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration under Uncertainty

本文研究了具有3D距離感測的移動機器人在定位不確定性下的自主探索問題。我們提出了一個框架哥放,用于在單個模擬環(huán)境中自學習高性能探索策略歼指,并將其轉(zhuǎn)移到可能是物理或虛擬的其他環(huán)境中爹土。最近在遷移學習方面的工作通過域適應(yīng)和域隨機化實現(xiàn)了令人鼓舞的性能,從而將代理暴露在填補 sim2sim 和 sim2real 方法中固有空白的場景中踩身。然而胀茵,在具有隨機條件的環(huán)境中訓(xùn)練代理來學習其當前狀態(tài)的重要特征是低效的。代理可以使用人類專家提供的領(lǐng)域知識來有效地學習挟阻。我們提出了一種新方法琼娘,該方法將圖神經(jīng)網(wǎng)絡(luò)與深度強化學習結(jié)合使用,能夠?qū)Π祟悓<姨峁┑南嚓P(guān)探索信息的圖進行決策附鸽,以預(yù)測機器人在信念空間中的最佳感知動作脱拼。該策略僅在單一模擬環(huán)境中進行訓(xùn)練,提供實時坷备、可擴展和可轉(zhuǎn)移的決策策略熄浓,從而實現(xiàn)零樣本轉(zhuǎn)移到其他模擬環(huán)境甚至現(xiàn)實世界環(huán)境。

Deep Learning in Robotics and Automation

Deep Reinforcement Learning for Active Target Tracking

我們使用深度強化學習 (RL) 方法解決了主動目標跟蹤省撑,這是自治系統(tǒng)中的基本任務(wù)之一赌蔑。在這個問題中,自主代理的任務(wù)是使用其板載傳感器獲取有關(guān)感興趣目標的信息竟秫。這個問題的經(jīng)典挑戰(zhàn)是系統(tǒng)模型依賴性和長期規(guī)劃范圍內(nèi)計算信息論成本函數(shù)的困難娃惯。RL 為這些挑戰(zhàn)提供了解決方案,因為其有效規(guī)劃范圍的長度不會影響計算復(fù)雜性肥败,并且它消除了算法對系統(tǒng)模型的強烈依賴石景。特別是,我們引入了主動跟蹤目標網(wǎng)絡(luò) (ATTN)拙吉,這是一種統(tǒng)一的深度 RL 策略潮孽,能夠解決主動目標跟蹤的主要子任務(wù)——視線跟蹤、導(dǎo)航和探索筷黔。該策略顯示了使用部分已知的目標模型跟蹤敏捷和異常目標的穩(wěn)健行為往史。此外,相同的策略能夠在障礙環(huán)境中導(dǎo)航以到達遠處目標佛舱,以及在目標位于意外位置時探索環(huán)境椎例。

Regularizing Action Policies for Smooth Control with Reinforcement Learning
使用深度強化學習 (RL) 訓(xùn)練的控制器的實際效用的一個關(guān)鍵問題是 RL 策略學習的動作明顯缺乏平滑性。這種趨勢通常以控制信號振蕩的形式出現(xiàn)请祖,并可能導(dǎo)致控制不良订歪、高功耗和過度的系統(tǒng)磨損。我們引入了 Conditioning for Action Policy Smoothness (CAPS)肆捕,這是一種有效而直觀的動作策略正則化刷晋,它在神經(jīng)網(wǎng)絡(luò)控制器的學習狀態(tài)到動作映射的平滑度方面提供了一致的改進,體現(xiàn)在消除高頻分量在控制信號中。在真實系統(tǒng)上測試眼虱,四旋翼無人機控制器平滑度的改進導(dǎo)致功耗降低了近 80%喻奥,同時持續(xù)訓(xùn)練具有飛行能力的控制器。項目網(wǎng)站:http://ai.bu.edu/caps

Multiple and Distributed Intelligence

學習在障礙中放牧代理:使用深度強化學習訓(xùn)練魯棒的牧羊行為

Learning to Herd Agents Amongst Obstacles: Training Robust Shepherding Behaviors Using Deep Reinforcement Learning

機器人牧羊問題考慮通過稱為牧羊人的外部機器人的運動來控制和導(dǎo)航一組連貫的代理(例如捏悬,一群鳥或一群無人機)撞蚕。基于機器學習的方法已經(jīng)在沒有障礙的環(huán)境中成功地解決了這個問題过牙。另一方面甥厦,基于規(guī)則的方法可以處理更復(fù)雜的場景,其中環(huán)境中布滿了障礙物寇钉,并允許多個牧羊人協(xié)同工作刀疙。然而,由于難以定義一套全面的行為規(guī)則摧莽,這些基于規(guī)則的方法很脆弱庙洼。為了克服這些限制顿痪,我們提出了第一個已知的基于學習的方法镊辕,可以在障礙中聚集代理。通過使用結(jié)合概率路線圖的深度強化學習技術(shù)蚁袭,我們使用嘈雜但受控的環(huán)境和行為參數(shù)訓(xùn)練牧羊模型征懈。我們的實驗結(jié)果表明,經(jīng)過訓(xùn)練的牧羊控制器是魯棒的揩悄,即它對來自群體行為模型或具有少量路徑同倫類的環(huán)境的不確定性不敏感卖哎。因此,與基于規(guī)則的行為方法相比删性,所提出的方法具有更高的成功率亏娜、更短的完成時間和路徑長度。這些優(yōu)勢在更具挑戰(zhàn)性的場景中尤其突出蹬挺,涉及更困難的群體和艱苦的通道维贺。

Multiple and Distributed Systems

一種用于群系統(tǒng)自主控制的自適應(yīng)模糊強化學習合作方法

An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the Autonomous Control of Flock Systems

群體引導(dǎo)問題具有同時解決多個優(yōu)化目標的具有挑戰(zhàn)性的結(jié)構(gòu)。這通常需要不同的控制方法來解決各種目標巴帮,例如引導(dǎo)溯泣、避免碰撞和凝聚力。尤其是制導(dǎo)方案榕茧,長期以來一直受到復(fù)雜的跟蹤誤差動態(tài)的影響垃沦。此外,基于在平衡條件下獲得的線性反饋策略的技術(shù)在應(yīng)用于不確定的動態(tài)環(huán)境時可能無法保持或退化用押。在這種未建模的條件下肢簿,預(yù)調(diào)模糊推理架構(gòu)缺乏魯棒性。這項工作介紹了一種自適應(yīng)分布式技術(shù),用于羊群系統(tǒng)的自主控制译仗。其相對靈活的結(jié)構(gòu)基于同時針對多個目標的在線模糊強化學習方案抬虽;即跟隨領(lǐng)導(dǎo)者,避免碰撞纵菌,并達成群速度共識登渣。除了在面對動態(tài)干擾時具有彈性之外貌矿,該算法不需要超過代理位置作為反饋信號。所提出方法的有效性通過兩個模擬場景進行了驗證,并與文獻中的類似技術(shù)進行了基準測試形真。

Deep Reinforcement Learning of Event-Triggered Communication and Control for Multi-Agent Cooperative Transport
在本文中,我們探索了一種多智能體強化學習方法來解決多智能體協(xié)作運輸?shù)耐ㄐ藕涂刂撇呗缘脑O(shè)計問題振惰。典型的端到端深度神經(jīng)網(wǎng)絡(luò)策略可能不足以覆蓋通信和控制这弧;這些方法不能決定通信的時間,只能用于固定速率的通信忱详。因此围来,我們的框架利用了事件觸發(fā)架構(gòu),即計算通信輸入的反饋控制器和確定何時必須再次更新輸入的觸發(fā)機制匈睁。這種事件觸發(fā)的控制策略使用多智能體深度確定性策略梯度進行了有效優(yōu)化监透。我們證實,我們的方法可以通過數(shù)值模擬平衡傳輸性能和通信節(jié)省航唆。

Decentralized Circle Formation Control for Fish-Like Robots in Real-World Via Reinforcement Learning
在本文中胀蛮,解決了一組涉及未知非線性動力學和擾動的協(xié)作欠驅(qū)動魚狀機器人的圓形成控制問題∨锤疲基于強化學習和認知一致性理論粪狼,我們提出了一種分散式控制器,無需了解類魚機器人的動力學任岸。所提出的控制器可以從模擬轉(zhuǎn)移到現(xiàn)實再榄。它僅在我們建立的模擬環(huán)境中進行訓(xùn)練,訓(xùn)練后的控制器無需任何手動調(diào)整即可部署到真實機器人上享潜。仿真結(jié)果證實困鸥,所提出的無模型魯棒編隊控制方法相對于機器人的組大小是可擴展的,并且優(yōu)于其他代表性的 RL 算法米碰。

Service Robotics

基于可擴展導(dǎo)航網(wǎng)絡(luò)的室內(nèi)機器人探索強化學習

Extendable Navigation Network Based Reinforcement Learning for Indoor Robot Exploration

本文提出了一種基于導(dǎo)航網(wǎng)絡(luò)的深度強化學習框架窝革,用于自主室內(nèi)機器人探索。所提出的方法具有模式認知非近視探索策略吕座,可以更好地反映對結(jié)構(gòu)的普遍偏好虐译。我們提出可擴展導(dǎo)航網(wǎng)絡(luò) (ENN) 將部分觀察到的高維室內(nèi)歐幾里得空間編碼為稀疏圖表示。機器人的運動由輸入為 ENN 的學習型 Q 網(wǎng)絡(luò)生成吴趴。所提出的框架適用于在 GAZEBO 模擬中配備 2D LIDAR 傳感器的機器人漆诽,其中實現(xiàn)了真實建筑物的平面圖。實驗證明了框架在探索時間方面的效率。

Motion Planning

Learning from Simulation, Racing in Reality

我們提出了一種基于強化學習的解決方案厢拭,用于在微型賽車平臺上進行自主比賽兰英。我們表明,使用相對簡單的車輛模型(包括模型隨機化)純粹在模擬中訓(xùn)練的策略可以成功地轉(zhuǎn)移到真實的機器人設(shè)置中供鸠。我們通過使用一種新穎的策略輸出正則化方法和一個提升的動作空間來實現(xiàn)這一點畦贸,該空間可以實現(xiàn)平穩(wěn)的動作,但仍然是激進的賽車駕駛楞捂。我們表明薄坏,無論是在模擬中還是在真實汽車上,這種正則化策略確實優(yōu)于 Soft Actor Critic (SAC) 基線方法寨闹,但它仍然優(yōu)于模型預(yù)測控制器 (MPC) 最先進的方法胶坠。

NavRep: Unsupervised Representations for Reinforcement Learning of Robot Navigation in Dynamic Human Environments
機器人導(dǎo)航是強化學習方法仍然無法與傳統(tǒng)路徑規(guī)劃競爭的任務(wù)。最先進的方法在很小的方面有所不同繁堡,并且并非都提供可重復(fù)的沈善、公開可用的實現(xiàn)。這使得比較方法成為一項挑戰(zhàn)椭蹄。最近的研究表明闻牡,無監(jiān)督學習方法可以令人印象深刻地擴展,并可以用來解決難題塑娇。在這項工作中澈侠,我們設(shè)計了可以使用無監(jiān)督學習來輔助機器人導(dǎo)航強化學習的方法劫侧。我們訓(xùn)練了兩個端到端和 18 個基于無監(jiān)督學習的架構(gòu)埋酬,并在看不見的測試用例中將它們與現(xiàn)有方法進行比較。我們展示了我們在現(xiàn)實生活中的機器人上工作的方法烧栋。我們的結(jié)果表明写妥,無監(jiān)督學習方法與端到端方法具有競爭力。我們還強調(diào)了各種組件的重要性审姓,例如輸入表示珍特、預(yù)測性無監(jiān)督學習和潛在特征。我們公開所有模型魔吐,以及培訓(xùn)和測試環(huán)境和工具 1 . 此版本還包括與 OpenAI-gym 兼容的環(huán)境扎筒,旨在模擬其他論文描述的訓(xùn)練條件,并盡可能保真酬姆。我們希望這有助于將 RL 領(lǐng)域用于機器人導(dǎo)航嗜桌,并允許對最先進的方法進行有意義的比較。

Rehabilitation and Assistive Robotics: Reinforcement Learning

人工引導(dǎo)機器人行為學習:一種 GAN 輔助的基于偏好的強化學習方法

Human-Guided Robot Behavior Learning: A GAN-Assisted Preference-Based Reinforcement Learning Approach

人類演示可以提供可靠的樣本來訓(xùn)練強化學習算法辞色,讓機器人在現(xiàn)實環(huán)境中學習復(fù)雜的行為骨宠。然而,獲得足夠的演示可能是不切實際的,因為人類很難演示許多行為层亿。一種更實用的方法是用人工查詢代替人工演示桦卒,即基于偏好的強化學習。現(xiàn)有算法的一個關(guān)鍵限制是需要大量人工查詢匿又,因為需要大量標記數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)以逼近連續(xù)的高維獎勵函數(shù)方灾。為了減少和最大限度地減少對人工查詢的需求,我們提出了一種新的 GAN 輔助的基于人類偏好的強化學習方法碌更,該方法使用生成對抗網(wǎng)絡(luò) (GAN) 來學習人類偏好迎吵,然后取代人類在分配偏好中的角色。對抗神經(jīng)網(wǎng)絡(luò)很簡單针贬,只有二進制輸出击费,因此需要更少的人工查詢來訓(xùn)練。此外桦他,基于最大熵的強化學習算法旨在將損失調(diào)整為朝向期望區(qū)域或遠離不期望區(qū)域蔫巩。為了展示所提出方法的有效性,我們提出了一些關(guān)于在典型的 MuJoCo 機器人運動環(huán)境中沒有獲得環(huán)境獎勵的復(fù)雜機器人任務(wù)的研究快压。獲得的結(jié)果表明圆仔,我們的方法可以在不犧牲性能的情況下減少約 99.8% 的人力時間。

Protective Policy Transfer
在訓(xùn)練機器人在不可預(yù)測的現(xiàn)實世界環(huán)境中運行時蔫劣,能夠?qū)F(xiàn)有技能轉(zhuǎn)移到新環(huán)境中是一項關(guān)鍵能力坪郭。一個成功的轉(zhuǎn)移算法不僅要盡量減少機器人在新環(huán)境中需要采集的樣本數(shù)量,還要防止機器人在轉(zhuǎn)移過程中損壞自身或周圍環(huán)境脉幢。在這項工作中歪沃,我們引入了一種策略轉(zhuǎn)移算法,用于使機器人運動技能適應(yīng)新場景嫌松,同時最大限度地減少嚴重故障沪曙。我們的算法在訓(xùn)練環(huán)境中訓(xùn)練了兩個控制策略:一個為完成感興趣的任務(wù)而優(yōu)化的任務(wù)策略,以及一個專門用于防止機器人發(fā)生不安全事件(例如萎羔,跌倒在地)的保護策略液走。要決定在執(zhí)行期間使用哪個策略,我們在訓(xùn)練環(huán)境中學習了一個安全估計模型贾陷,該模型估計機器人的連續(xù)安全水平缘眶。當與一組閾值一起使用時,安全估計器成為在保護策略和任務(wù)策略之間切換的分類器髓废。我們評估了我們對四個模擬機器人運動問題的方法巷懈,并表明我們的方法可以在考慮機器人安全性的同時成功轉(zhuǎn)移到明顯不同的環(huán)境。

Natural Walking with Musculoskeletal Models Using Deep Reinforcement Learning
最近通過軌跡優(yōu)化方法或深度強化學習 (DRL) 開發(fā)了詳細的肌肉骨骼模型瓦哎,研究了人類步態(tài)的最優(yōu)性砸喻。軌跡優(yōu)化研究受到軌跡長度的限制柔逼,只能生成開環(huán)解決方案。雖然現(xiàn)有的 DRL 解決方案提供了沒有軌跡長度限制的閉環(huán)控制策略割岛,但它們要么不評估行為的自然性愉适,要么直接施加實驗跟蹤數(shù)據(jù)。在這封信中癣漆,提出了一種基于 DRL 的方法维咸,該方法具有受自然啟發(fā)的課程學習 (CL) 方案和受神經(jīng)力學啟發(fā)的獎勵功能。這種方法在沒有實驗數(shù)據(jù)的幫助下產(chǎn)生接近自然的人類行走惠爽。我們的 CL 方案是通過不斷發(fā)展的獎勵函數(shù)實現(xiàn)的癌蓖,首先針對更簡單的行為,例如站立和邁步婚肆,然后逐漸細化步態(tài)租副。閉環(huán)隨機策略中出現(xiàn)的步態(tài)與人類步態(tài)運動學有很強的相關(guān)性,髖關(guān)節(jié)和膝關(guān)節(jié)的 Pearson 相關(guān)性分別為 0.95 和 0.83较性,并且步態(tài)對稱性高于其他兩種基于 DRL 的沒有 CL 的控制策略用僧。

A Data-Driven Reinforcement Learning Solution Framework for Optimal and Adaptive Personalization of a Hip Exoskeleton
機器人外骨骼是增強人類活動能力的令人興奮的技術(shù)。然而赞咙,設(shè)計這樣一種與人類用戶無縫集成并幫助人類運動的設(shè)備仍然是一項重大挑戰(zhàn)责循。本文旨在開發(fā)一種基于強化學習 (RL) 的新型數(shù)據(jù)驅(qū)動解決方案框架,無需先對人機動力學進行建模攀操,即可提供最佳和自適應(yīng)的個性化扭矩輔助院仿,以減少人類在行走過程中的努力。我們的自動個性化解決方案框架包括具有兩個控制時序參數(shù)(峰值和偏移時序)的輔助扭矩曲線速和、用于學習參數(shù)調(diào)整策略的最小二乘策略迭代 (LSPI) 以及基于轉(zhuǎn)移功比的成本函數(shù)歹垫。所提出的控制器在健康人身上成功驗證,以幫助行走時單側(cè)髖關(guān)節(jié)伸展健芭。結(jié)果表明县钥,優(yōu)化自適應(yīng)RL控制器作為一種新方法秀姐,可用于調(diào)整與人體動作協(xié)調(diào)的髖關(guān)節(jié)外骨骼輔助扭矩曲線慈迈,并降低人體髖關(guān)節(jié)伸肌的激活水平。

Automation

Proactive Action Visual Residual Reinforcement Learning for Contact-Rich Tasks Using a Torque-Controlled Robot
現(xiàn)代制造環(huán)境中常見的接觸豐富的操作任務(wù)省有。然而痒留,對于傳統(tǒng)的控制方法而言,手動設(shè)計機器人控制器被認為是困難的蠢沿,因為控制器需要有效組合各種模式和截然不同的特性伸头。在本文中,我們首先考慮將操作空間視覺和觸覺信息結(jié)合到強化學習(RL)方法中舷蟀,以解決非結(jié)構(gòu)化環(huán)境中的目標不確定性問題恤磷。此外面哼,我們提出了一種新穎的想法,即引入主動行動來解決部分可觀察的馬爾可夫決策過程(POMDP)問題扫步。有了這兩個想法魔策,我們的方法既可以適應(yīng)非結(jié)構(gòu)化環(huán)境中的合理變化,也可以提高策略學習的樣本效率河胎。我們在一項涉及使用扭矩控制機器人插入隨機存取存儲器 (RAM) 的任務(wù)上評估了我們的方法闯袒,并測試了傳統(tǒng)方法中使用的不同基線的成功率。我們證明了我們的方法是穩(wěn)健的并且可以容忍環(huán)境變化游岳。

Automation: Machine Learning

Model-Based Reinforcement Learning with Provable Safety Guarantees Via Control Barrier Functions
安全性是機器人政敢、交通和能源等應(yīng)用中的關(guān)鍵屬性。在強化學習 (RL) 設(shè)置中胚迫,安全性尤其具有挑戰(zhàn)性喷户,其中系統(tǒng)動力學的不確定性可能會在探索過程中導(dǎo)致安全違規(guī)》枚停控制屏障功能 (CBF) 通過限制每個時間步的控制動作來增強安全性摩骨,是一種有前途的安全關(guān)鍵控制方法。該技術(shù)已被應(yīng)用于確保無模型 RL 的安全性朗若,但尚未集成到基于模型的 RL 中恼五。在本文中,我們提出了不確定性容忍控制障礙函數(shù) (UTCBFs)哭懈,這是一種新的 CBF 類灾馒,用于結(jié)合模型不確定性并以期望的概率提供可證明的安全保證。此外遣总,我們引入了一種基于模型的強化學習算法睬罗,通過將 CBF 與基于梯度的策略搜索相結(jié)合來保證安全性。我們的方法通過對推車桿系統(tǒng)和倒立擺系統(tǒng)的數(shù)值研究與最先進的 RL 算法進行比較來驗證旭斥。

Continual Model-Based Reinforcement Learning with Hypernetworks
基于模型的強化學習 (MBRL) 和模型預(yù)測控制 (MPC) 中的有效規(guī)劃依賴于學習動態(tài)模型的準確性容达。在 MBRL 和 MPC 的許多實例中,該模型被假定為靜止的垂券,并定期根據(jù)從環(huán)境交互開始時收集的狀態(tài)轉(zhuǎn)換經(jīng)驗從頭開始重新訓(xùn)練花盐。這意味著訓(xùn)練動態(tài)模型所需的時間 - 以及計劃執(zhí)行之間所需的暫停 - 隨著收集到的經(jīng)驗的大小線性增長。我們認為這對于終身機器人學習來說太慢了菇爪,并提出了 HyperCRL算芯,一種使用任務(wù)條件超網(wǎng)絡(luò)持續(xù)學習一系列任務(wù)中遇到的動態(tài)的方法。我們的方法具有三個主要屬性:首先凳宙,它包括不重新訪問來自先前任務(wù)的訓(xùn)練數(shù)據(jù)的動態(tài)學習會話熙揍,因此它只需要存儲狀態(tài)轉(zhuǎn)換經(jīng)驗的最新固定大小部分;其次氏涩,它使用固定容量的超網(wǎng)絡(luò)來表示非平穩(wěn)和任務(wù)感知的動態(tài)届囚;第三有梆,它優(yōu)于現(xiàn)有的依賴固定容量網(wǎng)絡(luò)的持續(xù)學習替代方案,并且與記住不斷增加的過去經(jīng)驗核心集的基線相比具有競爭力意系。我們表明淳梦,HyperCRL 在機器人運動和操作場景中的持續(xù)基于模型的強化學習中是有效的,例如涉及推和開門的任務(wù)昔字。我們帶有視頻的項目網(wǎng)站位于此鏈接 http://rvl.cs.toronto.edu/blog/2020/hypercrl/

Reinforcement Learning Based Temporal Logic Control with Maximum Probabilistic Satisfaction
本文提出了一種無模型強化學習 (RL) 算法爆袍,用于合成一種控制策略,該控制策略最大化復(fù)雜任務(wù)的滿足概率作郭,由線性時序邏輯 (LTL) 規(guī)范表示陨囊。由于考慮環(huán)境和運動的不確定性,我們將機器人運動建模為具有未知轉(zhuǎn)移概率和概率標記函數(shù)的概率標記馬爾可夫決策過程(PL-MDP)夹攒。LTL 任務(wù)規(guī)范轉(zhuǎn)換為具有多個接受集的極限確定性廣義 Büchi 自動機 (LDGBA)蜘醋,以在學習期間保持密集獎勵。應(yīng)用LDGBA的新穎之處在于通過設(shè)計一個同步跟蹤前沿函數(shù)來構(gòu)建一個嵌入式LDGBA(E-LDGBA)咏尝,可以在重復(fù)訪問模式的每一輪記錄LDGBA的非訪問接受集压语,克服了直接應(yīng)用常規(guī)LDGBA的困難。通過適當?shù)南嚓P(guān)獎勵和折扣函數(shù)编检,嚴格的分析表明胎食,任何優(yōu)化基于 RL 方法的預(yù)期折扣回報的方法都可以保證找到最大化 LTL 規(guī)范的滿足概率的最優(yōu)策略。本文開發(fā)了一種基于 RL 的無模型運動規(guī)劃策略來生成最優(yōu)策略允懂。通過仿真和實驗結(jié)果證明了基于 RL 的控制綜合的有效性厕怜。

Autonomous Navigation

Decision Making for Autonomous Driving Via Augmented Adversarial Inverse Reinforcement Learning
在復(fù)雜的駕駛環(huán)境中做出決策對于自主代理來說是一項具有挑戰(zhàn)性的任務(wù)。模仿學習方法具有實現(xiàn)這一目標的巨大潛力蕾总。對抗逆強化學習 (AIRL) 是最先進的模仿學習方法之一粥航,它可以同時學習行為策略和獎勵函數(shù),但它僅在不引入交互的簡單和靜態(tài)環(huán)境中得到證明生百。在本文中递雀,我們通過在學習框架中增加語義獎勵來改進和穩(wěn)定 AIRL 的性能。此外蚀浆,我們在高度交互的自動駕駛環(huán)境中使增強的 AIRL 適應(yīng)更實用和更具挑戰(zhàn)性的決策任務(wù)缀程。所提出的方法與四個基線進行比較,并通過四個性能指標進行評估蜡坊。

Biomedical Robotics

Reinforcement Learning Control of a Novel Magnetic Actuated Flexible-Joint Robotic Camera System for Single Incision Laparoscopic Surgery
本文介紹了一種用于單切口腹腔鏡手術(shù)的具有四個自由度 (4-DOF) 的新型磁驅(qū)動柔性關(guān)節(jié)機器人手術(shù) (MAFRS) 攝像機系統(tǒng)的控制杠输。基于運動解耦的思想秕衙,我們設(shè)計了一種新穎的MAFRS系統(tǒng),該系統(tǒng)由一個外部驅(qū)動裝置和一個具有空心柔性關(guān)節(jié)的無電機可插入無線機器人裝置組成僵刮。由于MAFRS系統(tǒng)在實際應(yīng)用過程中存在腹壁阻塞和腹壁厚度可變性的問題据忘,以及多個永磁體和導(dǎo)磁介質(zhì)的存在鹦牛,無需機載的可插入設(shè)備的高精度位置和姿態(tài)控制電機一直是一個挑戰(zhàn)。我們使用外部驅(qū)動裝置產(chǎn)生磁場來控制內(nèi)部機器人裝置的位置和姿態(tài)勇吊。針對新型MAFRS相機系統(tǒng)的自動精確傾斜運動控制曼追,我們開發(fā)了一種使用深度確定性策略梯度(DDPG)算法的閉環(huán)控制方案。參考人體肌肉的阻尼特性汉规,提出了一種虛擬肌肉方法來消除MAFRS相機在特定角度的抖動問題礼殊。實驗研究表明,內(nèi)部機器人裝置可以在不同腹壁厚度下得到有效控制针史。俯仰運動控制精度在0.5°以內(nèi)晶伦,具有良好的適應(yīng)性和抗干擾性能。

Continuum Robotics

Deep Reinforcement Learning for Concentric Tube Robot Control with a Goal-Based Curriculum
同心管機器人 (CTR) 是一種連續(xù)體機器人啄枕,是由超彈性鎳鈦合金組成的同心婚陪、預(yù)彎曲管的集合。CTR 會因相鄰管之間的相互作用而彎曲和扭曲频祝,從而導(dǎo)致運動學泌参,因此對末端執(zhí)行器的控制非常具有挑戰(zhàn)性。在本文中常空,我們使用深度強化學習 (DRL) 方法和基于目標的課程獎勵策略沽一,為笛卡爾空間中的 CTR 末端執(zhí)行器開發(fā)了一種控制方案,沒有先前的運動學模型漓糙。我們通過使用常數(shù)锯玛、線性和指數(shù)衰減函數(shù)進行訓(xùn)練來改變目標容差,從而探索課程的使用兼蜈。此外攘残,還探索了相對和絕對聯(lián)合表示作為提高訓(xùn)練收斂性的一種方式。對課程和聯(lián)合表示的組合進行定量比較为狸,并使用指數(shù)衰減相對方法在噪聲誘導(dǎo)的模擬環(huán)境中訓(xùn)練穩(wěn)健的策略歼郭。與以前的 DRL 方法相比,我們的新方法減少了訓(xùn)練時間并采用了更復(fù)雜的模擬環(huán)境辐棒。我們報告了 1.29 毫米的平均笛卡爾誤差和 0.93 的相對衰減課程的成功率女淑。在路徑跟蹤中,我們報告了噪聲引起的路徑跟蹤任務(wù)中 1.37 毫米的平均誤差陷虎。盡管在模擬中腌巾,這些結(jié)果表明在連續(xù)機器人和 CTR 的無模型控制中使用 DRL 的前景。

Field Robotics: Machine Learning

Reaching Pruning Locations in a Vine Using a Deep Reinforcement Learning Policy
我們概述了一個基于神經(jīng)網(wǎng)絡(luò)的管道辐怕,用于感知逼蒙、控制和規(guī)劃 7 自由度機器人,以完成涉及伸入休眠葡萄樹冠的任務(wù)寄疏。所提出的系統(tǒng)由一個 6 DoF 工業(yè)機器人手臂和一個可以在整個葡萄藤上驅(qū)動的線性滑塊組成是牢。我們的方法使用卷積神經(jīng)網(wǎng)絡(luò)來檢測休眠葡萄藤中的芽僵井,并使用基于強化學習的控制策略來達到修剪任務(wù)所需的切割點位置。在此框架內(nèi)驳棱,開發(fā)并比較了三種方法以到達所需位置:基于學習的策略方法 (RL)批什、使用學習策略和逆運動學求解器 (RL+IK) 的混合方法,最后是經(jīng)典方法常用于機器人領(lǐng)域社搅。我們首先在類似于實驗室條件的模擬環(huán)境中測試并驗證了所提出的學習方法的適用性驻债。對于代理在學習時觀察到的藤蔓,RL 和 RL+IK 方法的到達準確率分別高達 61.90% 和 85.71%形葬。在新葡萄藤上進行測試時合呐,RL 和 RL+IK 的準確率分別高達 66.66% 和 76.19%。然后將相同的方法以端到端程序部署在真實系統(tǒng)上:使用視覺系統(tǒng)自主掃描葡萄藤荷并,創(chuàng)建模型合砂,最后使用學習策略到達切割點。在這些測試中獲得的到達準確率為 73.08%源织。

Field Robotics: Mobile Robots

Online Velocity Fluctuation of Off-Road Wheeled Mobile Robots: A Reinforcement Learning Approach
在輪式移動機器人在抓地力較差的情況下進行越野路徑跟蹤期間翩伪,應(yīng)限制縱向速度以在有限的跟蹤誤差下保持安全導(dǎo)航,同時要足夠高以最小化行駛時間谈息。因此缘屹,本文提出了一種在線速度波動的新方法,能夠?qū)M向誤差限制在給定閾值以下侠仇,同時最大化縱向速度轻姿。這是使用經(jīng)過強化學習方法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來完成的。這種速度調(diào)制與現(xiàn)有的基于模型的預(yù)測轉(zhuǎn)向控制并排完成逻炊,使用狀態(tài)估計器和動態(tài)觀察器互亮。模擬和實驗結(jié)果表明跟蹤誤差減小。

Field Robots

A General Approach for the Automation of Hydraulic Excavator Arms Using Reinforcement Learning
本文提出了一種通用方法來推導(dǎo)高度非線性液壓挖掘機臂的末端執(zhí)行器軌跡跟蹤控制器余素。我們不需要系統(tǒng)的分析模型豹休,而是使用基于機器運行期間收集的測量值訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型。數(shù)據(jù)驅(qū)動模型有效地表示了執(zhí)行器動力學桨吊,包括氣缸到關(guān)節(jié)空間的轉(zhuǎn)換威根。只需要各個關(guān)節(jié)之間的距離,就可以設(shè)置一個模擬來使用強化學習 (RL) 訓(xùn)練控制策略视乐。該策略輸出可直接應(yīng)用于機器的試驗階段控制命令洛搀,無需進一步微調(diào)。建議的方法在 Menzi Muck M545 上實施佑淀,12 噸 液壓挖掘機留美,并在不同的任務(wù)空間軌跡跟蹤場景中進行了測試,有和沒有土壤相互作用。與需要專家工程師費力的手動調(diào)整的商業(yè)分級控制器相比独榴,學習控制器顯示出更高的跟蹤精度僧叉,表明所獲得的性能足以在建筑工地的實際應(yīng)用中使用奕枝,并且所提出的方法為未來開辟了一條新途徑機器自動化棺榔。

Hierarchical Motion Planning

A Safe Hierarchical Planning Framework for Complex Driving Scenarios Based on Reinforcement Learning
自動駕駛汽車需要處理各種交通狀況并做出安全有效的決策和機動。然而隘道,一方面症歇,單個基于優(yōu)化/采樣的運動規(guī)劃器無法有效地實時生成安全軌跡,特別是當附近有許多交互式車輛時谭梗。另一方面忘晤,端到端的學習方法不能保證結(jié)果的安全性。為了應(yīng)對這一挑戰(zhàn)激捏,我們提出了一個分層行為規(guī)劃框架设塔,其中包含一組低級安全控制器和一個高級強化學習算法(H-CtRL)作為低級控制器的協(xié)調(diào)器。低級優(yōu)化/基于采樣的控制器保證了安全性远舅,而高級強化學習算法使 H-CtRL 成為自適應(yīng)且高效的行為規(guī)劃器闰蛔。為了訓(xùn)練和測試我們提出的算法,我們構(gòu)建了一個模擬器图柏,可以使用真實世界的數(shù)據(jù)集重現(xiàn)交通場景序六。所提出的 HCtRL 被證明在各種現(xiàn)實模擬場景中都是有效的,在安全性和效率方面均具有令人滿意的性能蚤吹。

Behavior Planning at Urban Intersections through Hierarchical Reinforcement Learning
對于自動駕駛汽車例诀,有效的行為規(guī)劃對于確保自我汽車的安全至關(guān)重要。在許多城市場景中裁着,很難創(chuàng)建足夠通用的啟發(fā)式規(guī)則繁涂,尤其是對于一些新人類駕駛員難以應(yīng)對的具有挑戰(zhàn)性的場景。在這項工作中二驰,我們提出了一種基于強化學習 (RL) 的行為規(guī)劃結(jié)構(gòu)扔罪,該結(jié)構(gòu)能夠在模擬城市環(huán)境中執(zhí)行具有層次結(jié)構(gòu)的自主車輛行為規(guī)劃。層次結(jié)構(gòu)[1]的應(yīng)用可以滿足行為規(guī)劃系統(tǒng)的各個層次诸蚕。我們的算法在選擇性決策方面比基于啟發(fā)式規(guī)則的方法表現(xiàn)得更好步势,例如何時在從相反方向接近的車輛之間左轉(zhuǎn),或者在接近交叉路口時由于車道阻塞或自我汽車前方的延遲而可能改變車道背犯。這種行為很難評估為正確或不正確坏瘩,但一些激進的專家人類駕駛員有效且快速地處理這種情況。另一方面漠魏,與傳統(tǒng)的強化學習方法相比倔矾,由于在訓(xùn)練過程中使用了混合獎勵機制和啟發(fā)式探索,我們的算法的樣本效率更高。結(jié)果還表明哪自,所提出的方法比傳統(tǒng)的 RL 方法更快地收斂到最優(yōu)策略丰包。

Human-In-The-Loop Control

End-To-End Grasping Policies for Human-In-The-Loop Robots Via Deep Reinforcement Learning
最先進的人在環(huán)機器人抓取受到肌電圖 (EMG) 推理魯棒性問題的嚴重影響。作為一種變通方法壤巷,研究人員一直在研究將 EMG 與其他信號集成邑彪,通常是以一種特別的方式。在本文中胧华,我們提出了一種端到端訓(xùn)練策略的方法寄症,用于人類在環(huán)機器人抓取真實到達軌跡。為此矩动,我們在 DEXTRON (DEXTerity enviRONment) 中使用強化學習 (RL) 和模仿學習 (IL)有巧,這是一種隨機模擬環(huán)境,具有使用蒙特卡洛 (MC) 模擬方法增強和選擇的真實人體軌跡悲没。我們還提供了一個成功模型篮迎,該模型一旦在專家策略數(shù)據(jù)和 RL 策略推出轉(zhuǎn)換上進行了訓(xùn)練,就可以提供深度策略如何工作以及何時可能會失敗的透明度示姿。

Human-Robot Interaction: Robot Navigation

Mesh Based Analysis of Low Fractal Dimension Reinforcement Learning Policies
在以前的工作中甜橱,使用我們稱為網(wǎng)格化的過程,各種連續(xù)和混合系統(tǒng)的可達狀態(tài)空間被近似為一組離散的狀態(tài)峻凫,然后可以合成為馬爾可夫鏈渗鬼。這種方法的應(yīng)用之一是分析通過強化學習獲得的運動策略,朝著對所得系統(tǒng)的穩(wěn)定性特性做出經(jīng)驗保證邁出一步荧琼。在另一項研究中譬胎,我們?yōu)椴呗陨蠌娀瘜W習算法引入了一個修改后的獎勵函數(shù),該算法利用了推出軌跡的“分形維度”命锄。這種獎勵被證明是為了鼓勵誘導(dǎo)個體軌跡的策略堰乔,這些軌跡可以更緊湊地表示為離散網(wǎng)格。在這項工作中脐恩,我們通過構(gòu)建系統(tǒng)的可達狀態(tài)空間的網(wǎng)格來結(jié)合這兩個研究線程镐侯,該系統(tǒng)受到干擾并由通過修改后的獎勵獲得的策略控制。我們的分析表明驶冒,修改后的策略確實會產(chǎn)生更小的可達網(wǎng)格苟翻。這表明用分形維度獎勵訓(xùn)練的代理將其具有更緊湊狀態(tài)空間的理想品質(zhì)轉(zhuǎn)移到具有外部干擾的環(huán)境中。結(jié)果還表明骗污,以前使用基于網(wǎng)格的工具來分析 RL 策略的工作可以擴展到更高維系統(tǒng)或更高分辨率的網(wǎng)格崇猫,而不是其他方式。

Decentralized Structural-RNN for Robot Crowd Navigation with Deep Reinforcement Learning
在人群中安全高效地導(dǎo)航是移動機器人的一項基本能力需忿。先前關(guān)于機器人人群導(dǎo)航的工作假設(shè)所有代理的動態(tài)都是已知的并且定義明確的诅炉。此外蜡歹,先前方法的性能在部分可觀察的環(huán)境和人群密集的環(huán)境中會惡化。為了解決這些問題涕烧,我們提出了去中心化結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(DS-RNN)月而,這是一種新穎的網(wǎng)絡(luò),可以解釋人群導(dǎo)航中機器人決策的空間和時間關(guān)系议纯。我們在沒有任何專家監(jiān)督的情況下使用無模型深度強化學習來訓(xùn)練我們的網(wǎng)絡(luò)父款。我們證明我們的模型在具有挑戰(zhàn)性的人群導(dǎo)航場景中優(yōu)于以前的方法。我們成功地將在模擬器中學習到的策略轉(zhuǎn)移到了真實世界的 TurtleBot 2i痹扇。

Humanoid and Bipedal Locomotion

Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots
為雙足機器人開發(fā)強大的步行控制器是一項具有挑戰(zhàn)性的工作铛漓。傳統(tǒng)的基于模型的運動控制器需要簡化假設(shè)和仔細建模溯香;任何小的錯誤都可能導(dǎo)致不穩(wěn)定的控制鲫构。為了解決雙足運動的這些挑戰(zhàn),我們提出了一個無模型的強化學習框架玫坛,用于在模擬中訓(xùn)練穩(wěn)健的運動策略结笨,然后可以將其轉(zhuǎn)移到真正的雙足 Cassie 機器人上。為了促進從模擬到真實的遷移湿镀,域隨機化用于鼓勵策略學習在系統(tǒng)動態(tài)變化中具有魯棒性的行為炕吸。學習到的策略使 Cassie 能夠執(zhí)行一組多樣化和動態(tài)的行為,同時也比傳統(tǒng)控制器和先前使用殘差控制的基于學習的方法更穩(wěn)健勉痴。我們在多種步行行為上證明了這一點赫模,例如跟蹤目標步行速度、步行高度和轉(zhuǎn)向偏航蒸矛。

Humanoids and Animaloids

SimGAN: Hybrid Simulator Identification for Domain Adaptation Via Adversarial Reinforcement Learning
隨著基于學習的方法朝著自動化機器人控制器設(shè)計的方向發(fā)展瀑罗,將學習到的策略轉(zhuǎn)移到具有不同動態(tài)的新領(lǐng)域(例如,模擬到真實的轉(zhuǎn)移)仍然需要手動操作雏掠。本文介紹了 SimGAN斩祭,這是一個解決域適應(yīng)問題的框架,它通過識別混合物理模擬器以將模擬軌跡與來自目標域的軌跡相匹配乡话,使用學習的判別損失來解決與手動損失設(shè)計相關(guān)的限制摧玫。我們的混合模擬器結(jié)合了神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)物理模擬來平衡表達性和通用性,并減少了對 System ID 中精心選擇的參數(shù)集的需求绑青。一旦通過對抗性強化學習識別出混合模擬器诬像,它就可以用于細化目標域的策略,無需交錯數(shù)據(jù)收集和策略細化闸婴。我們表明坏挠,我們的方法在用于域適應(yīng)的六個機器人運動任務(wù)上優(yōu)于多個強基線。

DeepWalk: Omnidirectional Bipedal Gait by Deep Reinforcement Learning
雙足行走是機器人技術(shù)中最困難但最令人興奮的挑戰(zhàn)之一掠拳。這些困難源于高維動力學癞揉、傳感和驅(qū)動限制以及實時和計算約束的復(fù)雜性。深度強化學習 (DRL) 有望通過以最少的工藝充分利用機器人動力學來解決這些問題。在本文中喊熟,我們提出了一種新的 DRL 方法柏肪,使代理能夠?qū)W習人形(雙足)機器人的全向運動。值得注意的是芥牌,運動行為是由單一控制策略(單一神經(jīng)網(wǎng)絡(luò))完成的烦味。我們通過引入一種新的課程學習方法來實現(xiàn)這一點,該方法通過調(diào)度目標速度逐漸增加任務(wù)難度壁拉。此外谬俄,我們的方法不需要參考運動,這有助于將其應(yīng)用于具有不同運動學的機器人弃理,并降低整體復(fù)雜性溃论。最后,提出了不同的模擬到真實轉(zhuǎn)移策略痘昌,使我們能夠?qū)W習到的策略轉(zhuǎn)移到真正的人形機器人上钥勋。

Learning and Optimization

Evolvable Motion-Planning Method Using Deep Reinforcement Learning
提出并評估了一種能夠適應(yīng)周圍環(huán)境變化的運動規(guī)劃方法。由于勞動力短缺辆苔,工廠和配送倉庫的工作自動化正在取得進展算灸。然而,在配送倉庫中使用機器人進行運輸操作面臨一個問題驻啤。也就是說菲驴,用于設(shè)置機器人的任務(wù),例如調(diào)整加速度以穩(wěn)定運輸操作骑冗,是耗時的赊瞬。為了解決這個問題,我們開發(fā)了一種“可進化的機器人運動規(guī)劃方法”沐旨。該方法的目的是通過讓機器人根據(jù)要運輸?shù)奈矬w的重量和重心自動學習優(yōu)化的加速度來降低準備成本森逮。實驗證明,所提出的方法可以從傳感器信息等時間序列數(shù)據(jù)中學習優(yōu)化的加速度控制磁携。該方法在模擬器環(huán)境中進行了評估褒侧,評估結(jié)果表明,與傳統(tǒng)的手動調(diào)整方法相比谊迄,學習模型減少了由于機器人運動加速引起的慣性力闷供,并將運輸時間縮短了 35%。該方法還在真實機器環(huán)境中進行了評估统诺,評估結(jié)果表明該方法可以應(yīng)用于真實機器人歪脏。

Learning for Robotics

Differentiable Physics Models for Real-World Offline Model-Based Reinforcement Learning
基于模型的強化學習 (MBRL) 的一個限制是利用學習模型中的錯誤。黑盒模型可以以高保真度擬合復(fù)雜的動態(tài)粮呢,但它們的行為在數(shù)據(jù)分布之外是未定義的婿失〕В基于物理的模型由于其信息結(jié)構(gòu)的普遍有效性而更擅長外推,但由于存在未建模的現(xiàn)象豪硅,因此在現(xiàn)實世界中的擬合不足哩照。在這項工作中,我們通過實驗證明懒浮,對于基于離線模型的強化學習設(shè)置飘弧,如果機械結(jié)構(gòu)已知,則基于物理的模型與高容量函數(shù)逼近器相比可能是有益的砚著〈瘟妫基于物理的模型可以學習使用離線 MBRL 僅使用 4 分鐘的采樣數(shù)據(jù)在物理機械手上執(zhí)行杯中球 (BiC) 任務(wù)。我們發(fā)現(xiàn)黑盒模型始終為 BiC 產(chǎn)生不可行的策略稽穆,因為所有預(yù)測的軌跡都偏離到物理上不可能的狀態(tài)冠王,盡管可以訪問比基于物理的模型更多的數(shù)據(jù)。此外秧骑,我們將物理參數(shù)識別的方法從建模完整的多體系統(tǒng)推廣到使用端到端自動微分的非完整動力學系統(tǒng)版确。

Decentralized Multi-Agent Pursuit Using Deep Reinforcement Learning
追逃是用一個或多個追擊者捕獲移動目標的問題。我們使用深度強化學習來追求具有多個受單輪運動學約束的同質(zhì)代理的全方位目標乎折。我們使用共享經(jīng)驗為給定數(shù)量的追隨者訓(xùn)練策略,由每個代理在運行時獨立執(zhí)行侵歇。培訓(xùn)使用課程學習骂澄、局部代表相鄰代理的廣角排序,以及鼓勵良好形成并結(jié)合個人和團體獎勵的獎勵結(jié)構(gòu)惕虑。一個反應(yīng)性逃避者和多達 8 個追趕者的模擬實驗表明坟冲,我們基于學習的方法優(yōu)于最近的強化學習技術(shù)以及經(jīng)典算法的非完整適應(yīng)。

Sample-Efficient Reinforcement Learning in Robotic Table Tennis
強化學習 (RL) 最近在各種計算機游戲和模擬中取得了一些令人印象深刻的成功溃蔫。大多數(shù)這些成功都是基于擁有大量可供代理學習的情節(jié)健提。然而,在典型的機器人應(yīng)用中伟叛,可行的嘗試次數(shù)非常有限私痹。在本文中,我們提出了一種應(yīng)用于乒乓球機器人示例的高效樣本強化學習算法统刮。在乒乓球比賽中紊遵,每一次擊球都是不同的,有不同的位置侥蒙、速度和旋轉(zhuǎn)暗膜。因此,必須根據(jù)高維連續(xù)狀態(tài)空間找到準確的回報鞭衩。為了使在少數(shù)試驗中學習成為可能学搜,該方法被嵌入到我們的機器人系統(tǒng)中娃善。這樣我們就可以使用一步到位的環(huán)境了。狀態(tài)空間取決于擊球時的球(位置瑞佩、速度会放、旋轉(zhuǎn)),動作是球拍狀態(tài)(方向钉凌、速度)在擊球咧最。為加速學習開發(fā)了一種基于actor-critic 的確定性策略梯度算法。在許多具有挑戰(zhàn)性的場景中御雕,我們的方法在模擬和真實機器人上都具有競爭力矢沿。在 200 次以下的訓(xùn)練中,無需預(yù)訓(xùn)練即可獲得準確的結(jié)果酸纲。展示我們實驗的視頻可在 https://youtu.be/uRAtdoL6Wpw 獲得捣鲸。

Super-Human Performance in Gran Turismo Sport Using Deep Reinforcement Learning
自動駕駛賽車是機器人技術(shù)的一項重大挑戰(zhàn)。它為經(jīng)典方法提出了基本問題闽坡,例如在不確定的動態(tài)下規(guī)劃最短時間軌跡并將汽車控制在其操縱極限栽惶。此外,最小化單圈時間的要求疾嗅,這是一個稀疏的目標外厂,以及從人類專家那里收集訓(xùn)練數(shù)據(jù)的困難,也阻礙了研究人員直接應(yīng)用基于學習的方法來解決問題代承。在目前的工作中汁蝶,我們通過利用高保真物理汽車模擬、課程進度代理獎勵和深度強化學習论悴,提出了一種基于學習的自動賽車系統(tǒng)掖棉。我們在 Gran Turismo Sport 中部署我們的系統(tǒng),這是一款世界領(lǐng)先的汽車模擬器膀估,以其對不同賽車和賽道的逼真物理模擬而聞名幔亥,這甚至被用來招募人類賽車手。我們訓(xùn)練有素的策略實現(xiàn)了超越內(nèi)置 AI 迄今為止所取得的自主賽車性能察纯,同時帕棉,在超過 50,000 名人類玩家的數(shù)據(jù)集中,其表現(xiàn)優(yōu)于最快的車手捐寥。

Learning in Control

Sample Efficient Reinforcement Learning Via Model-Ensemble Exploration and Exploitation
基于模型的深度強化學習在各種需要高樣本效率的領(lǐng)域取得了成功笤昨,例如圍棋和機器人。然而握恳,仍然存在一些問題瞒窒,例如規(guī)劃有效的探索以學習更準確的動態(tài)模型、評估學習模型的不確定性以及更合理地利用模型乡洼。為了緩解這些問題崇裁,我們提出了 MEEE匕坯,這是一種由樂觀探索和加權(quán)利用組成的模型集成方法。在探索過程中拔稳,與先前的方法直接選擇最大化預(yù)期累積回報的最佳行動不同葛峻,我們的代理首先生成一組行動候選,然后尋找同時考慮預(yù)期回報和未來觀察新穎性的最佳行動巴比。在開發(fā)過程中术奖,根據(jù)模型不確定性分別為想象的轉(zhuǎn)換元組分配不同的折扣權(quán)重,這將防止模型預(yù)測誤差在代理訓(xùn)練中傳播轻绞。對幾個具有挑戰(zhàn)性的連續(xù)控制基準任務(wù)的實驗表明采记,我們的方法優(yōu)于其他無模型和基于模型的最先進方法,尤其是在樣本復(fù)雜性方面政勃。

Dreaming: Model-Based Reinforcement Learning by Latent Imagination without Reconstruction
在本文中唧龄,我們提出了 Dreamer 的無解碼器擴展叭莫,這是一種領(lǐng)先的基于模型的像素強化學習 (MBRL) 方法玻蝌。Dreamer 是一種用于機器人學習的樣本且具有成本效益的解決方案,因為它用于訓(xùn)練基于變分自動編碼器的潛在狀態(tài)空間模型嫡纠,并通過潛在軌跡想象進行策略優(yōu)化懒叛。然而丸冕,這種基于自動編碼的方法通常會導(dǎo)致對象消失,其中自動編碼器無法感知解決控制任務(wù)的關(guān)鍵對象芍瑞,從而顯著限制了 Dreamer 的潛力晨仑。這項工作旨在通過去除解碼器來緩解這個 Dreamer 的瓶頸并提高其性能。為此拆檬,我們首先從 Dreamer 的證據(jù)下限推導(dǎo)出對比學習的無可能性和 InfoMax 目標。第二妥凳,我們將兩個組件竟贯,(i)獨立線性動力學和(ii)隨機作物數(shù)據(jù)增強,加入到學習方案中逝钥,以提高訓(xùn)練性能屑那。與 Dreamer 和其他最近的無模型強化學習方法相比,我們新設(shè)計的帶有 InfoMax 且不帶生成解碼器(Dreaming)的 Dreamer 在 5 個困難的模擬機器人任務(wù)中取得了最好的成績艘款,其中 Dreamer 遭受了對象消失的困擾持际。

Learning in Robotics and Automation

Multi-Modal Mutual Information (MuMMI) Training for Robust Self-Supervised Deep Reinforcement Learning
這項工作的重點是使用多個可能不可靠的傳感器學習有用且強大的深度世界模型。我們發(fā)現(xiàn)當前的方法不足以鼓勵模態(tài)之間的共享表示哗咆;這可能會導(dǎo)致下游任務(wù)的性能不佳以及對特定傳感器的過度依賴蜘欲。作為一種解決方案,我們提供了一種新的多模態(tài)深度潛在狀態(tài)空間模型晌柬,該模型使用互信息下限進行訓(xùn)練姥份。關(guān)鍵創(chuàng)新是一個專門設(shè)計的密度比估計器郭脂,它鼓勵每個模態(tài)的潛在代碼之間的一致性。我們的任務(wù)是在多模式 Natural MuJoCo 基準和具有挑戰(zhàn)性的 Table Wiping 任務(wù)上學習策略(以自我監(jiān)督的方式)澈歉。實驗表明我們的方法明顯優(yōu)于最先進的深度強化學習方法展鸡,

Learning-Based Control

Distilling a Hierarchical Policy for Planning and Control Via Representation and Reinforcement Learning
我們提出了一個分層規(guī)劃和控制框架,使代理能夠執(zhí)行各種任務(wù)并靈活地適應(yīng)新任務(wù)埃难。提議的框架 DISH 不是為每個特定任務(wù)學習單獨的策略莹弊,而是通過表示和強化學習從一組任務(wù)中提取分層策略。該框架基于潛變量模型的思想涡尘,該模型使用低維潛變量表示高維觀察忍弛。由此產(chǎn)生的策略由兩個層次結(jié)構(gòu)組成:(i)一個計劃模塊,它推理一系列潛在意圖悟衩,導(dǎo)致樂觀的未來剧罩;(ii)一個反饋控制策略,在任務(wù)之間共享座泳,執(zhí)行推斷的意圖惠昔。因為規(guī)劃是在低維潛在空間中進行的,學習到的策略無需額外培訓(xùn)即可立即用于解決或適應(yīng)新任務(wù)挑势。我們證明了所提出的框架可以在解決少量模仿任務(wù)的同時學習緊湊的表示(具有 197 和 36 維狀態(tài)特征和動作的類人機器人的 3 維和 1 維潛在狀態(tài)和命令)镇防,并且生成的策略直接適用于其他類型的任務(wù),即雜亂環(huán)境中的導(dǎo)航潮饱。

Reachability-Based Trajectory Safeguard (RTS): A Safe and Fast Reinforcement Learning Safety Layer for Continuous Control
強化學習 (RL) 算法通過反復(fù)試驗推理長期累積獎勵来氧,在決策和控制任務(wù)中取得了顯著的性能。然而香拉,在 RL 訓(xùn)練期間啦扬,將這種試錯法應(yīng)用于在安全關(guān)鍵環(huán)境中運行的真實機器人可能會導(dǎo)致碰撞。為了應(yīng)對這一挑戰(zhàn)凫碌,這封信提出了一種基于可達性的軌跡保障 (RTS)扑毡,它利用可達性分析來確保訓(xùn)練和操作期間的安全。給定一個已知(但不確定)的機器人模型盛险,RTS 預(yù)先計算機器人的前向可達集瞄摊,跟蹤參數(shù)化軌跡的連續(xù)體。在運行時苦掘,RL 代理從這個連續(xù)體中以后退的方式選擇來控制機器人换帜;FRS 用于識別代理的選擇是否安全,并調(diào)整不安全的選擇鹤啡。該方法的有效性在三個非線性機器人模型(包括 12 維四旋翼無人機)的靜態(tài)環(huán)境中進行了仿真惯驼,并與最先進的安全運動規(guī)劃方法進行了比較。

Learning Variable Impedance Control Via Inverse Reinforcement Learning for Force-Related Tasks
許多操作任務(wù)需要機器人與未知環(huán)境進行交互揉忘。在此類應(yīng)用中跳座,根據(jù)不同任務(wù)階段和環(huán)境約束調(diào)整阻抗的能力對于安全性和性能至關(guān)重要端铛。盡管已經(jīng)提出了許多基于深度強化學習 (RL) 和從演示中學習 (LfD) 的方法來獲得接觸豐富的操作任務(wù)的可變阻抗技能,但這些技能通常是特定于任務(wù)的疲眷,并且可能對任務(wù)設(shè)置的變化敏感禾蚕。這封信提出了一種基于逆強化學習 (IRL) 的方法,以從專家演示中恢復(fù)可變阻抗策略和獎勵函數(shù)狂丝。我們探索獎勵函數(shù)的不同動作空間换淆,以實現(xiàn)專家可變阻抗技能的更一般表示。在模擬和真實的 FANUC LR Mate 200iD/7 L 工業(yè)機器人上進行了兩種可變阻抗任務(wù)(Peg-in-Hole 和 Cup-on-Plate)的實驗几颜。與行為克隆和基于力的 IRL 的比較結(jié)果證明倍试,在增益動作空間中學習的獎勵函數(shù)比在力空間中具有更好的可遷移性。實驗視頻可在 https://msc.berkeley.edu/research/impedance-irl.html 獲得蛋哭。

Learning-Based Manipulation

Living Object Grasping Using Two-Stage Graph Reinforcement Learning
活的物體很難抓握县习,因為它們可以在被接觸時甚至在被接觸之前通過扭動或變形來主動躲避和掙扎,而建淖恢海或預(yù)測它們對抓握的反應(yīng)是極其困難的躁愿。這封信提出了一種基于強化學習 (RL) 的算法來解決這個具有挑戰(zhàn)性的問題』ε睿考慮到活體抓取的復(fù)雜性彤钟,我們將整個任務(wù)分為抓取前和在手兩個階段,讓算法在兩個階段之間自動切換跷叉。預(yù)抓取階段旨在找到機器人手接近活體以執(zhí)行抓取的良好姿勢逸雹。提出了密集獎勵函數(shù),以促進基于手和物體的姿勢學習右手動作云挟。由于手中的物體可能難以逃脫梆砸,機械手需要調(diào)整其配置并正確響應(yīng)物體的運動。因此园欣,在手階段的目標是確定手指配置的適當調(diào)整辫樱,以便機器人手繼續(xù)握住物體。在這個階段俊庇,我們將機器人手視為一個圖,并使用圖卷積網(wǎng)絡(luò)(GCN)來確定手部動作鸡挠。我們通過模擬和真實實驗測試了我們的算法辉饱,這表明它在活體抓取方面具有良好的性能。更多結(jié)果可在我們的網(wǎng)站上獲得:https://sites.google.com/view/graph-rl拣展。

Reinforcement Learning for Robotic Assembly Using Non-Diagonal Stiffness Matrix
聯(lián)系人豐富的任務(wù)彭沼,其中在一系列操作中發(fā)生多個聯(lián)系人轉(zhuǎn)換,已被廣泛研究用于任務(wù)自動化备埃。精密裝配是接觸豐富任務(wù)的典型例子姓惑,需要高時間常數(shù)來應(yīng)對接觸狀態(tài)的變化褐奴。因此,這封信提出了一種用于具有高時間常數(shù)的精密裝配的局部軌跡規(guī)劃方法于毙。因為剛度矩陣的非對角分量可以在高采樣頻率下引起運動敦冬,我們使用這個概念來設(shè)計一個剛度矩陣來指導(dǎo)物體的運動,并提出一種控制它的方法唯沮。我們引入強化學習 (RL) 來選擇剛度矩陣脖旱,因為所需方向和傳感器響應(yīng)之間的關(guān)系難以建模。由于局部軌跡修改的高時間常數(shù)介蛉,具有用于 RL 和導(dǎo)納控制的各種采樣率的架構(gòu)具有快速響應(yīng)的優(yōu)勢萌庆。該方法的有效性在兩個接觸豐富的任務(wù)上得到了實驗驗證:將銷釘插入孔中和插入齒輪。使用所提出的方法币旧,將釘子插入孔中所需的平均總時間為 1.64 秒践险,不到現(xiàn)有最先進研究報告的最佳時間的一半。

Uncertainty-Aware Contact-Safe Model-Based Reinforcement Learning
這封信介紹了用于機器人應(yīng)用程序的基于接觸安全模型的強化學習 (MBRL)吹菱,可在學習過程中實現(xiàn)接觸安全行為巍虫。在典型的 MBRL 中,由于樣本稀缺毁葱,我們不能期望數(shù)據(jù)驅(qū)動模型在學習過程中為預(yù)期的機器人任務(wù)生成準確可靠的策略垫言。在接觸較多的環(huán)境中操作這些不可靠的策略可能會對機器人及其周圍環(huán)境造成損害。為了減輕意外密集物理接觸造成損害的風險倾剿,我們提出了接觸安全 MBRL筷频,它將概率模型預(yù)測控制 (pMPC) 控制限制與模型不確定性相關(guān)聯(lián),以便根據(jù)學習進度調(diào)整受控行為的允許加速. 使用計算效率高的近似 GP 動力學和近似推理技術(shù)將具有這種不確定性感知控制限制的控制規(guī)劃表述為確定性 MPC 問題前痘。我們的方法的有效性是通過模擬和真實機器人的碗混合任務(wù)來評估的凛捏,真實機器人的舀取任務(wù)作為接觸豐富的操作技能的例子。

Reducing the Deployment-Time Inference Control Costs of Deep Reinforcement Learning Agents Via an Asymmetric Architecture
深度強化學習 (DRL) 已被證明可以在幾個具有挑戰(zhàn)性的決策和控制任務(wù)中提供有希望的結(jié)果芹缔。然而坯癣,深度神經(jīng)網(wǎng)絡(luò) (DNN) 所需的推理成本可能會阻止 DRL 應(yīng)用于無法承受高能耗計算的移動機器人。為了使 DRL 方法在這種能量有限的平臺上能夠負擔得起最欠,我們提出了一種非對稱架構(gòu)示罗,通過在計算成本高的策略和經(jīng)濟策略之間切換來降低整體推理成本。在許多用于機器人控制任務(wù)的代表性基準套件上評估的實驗結(jié)果表明芝硬,我們的方法能夠降低推理成本蚜点,同時保持代理的整體性能。

Total Singulation with Modular Reinforcement Learning
抓取機器人在雜亂中抓取目標物體具有挑戰(zhàn)性拌阴,因為在這種情況下绍绘,目標會接觸其他物體,導(dǎo)致缺乏無碰撞抓取可供性。為了解決這個問題陪拘,我們提出了一種模塊化強化學習方法厂镇,該方法使用連續(xù)動作將目標對象從其周圍的雜波中完全分離出來。高級策略在推送原語之間進行選擇左刽,這些原語是單獨學習的捺信。先驗知識通過動作原語和特征選擇有效地融入學習,提高了樣本效率悠反。實驗表明残黑,所提出的方法在單一化任務(wù)中大大優(yōu)于最先進的方法。此外斋否,盡管訓(xùn)練是在模擬中進行的梨水,但學習到的策略被穩(wěn)健地轉(zhuǎn)移到真實環(huán)境中,成功率沒有顯著下降茵臭。最后疫诽,通過輕松添加新的原語并僅重新訓(xùn)練高級策略來解決不同環(huán)境中的單一化任務(wù)。

Machine Learning Method for Navigation

DWA-RL: Dynamically Feasible Deep Reinforcement Learning Policy for Robot Navigation among Mobile Obstacles
我們提出了一種新穎的基于深度強化學習 (DRL) 的策略旦委,用于計算機器人在移動障礙物之間導(dǎo)航的動態(tài)可行和空間感知速度奇徒。我們的方法結(jié)合了動態(tài)窗口方法 (DWA) 在滿足機器人動力學約束方面的優(yōu)勢,以及可以很好地處理移動障礙物和行人的最先進的基于 DRL 的導(dǎo)航方法缨硝。我們的公式通過將環(huán)境障礙物的運動嵌入到新的低維觀察空間中來實現(xiàn)這些目標摩钙。它還使用一種新穎的獎勵功能來積極增強使機器人遠離障礙物前進方向的速度,從而顯著降低碰撞次數(shù)查辩。我們在現(xiàn)實的 3-D 模擬環(huán)境中評估我們的方法胖笛,并在具有多個步行行人的具有挑戰(zhàn)性的密集室內(nèi)場景中的真實差分驅(qū)動機器人上評估我們的方法。我們將我們的方法與最先進的防撞方法進行比較宜岛,并觀察到成功率(最多增加 33%)长踊、違反動態(tài)約束的次數(shù)(最多減少 61%)和平滑度方面的顯著改進。我們還進行消融研究以突出我們的觀察空間公式和獎勵結(jié)構(gòu)的優(yōu)勢萍倡。

Reinforcement Learning for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships
深度強化學習 (DRL) 為在復(fù)雜的自動駕駛場景中學習導(dǎo)航提供了一種有前途的方法身弊。然而,識別可以指示截然不同的結(jié)果的微妙線索仍然是設(shè)計在人類環(huán)境中運行的自治系統(tǒng)的一個懸而未決的問題列敲。在這項工作中阱佛,我們表明,在強化學習框架中明確推斷潛在狀態(tài)和編碼時空關(guān)系可以幫助解決這一難題戴而。我們通過將強化學習器與監(jiān)督學習器相結(jié)合的框架瘫絮,對其他驅(qū)動程序的潛在狀態(tài)的先驗知識進行編碼。此外填硕,我們通過圖神經(jīng)網(wǎng)絡(luò) (GNN) 對不同車輛之間傳遞的影響進行建模。

Machine Learning for Robotic Applications

Robot in a China Shop: Using Reinforcement Learning for Location-Specific Navigation Behaviour
機器人需要能夠在多種不同的環(huán)境中工作。即使在執(zhí)行類似任務(wù)時扁眯,也應(yīng)部署不同的行為以最適合當前環(huán)境壮莹。在本文中,我們提出了一種新的導(dǎo)航方法姻檀,將其視為多任務(wù)學習問題命满。這使機器人能夠?qū)W習在不同環(huán)境的視覺導(dǎo)航任務(wù)中表現(xiàn)出不同的行為,同時還可以學習跨環(huán)境的共享專業(yè)知識绣版。我們在模擬環(huán)境和真實世界數(shù)據(jù)中評估了我們的方法胶台。我們的方法允許我們的系統(tǒng)在訓(xùn)練時間減少 26% 的情況下收斂,同時也提高了準確性杂抽。

Real-Time Trajectory Adaptation for Quadrupedal Locomotion Using Deep Reinforcement Learning
我們提出了一種控制架構(gòu)诈唬,用于實時適應(yīng)和跟蹤使用地形感知軌跡優(yōu)化求解器生成的軌跡。這種方法使我們能夠規(guī)避在線軌跡優(yōu)化的計算詳盡的任務(wù)缩麸,并進一步引入了一種對使用近似動力學建模的系統(tǒng)具有魯棒性的控制解決方案铸磅。我們使用深度強化學習 (RL) 訓(xùn)練策略,將附加偏差引入?yún)⒖架壽E杭朱,以便為四足機器人生成基于反饋的軌跡跟蹤系統(tǒng)阅仔。我們在大量模擬地形上訓(xùn)練該策略,并通過引入避免過度擬合和收斂到局部最優(yōu)的訓(xùn)練方法來確保其通用性弧械。此外八酒,為了捕捉地形信息,我們在 RL 環(huán)境的觀察空間中包含高度圖的潛在表示刃唐,作為外部感受反饋的一種形式羞迷。我們通過使用基于模型的全身控制器跟蹤校正的設(shè)定點來測試我們訓(xùn)練的策略的性能,并將其與在幾個模擬環(huán)境中沒有校正反饋的情況下獲得的跟蹤行為進行比較唁桩,并表明引入校正反饋導(dǎo)致增加在平坦地形上跟蹤預(yù)先計算的動態(tài)長地平線軌跡的成功率從 72.7% 到 92.4%闭树,在復(fù)雜的模塊化不平坦地形上從 47.5% 到 80.3%。

Manipulation: Reinforcement Learning

Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations Using Generative Models
無模型強化學習對真實機器人系統(tǒng)的潛在好處受限于其不知情的探索荒澡,導(dǎo)致收斂緩慢报辱、缺乏數(shù)據(jù)效率以及與環(huán)境的不必要交互。為了解決這些缺點单山,我們提出了一種結(jié)合強化和模仿學習的方法碍现,通過使用生成模型塑造獎勵函數(shù)和從演示數(shù)據(jù)中訓(xùn)練出來的狀態(tài)和動作相關(guān)的潛力。我們表明米奸,這通過指定值得首先探索的狀態(tài)和行動空間的高價值區(qū)域來加速政策學習昼接。與假設(shè)最佳演示并將演示數(shù)據(jù)合并為策略優(yōu)化的硬約束的大多數(shù)現(xiàn)有方法不同,相反悴晰,我們將演示數(shù)據(jù)作為建議慢睡,以獎勵塑造潛力的形式作為狀態(tài)和行動的生成模型進行訓(xùn)練逐工。特別是,我們檢查了規(guī)范化流和生成對抗網(wǎng)絡(luò)來代表這些潛力漂辐。我們表明泪喊,與許多將演示作為硬約束合并的現(xiàn)有方法不同,我們的方法即使在次優(yōu)和嘈雜的演示中也是公正的髓涯。我們提供了廣泛的模擬袒啼,以及在 Franka Emika 7DOF 臂上的實驗,以證明我們方法的實用性纬纪。

DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies
我們是否可以使用強化學習來學習可以執(zhí)行各種不同任務(wù)的通用策略蚓再,從而獲得靈活且可重用的技能?上下文策略原則上提供了這種能力包各,但是上下文的表示決定了泛化和表達的程度摘仅。分類上下文排除了對全新任務(wù)的泛化。以目標為條件的策略可以實現(xiàn)一些泛化髓棋,但不能捕獲所有可能需要的任務(wù)实檀。在本文中,我們提出目標分布作為適用于上下文策略的通用且廣泛適用的任務(wù)表示按声。目標分布在某種意義上是通用的膳犹,當配備適當?shù)姆植碱悇e時,它們可以表示任何基于狀態(tài)的獎勵函數(shù)签则,而分發(fā)類的特定選擇允許我們權(quán)衡表達性和可學習性须床。我們開發(fā)了一種稱為分布條件強化學習 (DisCo RL) 的離策略算法來有效地學習這些策略。我們在各種機器人操作任務(wù)上評估 DisCo RL渐裂,發(fā)現(xiàn)它在需要泛化到新目標分布的任務(wù)上明顯優(yōu)于先前的方法豺旬。

Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones
安全仍然是阻礙 RL 在現(xiàn)實世界中廣泛使用的主要障礙:在不確定的環(huán)境中學習新任務(wù)需要廣泛的探索,但安全需要限制探索柒凉。我們提出了 Recovery RL族阅,該算法通過以下方式進行權(quán)衡:(1) 在策略學習之前利用離線數(shù)據(jù)了解違反約束的區(qū)域;(2) 將提高任務(wù)性能和約束滿足的目標分離到兩個策略:一個任務(wù)策略僅優(yōu)化任務(wù)獎勵和恢復(fù)策略膝捞,在可能違反約束時引導(dǎo)代理安全坦刀。我們在 6 個模擬域上評估 Recovery RL,包括兩個接觸豐富的操作任務(wù)和一個基于圖像的導(dǎo)航任務(wù)蔬咬,以及一個物理機器人上的基于圖像的避障任務(wù)鲤遥。我們將 Recovery RL 與 5 種先前的安全 RL 方法進行比較,這些方法通過約束優(yōu)化或獎勵塑造聯(lián)合優(yōu)化任務(wù)性能和安全性林艘,發(fā)現(xiàn) Recovery RL 在所有領(lǐng)域都優(yōu)于次優(yōu)的先驗方法盖奈。結(jié)果表明,Recovery RL 在模擬領(lǐng)域中權(quán)衡約束違反和任務(wù)成功的效率提高了 2-20 倍狐援,在物理實驗中效率提高了 3 倍钢坦。有關(guān)視頻和補充材料究孕,請參見 https://tinyurl.com/rl-recovery

LASER: Learning a Latent Action Space for Efficient Reinforcement Learning
學習操作任務(wù)的過程在很大程度上取決于用于探索的動作空間:在不正確的動作空間中场钉,使用強化學習解決任務(wù)可能會非常低效蚊俺。此外,相似的任務(wù)或同一任務(wù)族的實例對最有效的動作空間施加潛在的流形約束:任務(wù)族可以通過機器人整個動作空間的流形中的動作來最好地解決逛万。結(jié)合這些見解,我們提出了 LASER批钠,這是一種學習潛在動作空間以進行有效強化學習的方法宇植。LASER將學習問題分解為兩個子問題,即動作空間學習和新動作空間中的策略學習埋心。它利用來自類似操作任務(wù)實例的數(shù)據(jù)指郁,無論是來自離線專家還是在策略學習期間在線,并從這些軌跡中學習從原始動作空間到潛在動作空間的映射拷呆。LASER 被訓(xùn)練為變分編碼器 - 解碼器模型闲坎,以將原始動作映射到解耦的潛在動作空間,同時保持動作重建和潛在空間動態(tài)一致性茬斧。我們在模擬中對兩個接觸豐富的機器人任務(wù)評估 LASER腰懂,并分析策略學習在生成的潛在動作空間中的好處。與原始動作空間相比项秉,我們展示了提高的樣本效率绣溜,因為我們通過學習動作空間流形的可視化觀察到動作空間與任務(wù)空間的更好對齊。其他詳細信息:pair.toronto.edu/laser LASER

Multi-Step Recurrent Q-Learning for Robotic Velcro Peeling
學習對象操作是機器人與環(huán)境交互的一項關(guān)鍵技能娄蔼。盡管在機器人操縱剛性物體方面取得了重大進展怖喻,但與非剛性物體的交互對于機器人來說仍然具有挑戰(zhàn)性。在這項工作中岁诉,我們介紹了魔術(shù)貼剝離作為機器人在復(fù)雜環(huán)境中操縱非剛性物體的新應(yīng)用锚沸。我們提出了一種方法,通過使用多步深度循環(huán)網(wǎng)絡(luò)對測量之間的長期依賴關(guān)系進行建模涕癣,在部分可觀察的環(huán)境中從嘈雜和不完整的傳感器輸入中學習基于力的操作哗蜈。我們在真實機器人上進行了實驗,以展示對這些長期依賴關(guān)系建模的必要性属划,并驗證我們在模擬和機器人實驗中的方法恬叹。

Reset-Free Reinforcement Learning Via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention
強化學習 (RL) 算法原則上可以通過從現(xiàn)實世界中通過反復(fù)試驗收集的大量數(shù)據(jù)中學習來獲得復(fù)雜的機器人技能。然而同眯,大多數(shù) RL 算法使用精心設(shè)計的設(shè)置來收集數(shù)據(jù)绽昼,需要人工監(jiān)督和干預(yù)以提供情節(jié)重置。這在具有挑戰(zhàn)性的機器人問題中尤其明顯须蜗,例如靈巧操作硅确。為了使數(shù)據(jù)收集具有可擴展性目溉,此類應(yīng)用程序需要能夠自主學習的無復(fù)位算法,無需顯式儀器或人工干預(yù)菱农。該領(lǐng)域的大多數(shù)先前工作都處理單任務(wù)學習缭付。但是,我們可能還需要能夠執(zhí)行大量技能的機器人循未。起初陷猫,這似乎只會使問題變得更加困難。 實際上的妖,解決多任務(wù)問題可以直接解決無重置問題绣檬,因為任務(wù)的不同組合可以用于為其他任務(wù)執(zhí)行重置。通過一起學習多個任務(wù)并適當?shù)貙λ鼈冞M行排序嫂粟,我們可以有效地一起學習所有任務(wù)而無需重置娇未。正如我們在實驗中所展示的,這種類型的多任務(wù)學習可以有效地將免重置學習方案擴展到更復(fù)雜的問題星虹。

Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning
收集數(shù)據(jù)引起的模型偏差阻礙了基于模型的強化學習算法的實質(zhì)性進步零抬,這通常會損害性能。同時宽涌,它們固有的樣本效率保證了大多數(shù)機器人應(yīng)用的實用性平夜,從而限制了訓(xùn)練期間對機器人及其環(huán)境的潛在損害。受信息論模型預(yù)測控制和深度強化學習進步的啟發(fā)护糖,我們介紹了模型預(yù)測演員-評論家(MoPAC) ? 褥芒,一種基于模型/無模型的混合方法,將模型預(yù)測推出與策略優(yōu)化相結(jié)合嫡良,以減輕模型偏差锰扶。MoPAC 利用最優(yōu)軌跡來指導(dǎo)策略學習鹤盒,但通過其無模型方法進行探索喘批,使算法能夠?qū)W習更具表現(xiàn)力的動態(tài)模型屡律。這種組合可確保最佳技能學習達到近似誤差拓轻,并減少與環(huán)境的必要物理交互仑最,使其適用于真實機器人訓(xùn)練乳讥。我們提供了廣泛的結(jié)果考蕾,展示了我們提出的方法通常如何優(yōu)于當前最先進的方法掖肋,并通過評估 MoPAC 在執(zhí)行瓣膜旋轉(zhuǎn)和手指步態(tài)的物理機器人手上的學習得出結(jié)論——這項任務(wù)需要抓取甩苛、操作蹂楣,然后重新抓取一個東西。

Batch Exploration with Examples for Scalable Robotic Reinforcement Learning
從各種離線數(shù)據(jù)集中學習是學習通用機器人代理的一條有希望的途徑讯蒲。然而痊土,這種范式的核心挑戰(zhàn)在于收集大量有意義的數(shù)據(jù),而不是依賴于循環(huán)中的人來收集數(shù)據(jù)墨林。解決這一挑戰(zhàn)的一種方法是通過與任務(wù)無關(guān)的探索赁酝,其中代理嘗試在沒有特定于任務(wù)的獎勵功能的情況下進行探索犯祠,并收集可用于任何后續(xù)任務(wù)的數(shù)據(jù)。雖然這些方法在簡單領(lǐng)域顯示出一些前景酌呆,但它們通常難以在更具挑戰(zhàn)性的環(huán)境中探索狀態(tài)空間的相關(guān)區(qū)域衡载,例如基于視覺的機器人操作。這一挑戰(zhàn)源于一個鼓勵探索潛在廣闊狀態(tài)空間中的一切的目標隙袁。為了緩解這一挑戰(zhàn)痰娱,我們建議使用弱人工監(jiān)督將探索重點放在狀態(tài)空間的重要部分。具體來說菩收,我們提出了一種探索技術(shù)猜揪,即帶示例的批量探索 (BEE),該技術(shù)在少量人類提供的重要狀態(tài)圖像的指導(dǎo)下探索狀態(tài)空間的相關(guān)區(qū)域坛梁。這些人工提供的圖像只需要在數(shù)據(jù)收集開始時提供一次,并且可以在幾分鐘內(nèi)獲取腊凶,使我們能夠可擴展地收集不同的數(shù)據(jù)集划咐,然后可以與任何批量 RL 算法相結(jié)合。我們發(fā)現(xiàn) BEE 能夠在模擬和真實的 Franka Emika Panda 機器人上處理具有挑戰(zhàn)性的基于視覺的操作任務(wù)钧萍。

Model Learning for Control

Nonholonomic Yaw Control of an Underactuated Flying Robot with Model-Based Reinforcement Learning
非完整控制是控制具有路徑相關(guān)狀態(tài)的非線性系統(tǒng)的一種候選方法褐缠。我們研究了一種驅(qū)動不足的飛行微型飛行器,即 ionocraft风瘦,它需要在偏航方向進行非完整控制以實現(xiàn)完整的姿態(tài)控制队魏。部署分析控制律涉及大量工程設(shè)計,并且對系統(tǒng)模型中的不準確性很敏感万搔。通過對裝配和系統(tǒng)動力學的特定假設(shè)胡桨,我們推導(dǎo)出了一個用于離子飛行器偏航控制的李括號。與分析控制律所需的大量工程工作相比瞬雹,我們在模擬飛行任務(wù)中實現(xiàn)了基于數(shù)據(jù)驅(qū)動的基于模型的強化學習偏航控制器昧谊。我們證明了一個簡單的基于模型的強化學習框架可以在幾分鐘的飛行數(shù)據(jù)中匹配派生的李括號控制(偏航率和選擇的動作),而無需預(yù)定義的動力學函數(shù)酗捌。這封信表明呢诬,基于學習的方法可用作合成非線性控制律的工具,以前只能通過基于專家的設(shè)計來解決胖缤。

Motion Planning and Control

Reinforcement Learning-Based Visual Navigation with Information-Theoretic Regularization
為了增強基于深度強化學習 (RL) 的目標驅(qū)動視覺導(dǎo)航的跨目標和跨場景泛化尚镰,我們在 RL 目標中引入了信息論正則化項。正則化最大化了導(dǎo)航動作和代理的視覺觀察轉(zhuǎn)換之間的互信息哪廓,從而促進更明智的導(dǎo)航?jīng)Q策狗唉。通過這種方式,代理通過學習變分生成模型來模擬動作觀察動力學撩独〕ú埽基于該模型账月,代理從其當前觀察和導(dǎo)航目標生成(想象)下一個觀察。通過這種方式澳迫,智能體學會理解導(dǎo)航動作之間的因果關(guān)系及其觀察結(jié)果的變化局齿,這允許代理通過比較當前和想象的下一個觀察結(jié)果來預(yù)測導(dǎo)航的下一個動作。對 AI2-THOR 框架的跨目標和跨場景評估表明橄登,我們的方法比一些最先進的模型至少提高了 10% 的平均成功率抓歼。我們在兩個真實世界設(shè)置中進一步評估我們的模型:從離散的主動視覺數(shù)據(jù)集 (AVD) 中的看不見的室內(nèi)場景中導(dǎo)航和使用 TurtleBot 的連續(xù)真實世界環(huán)境。我們證明了我們的導(dǎo)航模型能夠在這些場景中成功實現(xiàn)導(dǎo)航任務(wù)拢锹。

Motion Planning for Surgical Robots

Bimanual Regrasping for Suture Needles Using Reinforcement Learning for Rapid Motion Planning
重新抓住縫合針是縫合過程中一個重要但耗時的過程谣妻。為了提高重新抓握的效率,之前的工作要么設(shè)計一個特定于任務(wù)的機制卒稳,要么將夾具引導(dǎo)到某個特定的拾取點蹋半,以便正確抓握針頭。然而充坑,當工作空間發(fā)生變化時减江,這些方法通常無法部署。因此捻爷,在這項工作中辈灼,我們提出了通過強化學習 (RL) 快速生成雙手針重新抓握的軌跡。結(jié)合了基于采樣的運動規(guī)劃算法的演示以加快學習速度也榄。此外巡莹,我們?yōu)檫@個雙手規(guī)劃問題提出了以自我為中心的狀態(tài)和動作空間,其中參考框架位于末端執(zhí)行器上甜紫,而不是某個固定框架降宅。因此,學習到的策略可以直接應(yīng)用于任何可行的機器人配置棵介。我們的仿真實驗表明钉鸯,單次通過的成功率為 97%,規(guī)劃時間平均為 0.0212 秒邮辽,優(yōu)于其他廣泛使用的運動規(guī)劃算法唠雕。對于真實世界的實驗,如果針位從 RGB 圖像重建吨述,成功率為 73.3%岩睁,規(guī)劃時間為 0.0846 秒,運行時間為 5.1454 秒揣云。如果事先知道針位捕儒,則成功率為 90.5%,計劃時間為 0.0807 秒,運行時間為 2.8801 秒刘莹。

Motion Planning: Learning

Remote-Center-Of-Motion Recommendation Toward Brain Needle Intervention Using Deep Reinforcement Learning
腦針干預(yù)是腦部疾惭忠恪(例如腦腫瘤和帕金森病)的特定診斷和治療程序点弯。術(shù)前針路規(guī)劃是保證患者安全扇调、減少病變的重要步驟。為了在 CT/MRI 環(huán)境中定位精度抢肛,我們在之前的工作中開發(fā)了一種新型針介入機器人狼钮。由于機器人目前是為剛性針設(shè)計的,因此術(shù)前路徑規(guī)劃的任務(wù)是尋找用于針插入的最佳遠程運動中心 (RCM)捡絮。因此熬芜,這項工作提出了一種使用深度強化學習的 RCM 推薦系統(tǒng)「N龋考慮到機器人運動學涎拉,該系統(tǒng)考慮了以下標準/約束:臨床障礙(血管、組織)回避(COA)的圆,機器人的機械逆運動學(MIK)和機械少運動(MLM)曼库。我們設(shè)計了一個獎勵函數(shù),將上述三個標準根據(jù)其相應(yīng)的重要性級別結(jié)合起來略板,并利用近端策略優(yōu)化(PPO)作為強化學習(RL)的主要代理。RL 方法被證明能夠勝任同時滿足上述標準的 RCM 搜索慈缔。一方面叮称,結(jié)果表明 RL 智能體完成設(shè)計任務(wù)的成功率為 93%,在測試中達到了人類水平藐鹤。另一方面瓤檐,RL 智能體具有在未來工作中結(jié)合更復(fù)雜標準/約束的非凡能力。

Autonomous Navigation of an Ultrasound Probe towards Standard Scan Planes with Deep Reinforcement Learning
自主超聲 (US) 采集是一項重要但具有挑戰(zhàn)性的任務(wù)娱节,因為它涉及解釋高度復(fù)雜和可變的圖像及其空間關(guān)系挠蛉。在這項工作中,我們提出了一個深度強化學習框架肄满,以基于實時圖像反饋自主控制虛擬 US 探頭的 6-D 姿態(tài)谴古,以在現(xiàn)實世界 US 掃描的限制下導(dǎo)航到標準掃描平面。此外稠歉,我們提出了一種基于置信度的方法來編碼學習過程中圖像質(zhì)量的優(yōu)化掰担。我們在一個模擬環(huán)境中驗證我們的方法,該模擬環(huán)境使用在美國脊柱成像中收集的真實數(shù)據(jù)構(gòu)建怒炸。實驗結(jié)果表明带饱,我們的方法可以以 4.91mm/4 的精度對標準掃描平面執(zhí)行可重復(fù)的 US 探針導(dǎo)航。65°,在患者內(nèi)和患者間環(huán)境中完成任務(wù)勺疼,成功率分別為 92% 和 46%教寂。結(jié)果還表明,在我們的方法中引入圖像質(zhì)量優(yōu)化可以有效地提高導(dǎo)航性能执庐。

Novel Applications

Autonomous Overtaking in Gran Turismo Sport Using Curriculum Reinforcement Learning
專業(yè)的賽車手可以執(zhí)行極端的超車動作酪耕。然而,現(xiàn)有的自動超車算法要么依賴于關(guān)于車輛動力學的簡化假設(shè)耕肩,要么嘗試在線解決昂貴的軌跡優(yōu)化問題因妇。當車輛接近其物理極限時,現(xiàn)有的基于模型的控制器難以處理高度非線性的動態(tài)猿诸,并且無法利用模擬或現(xiàn)實世界駕駛生成的大量數(shù)據(jù)婚被。為了規(guī)避這些限制,我們提出了一種新的基于學習的方法來解決自動超車問題梳虽。我們在流行的賽車游戲 Gran Turismo Sport 中評估我們的方法址芯,該游戲以其對各種汽車和賽道的詳細建模而聞名。通過利用課程學習窜觉,與普通強化學習相比谷炸,我們的方法可以加快收斂速度并提高性能。因此禀挫,經(jīng)過訓(xùn)練的控制器優(yōu)于內(nèi)置的基于模型的游戲 AI旬陡,并與經(jīng)驗豐富的人類駕駛員實現(xiàn)了相當?shù)某囆阅堋?/p>

Pose Estimation

Reinforcement Learning for Orientation Estimation Using Inertial Sensors with Performance Guarantee
本文提出了一種深度強化學習 (DRL) 算法,用于使用慣性傳感器與磁力計相結(jié)合的方向估計语婴∶杳希控制理論中的李雅普諾夫方法被用來證明方向估計誤差的收斂性。估計器增益和 Lyapunov 函數(shù)由深度神經(jīng)網(wǎng)絡(luò)參數(shù)化砰左,并根據(jù)理論結(jié)果從樣本中學習匿醒。在數(shù)值模擬和從商用傳感器收集的真實數(shù)據(jù)集上,將 DRL 估計器與三種眾所周知的方向估計方法進行了比較缠导。結(jié)果表明廉羔,所提出的算法對于任意估計初始化具有優(yōu)越性,并且可以適應(yīng)其他算法幾乎無法適用的劇烈角速度分布僻造。

Reinforcement Learning for Robotics

Model-Free Reinforcement Learning for Stochastic Games with Linear Temporal Logic Objectives
我們研究了未知環(huán)境中線性時序邏輯 (LTL) 目標的控制策略綜合憋他。我們將此問題建模為控制器與環(huán)境之間基于回合的零和隨機博弈,其中轉(zhuǎn)移概率和模型拓撲完全未知髓削。該游戲中控制器的獲勝條件是滿足給定的 LTL 規(guī)范举瑰,這可以通過直接從 LTL 規(guī)范導(dǎo)出的確定性拉賓自動機 (DRA) 的接受條件來捕獲。我們引入了一種無模型強化學習 (RL) 方法蔬螟,以找到一種策略此迅,當派生的 DRA 的拉賓條件具有單個接受對時,該策略最大化滿足給定 LTL 規(guī)范的概率。然后我們將這種方法推廣到任何 LTL 公式耸序,Rabin 接受條件可能有不止一對忍些,從而提供了滿足概率的下限。最后坎怪,我們展示了我們的 RL 方法在兩個規(guī)劃案例研究中的適用性罢坝。

Secure Planning against Stealthy Attacks Via Model-Free Reinforcement Learning
我們考慮在未知隨機環(huán)境中的安全意識規(guī)劃問題,存在對機器人控制信號(即執(zhí)行器)的攻擊搅窿。我們將攻擊者建模為一個代理嘁酿,他對控制器以及所使用的入侵檢測系統(tǒng)有充分的了解,并且希望在保持隱身的同時阻止控制器執(zhí)行任務(wù)男应。我們將問題表述為攻擊者和控制器之間的隨機博弈闹司,并提出一種將這種代理和控制器的目標表達為組合線性時序邏輯 (LTL) 公式的方法。然后沐飘,我們展示了規(guī)劃問題游桩,正式描述為在隨機游戲中滿足 LTL 公式的問題,可以在環(huán)境完全未知時通過無模型強化學習來解決耐朴。

Harmonic-Based Optimal Motion Planning in Constrained Workspaces Using Reinforcement Learning
在這項工作中借卧,我們提出了一種新的強化學習算法來解決最優(yōu)運動規(guī)劃問題。特別強調(diào)了對積分二次成本函數(shù)的安全性筛峭、收斂性和最優(yōu)性的嚴格數(shù)學證明铐刘,同時采用強化學習來實現(xiàn)成本函數(shù)的近似。提出了離線和在線解決方案影晓,并將離線方法的實現(xiàn)與最先進的 RRT* 方法進行了比較滨达。這種新穎的方法繼承了人工勢場(即反應(yīng)性)和基于采樣的方法(即最優(yōu)性)的強大特征,并通過融合現(xiàn)代工具和哲學為運動規(guī)劃的古老問題開辟了新途徑從球場的各個角落俯艰。

Reward Learning from Very Few Demonstrations
本文介紹了一種新穎的技能學習框架,該框架從很少的演示中學習獎勵锌订,并將其用于策略搜索 (PS) 以提高技能竹握。演示用于學習參數(shù)化策略以執(zhí)行技能和目標模型,作為隱藏馬爾可夫模型 (HMM)辆飘,以監(jiān)控執(zhí)行啦辐。獎勵是從 HMM 結(jié)構(gòu)及其監(jiān)控能力中學習的。HMM 被轉(zhuǎn)換為有限范圍馬爾可夫獎勵過程 (MRP)蜈项。蒙特卡羅方法用于計算其值芹关。然后,將 HMM 和值合并為部分可觀察的 MRP紧卒,以獲得執(zhí)行返回侥衬,以與 PS 一起使用以改進策略。除了獎勵學習,還采用了具有自適應(yīng)探索策略的黑盒 PS 方法轴总。最終的框架使用五種 PS 方法和兩種模擬技能進行評估直颅。結(jié)果表明,與稀疏監(jiān)測信號相比怀樟,學習到的密集獎勵可以帶來更好的性能功偿,并且使用自適應(yīng)探索可以更快地收斂,成功率更高往堡,方差更低械荷。該框架的有效性在真實機器人設(shè)置中得到驗證,通過在稀疏獎勵完全失敗的情況下使用學習獎勵提高三項技能以從完全失敗中獲得成功虑灰。

Hierarchies of Planning and Reinforcement Learning for Robot Navigation
通過強化學習 (RL) 解決機器人導(dǎo)航任務(wù)具有挑戰(zhàn)性吨瞎,因為它們的獎勵稀疏且決策范圍較長。但是瘩缆,在許多導(dǎo)航任務(wù)中关拒,可以使用高級 (HL) 任務(wù)表示,例如粗略的平面圖庸娱。以前的工作已經(jīng)通過分層方法證明了有效的學習着绊,包括 HL 表示中的路徑規(guī)劃和使用從該計劃中導(dǎo)出的子目標來指導(dǎo)源任務(wù)中的 RL 策略。然而熟尉,這些方法通常在規(guī)劃過程中忽略了機器人的復(fù)雜動力學和次優(yōu)次目標達到能力归露。這項工作通過提出一種新穎的層次框架來克服這些限制,該框架利用可訓(xùn)練的規(guī)劃策略進行 HL 表示斤儿。因此剧包,可以利用收集的部署數(shù)據(jù)來學習機器人能力和環(huán)境條件。我們特別介紹了一種基于價值迭代和學習轉(zhuǎn)換模型 (VI-RL) 的規(guī)劃策略往果。在模擬機器人導(dǎo)航任務(wù)中疆液,VI-RL 對 vanilla RL 有持續(xù)的強勁改進,在單一布局上與 vanilla hierarchal RL 相當陕贮,但更廣泛地適用于多種布局堕油,并且與可訓(xùn)練的 HL 路徑規(guī)劃基線相當,除了停車具有困難的非完整動力學的任務(wù)肮之,它顯示出顯著的改進掉缺。

Context-Aware Safe Reinforcement Learning for Non-Stationary Environments
在為現(xiàn)實任務(wù)部署強化學習代理時,安全性是一個關(guān)鍵問題戈擒。最近眶明,已經(jīng)開發(fā)出安全的強化學習算法來優(yōu)化代理的性能,同時避免違反安全約束筐高。然而搜囱,很少有研究解決環(huán)境中的非平穩(wěn)干擾丑瞧,這可能導(dǎo)致災(zāi)難性后果。在本文中犬辰,我們提出了上下文感知安全強化學習(CASRL)方法嗦篱,這是一種在非平穩(wěn)環(huán)境中實現(xiàn)安全適應(yīng)的金屬學習框架。我們使用概率潛變量模型來實現(xiàn)給定上下文數(shù)據(jù)的后驗環(huán)境轉(zhuǎn)換分布的快速推斷幌缝。然后使用不確定性感知軌跡采樣評估安全約束灸促。先驗安全約束是用領(lǐng)域知識制定的,以提高探索期間的安全性涵卵。該算法在具有非平穩(wěn)干擾的現(xiàn)實安全關(guān)鍵環(huán)境中進行評估浴栽。結(jié)果表明,所提出的算法在安全性和魯棒性方面明顯優(yōu)于現(xiàn)有基線轿偎。

Deep Learning Assisted Robotic Magnetic Anchored and Guided Endoscope for Real-Time Instrument Tracking
這封信介紹了在磁性錨定外科內(nèi)窺鏡上實施基于深度學習的儀器跟蹤的第一個案例典鸡。緊湊型磁力驅(qū)動內(nèi)窺鏡具有獨特的結(jié)構(gòu),允許在錨表面附近進行操作坏晦,是視頻輔助胸腔鏡手術(shù) (VATS) 的理想選擇萝玷。自主工具跟蹤減輕了外科醫(yī)生的負擔,并防止因肌肉疲勞或溝通不暢而導(dǎo)致的人為錯誤昆婿。然而球碉,傳統(tǒng)方法依賴于顏色標簽或需要對儀器進行修改,并且由于標記物的遮擋而存在失敗的風險仓蛆。在這封信中睁冬,我們將深度學習儀器檢測與視覺伺服控制相結(jié)合。這允許磁性內(nèi)窺鏡自動跟蹤手術(shù)工具看疙,無需顏色標記或儀器修改豆拨。我們使用了一個改進的 TernausNet-16 網(wǎng)絡(luò),該網(wǎng)絡(luò)可以實時檢測手術(shù)器械能庆,具有 1846 張圖像的小型訓(xùn)練數(shù)據(jù)集施禾。實驗表明,磁性內(nèi)窺鏡可以有效地跟蹤無標記儀器搁胆。它還可以跟蹤以 40 mm/s 的速度行進的目標的連續(xù)運動弥搞。還通過在模擬胸腔中完成模擬手術(shù)任務(wù)來驗證性能。

Incorporating Multi-Context into the Traversability Map for Urban Autonomous Driving Using Deep Inverse Reinforcement Learning
在城市環(huán)境中與周圍的代理自動駕駛?cè)匀痪哂刑魬?zhàn)性丰涉。關(guān)鍵挑戰(zhàn)之一是準確預(yù)測可遍歷性地圖,該地圖在考慮多種環(huán)境(慣性斯碌、環(huán)境和社會)的情況下概率代表未來軌跡一死。為了解決這個問題,已經(jīng)提出了各種方法傻唾;但是投慈,他們主要側(cè)重于考慮個人背景承耿。此外,大多數(shù)研究利用昂貴的駕駛環(huán)境先驗信息(如高清地圖)伪煤,這不是一種可擴展的方法加袋。在這項研究中,我們擴展了一種基于深度逆強化學習的方法抱既,該方法可以預(yù)測可遍歷性圖职烧,同時結(jié)合動態(tài)環(huán)境中自動駕駛的多個上下文。而不是使用昂貴的駕駛場景先驗信息防泵,我們提出了一種新的深度神經(jīng)網(wǎng)絡(luò)來從傳感數(shù)據(jù)中提取上下文線索蚀之,并將它們有效地整合到輸出中,即獎勵圖捷泞∽闵荆基于獎勵圖,我們的方法預(yù)測以自我為中心的可遍歷性圖锁右,該圖表示合理且社會可接受的未來軌跡的概率分布失受。所提出的方法在具有各種基線的真實交通場景中進行了定性和定量評估。實驗結(jié)果表明咏瑟,與其他基線方法相比拂到,我們的方法提高了預(yù)測精度,并且可以預(yù)測類似于人類駕駛員所遵循的未來軌跡响蕴。

Quantification of Joint Redundancy Considering Dynamic Feasibility Using Deep Reinforcement Learning
執(zhí)行任務(wù)的機器人關(guān)節(jié)冗余和給定冗余自由度的機器人關(guān)節(jié)的最佳使用對于機器人的性能至關(guān)重要谆焊。因此,考慮到動態(tài)可行性浦夷,量化關(guān)節(jié)冗余以更好地理解機器人靈巧性是有意義的辖试。為此,基于模型的方法一直是分析量化簡單機器人關(guān)節(jié)冗余度的最常用方法之一劈狐。然而罐孝,這種經(jīng)典方法在應(yīng)用于非常規(guī)復(fù)雜機器人時會失敗。在這項研究中肥缔,我們提出了一種基于深度強化學習派生指標的新方法莲兢,即協(xié)同探索區(qū)域 (SEA) 指標,用于量化給定動態(tài)環(huán)境下的冗余续膳。我們針對不同的任務(wù)使用不同的機器人結(jié)構(gòu)進行了各種實驗改艇,從簡單的機械臂操作到更復(fù)雜的機器人運動。實驗結(jié)果表明坟岔,SEA度量可以有效量化未知動態(tài)情況下不同自由度機器人結(jié)構(gòu)上的相對關(guān)節(jié)冗余度谒兄。

FISAR: Forward Invariant Safe Reinforcement Learning with a Deep Neural Network-Based Optimizer
本文研究了帶約束的強化學習,這在安全關(guān)鍵環(huán)境中是必不可少的社付。為了推動約束違反單調(diào)減少承疲,我們將約束視為 Lyapunov 函數(shù)邻耕,并對策略參數(shù)的更新動態(tài)施加新的線性約束。因此燕鸽,原始安全集可以是前向不變的兄世。然而,由于新的保證可行約束被施加在更新動態(tài)而不是原始策略參數(shù)上啊研,經(jīng)典的優(yōu)化算法不再適用御滩。為了解決這個問題,我們建議學習一個基于通用深度神經(jīng)網(wǎng)絡(luò)(DNN)的優(yōu)化器來優(yōu)化目標悲伶,同時滿足線性約束艾恼。約束滿足是通過投影到由多個線性不等式約束制定的多面體上來實現(xiàn)的,這可以用我們新設(shè)計的度量來解析解決麸锉。據(jù)我們所知钠绍,這是第一個基于 DNN 的優(yōu)化器,用于具有前向不變性保證的約束優(yōu)化花沉。我們展示了我們的優(yōu)化器訓(xùn)練了一個策略來減少違反約束并單調(diào)地最大化累積獎勵柳爽。數(shù)值約束優(yōu)化和避障導(dǎo)航的結(jié)果驗證了理論發(fā)現(xiàn)。

Coding for Distributed Multi-Agent Reinforcement Learning
本文旨在減輕多智能體強化學習 (MARL) 問題的同步分布式學習中的落后者效應(yīng)碱屁。在分布式學習系統(tǒng)中磷脯,由于存在各種系統(tǒng)干擾,例如計算節(jié)點的減速或故障以及通信瓶頸娩脾,因此經(jīng)常出現(xiàn)落后者赵誓。為了解決這個問題,我們提出了一個編碼分布式學習框架柿赊,它可以在落后者存在的情況下加快 MARL 算法的訓(xùn)練俩功,同時保持與集中式方法相同的準確性。例如碰声,開發(fā)和評估了多智能體深度確定性策略梯度 (MADDPG) 算法的編碼分布式版本诡蜓。不同的編碼方案,包括最大距離可分(MDS)編碼、隨機稀疏編碼、基于復(fù)制的編碼训裆、還研究了常規(guī)低密度奇偶校驗 (LDPC) 碼。幾個多機器人問題的模擬證明了所提出框架的有希望的性能豺谈。

Model-Based Meta-Reinforcement Learning for Flight with Suspended Payloads
運輸懸掛的有效載荷對于自動飛行器來說具有挑戰(zhàn)性,因為有效載荷會對機器人的動力學造成重大且不可預(yù)測的變化贡这。這些變化可能導(dǎo)致次優(yōu)的飛行性能茬末,甚至是災(zāi)難性的故障。盡管自適應(yīng)控制和基于學習的方法原則上可以適應(yīng)這些混合機器人-有效載荷系統(tǒng)的變化藕坯,但在飛行中快速適應(yīng)具有先驗未知物理特性的有效載荷仍然是一個懸而未決的問題团南。我們提出了一種元學習方法,可以在連接后飛行數(shù)據(jù)的幾秒鐘內(nèi)“學習如何學習”改變動力學的模型炼彪。我們的實驗表明吐根,我們的在線適應(yīng)方法在一系列具有挑戰(zhàn)性的懸浮有效載荷運輸任務(wù)上優(yōu)于非自適應(yīng)方法。
https://sites.google.com/view/meta-rl-for-flight

Transfer Reinforcement Learning across Homotopy Classes
機器人將所學知識轉(zhuǎn)移到新任務(wù)(數(shù)據(jù)稀缺)的能力是機器人學習成功的基本挑戰(zhàn)辐马。雖然在監(jiān)督學習的背景下拷橘,微調(diào)作為一種簡單但有效的遷移方法已被充分研究,但在強化學習的背景下卻沒有得到很好的探索喜爷。在這項工作中冗疮,我們研究了當任務(wù)通過其獎勵函數(shù)進行參數(shù)化時,遷移強化學習中的微調(diào)問題檩帐,這是事先已知的术幔。我們推測,當源和目標軌跡是不同同倫類的一部分時湃密,微調(diào)的性能會大大降低:我們證明诅挑,與同倫類內(nèi)的微調(diào)相比,同倫類之間的微調(diào)策略參數(shù)需要與環(huán)境進行更多的交互泛源,并且在某些情況下情況是不可能的拔妥。我們提出了一種新的微調(diào)算法,即 Ease-In-Ease-Out 微調(diào)达箍,它由一個放松階段和一個課程學習階段組成没龙,以實現(xiàn)跨同倫類的遷移學習。最后缎玫,我們在幾個受機器人啟發(fā)的模擬環(huán)境中評估我們的方法硬纤,并通過經(jīng)驗驗證與現(xiàn)有基線相比,Ease-In-Ease-Out 微調(diào)方法可以成功地以樣本有效的方式進行微調(diào)碘梢。

Reinforcement Learning in Navigation

A Novel Hybrid Approach for Fault-Tolerant Control of UAVs Based on Robust Reinforcement Learning
近年來咬摇,復(fù)雜自主系統(tǒng)的控制得到了顯著改善,無人機(UAV)在研究界變得流行煞躬。盡管無人機的使用正在增加肛鹏,但仍有許多工作要保證這些車輛的容錯控制 (FTC) 特性《髋妫基于模型的控制器是控制無人機的標準方法在扰,但是為無人機在現(xiàn)實世界場景中可能遇到的每種可能的操作條件獲取系統(tǒng)和環(huán)境模型是不可行的。強化學習在控制復(fù)雜系統(tǒng)方面顯示出了希望雷客,但需要在系統(tǒng)的模擬器(需要模型)中進行訓(xùn)練芒珠。此外,基于學習的控制器不存在穩(wěn)定性保證搅裙,這限制了它們在現(xiàn)實世界中的大規(guī)模應(yīng)用皱卓。我們提出了一種新穎的混合 FTC 方法裹芝,該方法使用具有關(guān)鍵穩(wěn)定性保證的學習監(jiān)督控制器(連同低級 PID 控制器)。我們使用穩(wěn)健的強化學習方法來學習監(jiān)督控制參數(shù)并證明穩(wěn)定性娜汁。我們使用軌跡跟蹤實驗(在模擬中)對遭受轉(zhuǎn)子故障嫂易、風擾和嚴重位置和姿態(tài)噪聲的四軸飛行器進行了經(jīng)驗驗證我們的框架。

Deep Probabilistic Feature-Metric Tracking
來自 RGB-D 圖像的密集圖像對齊對于現(xiàn)實世界的應(yīng)用來說仍然是一個關(guān)鍵問題掐禁,尤其是在具有挑戰(zhàn)性的照明條件和寬基線設(shè)置下怜械。在這封信中,我們提出了一個新的框架來學習由卷積神經(jīng)網(wǎng)絡(luò) (CNN) 預(yù)測的逐像素深度特征圖和深度特征度量不確定性圖傅事,它們共同形成了兩個深度概率特征度量殘差缕允。可以在從粗到細的優(yōu)化框架中使用 Gauss-Newton 最小化的視圖約束蹭越。此外障本,我們的網(wǎng)絡(luò)預(yù)測了一個深度初始姿勢,以實現(xiàn)更快响鹃、更可靠的收斂彼绷。優(yōu)化步驟是可區(qū)分的,并且展開以端到端的方式進行訓(xùn)練茴迁。由于其概率本質(zhì)寄悯,我們的方法可以很容易地與其他殘差耦合,我們展示了與 ICP 的組合堕义。實驗結(jié)果證明了 TUM RGB-D 數(shù)據(jù)集和 3D 剛性對象跟蹤數(shù)據(jù)集的最新性能猜旬。我們進一步定性地證明了我們方法的魯棒性和收斂性。

Using Reinforcement Learning to Create Control Barrier Functions for Explicit Risk Mitigation in Adversarial Environments
空戰(zhàn)是由訓(xùn)練有素的專業(yè)人員操作精密設(shè)備進行的高風險活動倦卖。在此活動期間洒擦,必須進行一些權(quán)衡,例如風險和效率之間的平衡怕膛。將風險最小化的政策可能具有非常低的效率熟嫩,而最大化效率的政策可能涉及非常高的風險。在這項研究中褐捻,我們使用強化學習 (RL) 創(chuàng)建控制屏障函數(shù) (CBF)掸茅,以捕獲當前風險,在飛機與敵方導(dǎo)彈之間的最壞情況未來分離柠逞。CBF 通常手動設(shè)計為封閉形式的表達式昧狮,但對于導(dǎo)彈等復(fù)雜系統(tǒng),這是不可能的板壮。相反逗鸣,我們使用高保真仿真模型來解決 RL 問題,以找到具有 CBF 屬性的值函數(shù),然后可以用來保證真實空戰(zhàn)情況下的安全撒璧。我們還提供了關(guān)于哪些 RL 問題系列導(dǎo)致可以以這種方式用作 CBF 的價值函數(shù)的理論分析透葛。所提出的方法允許飛行員在空戰(zhàn)場景中設(shè)置被認為可接受的暴露水平并持續(xù)監(jiān)控與風險相關(guān)的風險為了他/她自己的安全。給定關(guān)于可接受風險的輸入卿樱,系統(tǒng)將飛行員的選擇限制為保證未來滿足所提供界限的選擇获洲。

Edge Computing in 5G for Drone Navigation: What to Offload?
使用相機導(dǎo)航的小型無人機可能會因機載計算能力低而限制其速度和敏捷性。我們評估邊緣計算在 5G 中對這種自主導(dǎo)航的作用殿如。使用基于視覺的導(dǎo)航算法研究將圖像處理任務(wù)卸載到邊緣服務(wù)器。比較了三種計算模式:板載最爬、完全卸載到邊緣和部分卸載涉馁。與完全卸載相比,部分卸載對通信網(wǎng)絡(luò)的傳輸速率要求較低爱致,但需要一些板載處理烤送。我們的計算時間結(jié)果有助于根據(jù)網(wǎng)絡(luò)條件選擇最適合圖像處理的模式,即是否卸載以及卸載什么糠悯。

Robotic Learning with Visual Signal

Approximate Inverse Reinforcement Learning from Vision-Based Imitation Learning
在這項工作中帮坚,我們提出了一種獲得基于視覺的導(dǎo)航的隱式目標函數(shù)的方法。所提出的方法依賴于模仿學習互艾、模型預(yù)測控制 (MPC) 和深度神經(jīng)網(wǎng)絡(luò)中使用的解釋技術(shù)试和。我們使用模仿學習作為進行逆向強化學習的一種手段,以便為視覺導(dǎo)航挑戰(zhàn)創(chuàng)建一個近似的成本函數(shù)生成器纫普。由此產(chǎn)生的成本函數(shù)成本圖與 MPC 一起用于實時控制阅悍,并且在新環(huán)境中優(yōu)于其他最先進的成本圖生成器。所提出的過程允許簡單的訓(xùn)練和對樣本外數(shù)據(jù)的魯棒性昨稼。我們將我們的方法應(yīng)用于多個真實和模擬環(huán)境中基于視覺的自動駕駛?cè)蝿?wù)节视,并展示了其普遍性。
https://youtu.be/WyJfT5lc0aQ

Soft Robotics: Control

Deep Reinforcement Learning Framework for Underwater Locomotion of Soft Robot
軟體機器人是一門新興技術(shù)假栓,具有良好的應(yīng)用前景寻行。然而,由于用于制造軟體機器人的材料的固有柔順性匾荆,精確控制軟體機器人極為復(fù)雜拌蜘。在本文中,我們介紹了一種基于數(shù)據(jù)的控制框架牙丽,用于使用深度強化學習 (DRL) 解決軟機器人水下運動問題拦坠。我們首先基于介電彈性體致動器(DEA)構(gòu)建了一個可以游泳的軟機器人。然后剩岳,我們在模擬中對其進行建模贞滨,以訓(xùn)練神經(jīng)網(wǎng)絡(luò),并通過機器人的實際實驗測試控制框架的性能。該框架包括以下內(nèi)容:一種可用于收集數(shù)據(jù)以訓(xùn)練神經(jīng)網(wǎng)絡(luò)的軟機器人仿真方法晓铆,在模擬環(huán)境中訓(xùn)練的游泳機器人的神經(jīng)網(wǎng)絡(luò)控制器勺良,以及使用相機從真實機器人收集觀察空間的計算機視覺方法。我們通過允許機器人學習如何從隨機初始狀態(tài)移動到特定方向骄噪,證實了該學習方法在模擬環(huán)境中的有效性尚困。通過仿真得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)后,我們將其部署在真實機器人上链蕊,并測試了控制框架的性能事甜。軟體機器人成功實現(xiàn)了在擾動水中直線運動的目標。實驗結(jié)果表明使用深度強化學習來提高移動軟機器人的運動能力的潛力滔韵。以及使用相機從真實機器人收集觀察空間的計算機視覺方法逻谦。我們通過允許機器人學習如何從隨機初始狀態(tài)移動到特定方向,證實了該學習方法在模擬環(huán)境中的有效性陪蜻。通過仿真得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)后邦马,我們將其部署在真實機器人上,并測試了控制框架的性能宴卖。軟體機器人成功實現(xiàn)了在擾動水中直線運動的目標滋将。實驗結(jié)果表明使用深度強化學習來提高移動軟機器人的運動能力的潛力。

Task Planning

Meta-Adversarial Inverse Reinforcement Learning for Decision-Making Tasks
在過去幾年中症昏,從示范中學習取得了很大進展随闽。但是,它通常需要大量數(shù)據(jù)且特定于任務(wù)肝谭。換句話說橱脸,在特定任務(wù)上訓(xùn)練一個體面的模型需要大量數(shù)據(jù),并且該模型通常無法泛化到具有不同分布的新任務(wù)分苇。在實踐中添诉,將不斷觀察來自新任務(wù)的演示,并且數(shù)據(jù)可能未標記或僅部分標記医寿。因此栏赴,訓(xùn)練后的模型需要適應(yīng)可用數(shù)據(jù)樣本有限的新任務(wù)。在這項工作中靖秩,我們構(gòu)建了一個基于元學習和對抗性逆強化學習(Meta-AIRL)集成的適應(yīng)性模仿學習模型须眷。我們利用對抗學習和逆強化學習機制從可用的訓(xùn)練任務(wù)中同時學習策略和獎勵函數(shù),然后使用元學習框架將它們適應(yīng)新任務(wù)沟突。仿真結(jié)果表明花颗,使用 Meta-AIRL 訓(xùn)練的自適應(yīng)策略可以有效地從有限數(shù)量的演示中學習,并在未見過的任務(wù)上迅速達到與專家相媲美的性能惠拭。

Vision and Perception: Learning

Generalization in Reinforcement Learning by Soft Data Augmentation
通過域隨機化和數(shù)據(jù)增強來提高強化學習 (RL) 方法的泛化能力已經(jīng)做出了廣泛的努力扩劝。然而庸论,隨著訓(xùn)練過程中引入更多的變異因素,優(yōu)化變得越來越具有挑戰(zhàn)性棒呛,并且根據(jù)經(jīng)驗可能會導(dǎo)致樣本效率降低和訓(xùn)練不穩(wěn)定聂示。我們提出了 SOft Data Augmentation (SODA),而不是直接從增強數(shù)據(jù)中學習策略簇秒,這是一種將增強與策略學習分離的方法鱼喉。具體來說,SODA 對編碼器施加了軟約束趋观,旨在最大化增強和非增強數(shù)據(jù)的潛在表示之間的互信息扛禽,而 RL 優(yōu)化過程使用嚴格的非增強數(shù)據(jù)

Vision and Perception: Navigation

Autonomous Multi-View Navigation Via Deep Reinforcement Learning
在本文中,我們提出了一種新穎的深度強化學習(DRL)系統(tǒng)皱坛,用于移動機器人的自主導(dǎo)航编曼,該系統(tǒng)由三個模塊組成:地圖導(dǎo)航、多視圖感知和多分支控制麸恍。我們的 DRL 系統(tǒng)將全局規(guī)劃器提供的路線圖和多攝像頭設(shè)置捕獲的三個 RGB 圖像作為輸入,以分別收集全局和局部信息搀矫。特別是抹沪,我們提出了一種基于注意力機制的多視圖感知模塊,以過濾掉由多攝像頭感知引起的冗余信息瓤球。我們還通過專門設(shè)計的網(wǎng)絡(luò)將原始 RGB 圖像替換為低維表示融欧,這有利于更強大的 sim2real 遷移學習。在模擬和現(xiàn)實世界場景中的大量實驗表明卦羡,我們的系統(tǒng)優(yōu)于最先進的方法噪馏。

Towards Multi-Modal Perception-Based Navigation: A Deep Reinforcement Learning Method
在這封信中,我們提出了一種基于深度強化學習的用于局部路徑規(guī)劃的新型無人地面車輛 (UGV) 導(dǎo)航系統(tǒng)绿饵。導(dǎo)航系統(tǒng)將感知與控制解耦欠肾,并利用多模態(tài)感知與 UGV 周圍環(huán)境進行可靠的在線交互,從而實現(xiàn)直接策略學習以生成靈活的動作以避免與導(dǎo)航中的障礙物發(fā)生碰撞拟赊。通過將原始 RGB 圖像替換為其語義分割圖作為輸入并應(yīng)用多模態(tài)融合方案刺桃,我們僅在模擬中訓(xùn)練的系統(tǒng)可以處理包含車輛和行人等動態(tài)障礙物的真實場景。我們還引入了模態(tài)分離學習來加速訓(xùn)練并進一步提高性能吸祟。大量實驗表明瑟慈,我們的方法縮小了模擬環(huán)境和真實環(huán)境之間的差距,展示了優(yōu)于最先進方法的優(yōu)勢屋匕。請參閱 https://vsislab.github.io/mmpbnv1/ 了解模擬和現(xiàn)實環(huán)境中 UGV 導(dǎo)航的補充視頻演示葛碧。

Visual Navigation in Real-World Indoor Environments Using End-To-End Deep Reinforcement Learning
視覺導(dǎo)航對于機器人中的許多應(yīng)用都是必不可少的,從操縱到移動機器人再到自動駕駛过吻。深度強化學習(DRL)提供了一種巧妙的無地圖方法进泼,將圖像處理、定位和規(guī)劃集成在一個模塊中,該模塊可以進行訓(xùn)練缘琅,從而針對給定的環(huán)境進行優(yōu)化粘都。然而,到目前為止刷袍,基于DRL的視覺導(dǎo)航只在模擬中得到驗證翩隧,模擬器提供真實世界中無法獲得的信息,例如機器人的位置或圖像分割掩模呻纹。這就排除了在真實機器人上使用學習策略的可能性堆生。因此,我們提出了一種新的方法雷酪,可以將訓(xùn)練好的策略直接部署到真實機器人上淑仆。我們設(shè)計了可視化的輔助任務(wù),量身定做的獎勵方案哥力,以及一個新的強大的模擬器蔗怠,以促進領(lǐng)域隨機化。這項政策是根據(jù)從現(xiàn)實環(huán)境中收集的圖像進行微調(diào)的吩跋。我們在一個真實的辦公環(huán)境中對該方法進行了評估寞射。在單個GPU上進行培訓(xùn)需要大約30個小時。在30個導(dǎo)航實驗中锌钮,86.7%以上的情況下機器人能到達目標附近0.3米的距離桥温。

Visual Learning

Vision-Based Mobile Robotics Obstacle Avoidance with Deep Reinforcement Learning
避障是移動機器人自主導(dǎo)航的一個基本且具有挑戰(zhàn)性的問題。在本文中梁丘,我們考慮了機器人必須完全依賴單個單目相機的簡單 3D 環(huán)境中的避障問題侵浸。特別是,我們有興趣在不依賴定位氛谜、映射或規(guī)劃技術(shù)的情況下解決這個問題掏觉。大多數(shù)現(xiàn)有工作將避障視為兩個獨立的問題,即障礙物檢測和控制值漫。受最近 Atari 游戲中深度強化學習的優(yōu)勢和理解圍棋中高度復(fù)雜的情況的啟發(fā)履腋,我們將避障問題作為一種數(shù)據(jù)驅(qū)動的端到端深度學習方法來解決。我們的方法將原始圖像作為輸入并生成控制命令作為輸出惭嚣。我們表明遵湖,在類似迷宮的環(huán)境中,就預(yù)期平均獎勵而言晚吞,離散動作空間的性能優(yōu)于連續(xù)控制命令延旧。此外,我們展示了如何通過生成對抗網(wǎng)絡(luò)結(jié)合預(yù)測的深度圖來加速學習并提高策略的魯棒性槽地。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末迁沫,一起剝皮案震驚了整個濱河市芦瘾,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌集畅,老刑警劉巖近弟,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異挺智,居然都是意外死亡祷愉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門赦颇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來二鳄,“玉大人,你說我怎么就攤上這事媒怯《┧希” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵扇苞,是天一觀的道長欺殿。 經(jīng)常有香客問我,道長鳖敷,這世上最難降的妖魔是什么脖苏? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮哄陶,結(jié)果婚禮上帆阳,老公的妹妹穿的比我還像新娘哺壶。我一直安慰自己屋吨,他們只是感情好,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布山宾。 她就那樣靜靜地躺著至扰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪资锰。 梳的紋絲不亂的頭發(fā)上敢课,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天,我揣著相機與錄音绷杜,去河邊找鬼直秆。 笑死,一個胖子當著我的面吹牛鞭盟,可吹牛的內(nèi)容都是我干的圾结。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼齿诉,長吁一口氣:“原來是場噩夢啊……” “哼筝野!你這毒婦竟也來了晌姚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤歇竟,失蹤者是張志新(化名)和其女友劉穎挥唠,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體焕议,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡宝磨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了号坡。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片懊烤。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖宽堆,靈堂內(nèi)的尸體忽然破棺而出腌紧,到底是詐尸還是另有隱情,我是刑警寧澤畜隶,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布壁肋,位于F島的核電站,受9級特大地震影響籽慢,放射性物質(zhì)發(fā)生泄漏浸遗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一箱亿、第九天 我趴在偏房一處隱蔽的房頂上張望跛锌。 院中可真熱鬧,春花似錦届惋、人聲如沸髓帽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽郑藏。三九已至,卻和暖如春瘩欺,著一層夾襖步出監(jiān)牢的瞬間必盖,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工俱饿, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留歌粥,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓拍埠,卻偏偏與公主長得像失驶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子械拍,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容