近年來摩幔,隨著機器人研究的不斷發(fā)展,需要機器人實現(xiàn)的功能越來越多鞭铆,對應(yīng)的行為也越來越復(fù)雜或衡,簡單的運動控制已經(jīng)不能滿足需求,尤其是對于一些不易獲取運動規(guī)律的任務(wù)车遂,傳統(tǒng)控制方法根本無法實現(xiàn)封断。這要求機器人具備更高的學(xué)習(xí)能力,可以與環(huán)境形成動態(tài)交互以應(yīng)對未知情況舶担。
利用機器學(xué)習(xí)可以解決解決機器人應(yīng)用問題坡疼,即可以在傳統(tǒng)方法失效時找到有效策略完成任務(wù)。機器學(xué)習(xí)算法可以分為三大類:有監(jiān)督學(xué)習(xí)衣陶、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)柄瑰。其中強化學(xué)習(xí)往往被用來處理復(fù)雜的決策任務(wù),但是往往決策空間巨大剪况,強化學(xué)習(xí)需要不斷地試錯教沾,因此樣本復(fù)雜度往往很高,從而限制強化學(xué)習(xí)在一些場景的應(yīng)用译断。
而強化學(xué)習(xí)的一個分支-模仿學(xué)習(xí)則是直接從專家樣本中學(xué)習(xí)授翻,由于有比較高質(zhì)量的決策行為數(shù)據(jù),模仿學(xué)習(xí)(Imitation Learning)被認(rèn)為是可以降低樣本復(fù)雜度的一個手段孙咪。模仿學(xué)習(xí)又被稱作示教學(xué)習(xí)(Learning from Demenstration)堪唐,通過示教者的動作和編碼回歸得到一條優(yōu)化的機器人軌跡。模仿學(xué)習(xí)時示教者根據(jù)任務(wù)要求進行軌跡示教翎蹈,并通過相應(yīng)的方式記錄示教軌跡淮菠。
模仿學(xué)習(xí)可以分為以下過程:人類進行示教,機器人獲取示教軌跡數(shù)據(jù)杨蛋,利用學(xué)習(xí)模型進行理解兜材,得到控制策略理澎,然后機器人作為執(zhí)行器控制運動再現(xiàn)行為,實現(xiàn)運動技能學(xué)習(xí)曙寡。[1]
行為獲取-獲得示教軌跡數(shù)據(jù)后糠爬,首先需要進行預(yù)處理,進行運動分割举庶、降維执隧、濾波、特征提取等處理户侥,將預(yù)處理后的數(shù)據(jù)作為學(xué)習(xí)模型輸入镀琉,為編碼做準(zhǔn)備。
行為表述-行為表述即為編碼過程蕊唐,研究如何將觀察到的示教行為映射到機器人系統(tǒng)上屋摔,有效的表述方法需要具備一定的泛化能力和魯棒性,能把學(xué)習(xí)到的能力應(yīng)用在新環(huán)境中替梨,并且具有一定抗干擾的能力钓试。
行為再現(xiàn)-對于機器人模仿學(xué)習(xí),需要評估模仿性能的度量副瀑。然后通過底層運動控制弓熏,將學(xué)習(xí)到的控制策略映射到機器人的執(zhí)行器空間,實現(xiàn)真正意義的可再現(xiàn)糠睡。
模仿學(xué)習(xí)中挽鞠,示教數(shù)據(jù)(運動軌跡)的獲取是訓(xùn)練模型的基礎(chǔ),在研究中采集示教數(shù)據(jù)的途徑主要有三種[2]:
1)拖動示教狈孔。拖動示教是通過人實際移動機器人完成所需動作來進行演示信认。過程中的狀態(tài)信息(比如關(guān)節(jié)角度和扭矩等)通過機器人的機載傳感器記錄,從而為機器學(xué)習(xí)模型生成訓(xùn)練數(shù)據(jù)均抽。這種方法比較直觀狮杨,對用戶要求也較低,在輕型工業(yè)機器人場景中使用廣泛到忽。但是這種方法的演示質(zhì)量取決于操作者動作的靈活性和流暢性,即使是專家操作者操作獲取的數(shù)據(jù)也需要平滑或其他后處理清寇。此外受到形態(tài)因素限制喘漏,這種方式對機械臂最有效,但是在其他平臺(比如腿式機器人或靈巧手等)使用拖拽示教的難度較大华烟。
2)遙操作翩迈。遙操作是另一種演示方法,可以用于軌跡學(xué)習(xí)盔夜、任務(wù)學(xué)習(xí)负饲、抓取或者更高級的任務(wù)堤魁。遙操作需要通過手柄、圖形界面或者其他方式向機器人提供外部輸入返十。目前已存在多種交互設(shè)備(比如觸覺設(shè)備或VR交互設(shè)備等)妥泉。與拖拽示教不同,遙操作不需要用戶與機器人在同一現(xiàn)場洞坑,可以遠(yuǎn)程實現(xiàn)盲链。遙操作的局限性包括需要開發(fā)輸入界面等額外工作、需要更長時間的用戶培訓(xùn)過程以及外部設(shè)備帶來的可用性風(fēng)險迟杂。
3)被動觀察刽沾。被動觀察主要是機器人通過觀察演示者動作進行學(xué)習(xí)。演示者利用自己的身體完成任務(wù)排拷,利用外部設(shè)備捕捉演示者的動作(演示者身體或操作的目標(biāo)物)數(shù)據(jù)侧漓,其中最有效的數(shù)據(jù)獲取方式為被動式光學(xué)動作捕捉。機器人在此過程中不參與任務(wù)執(zhí)行监氢,只是作為被動觀察者布蔗。這種方式對于演示者最為輕松,對于演示過程不需要任何訓(xùn)練忙菠。這種方式也適用于具有多自由度的機器人以及非擬人機器人(這些場景很難使用拖拽示教方法)何鸡。這種方法需要將人類動作映射到機器人可執(zhí)行的動作,其中存在的困難包括演示過程中的遮擋牛欢、快速移動和傳感器噪聲等骡男。
NOKOV度量動作捕捉系統(tǒng)采用被動紅外光學(xué)原理,通過捕捉粘貼在人體軀干(或操作的目標(biāo)物)上的反光標(biāo)志點來獲取運動數(shù)據(jù)傍睹。NOKOV動作捕捉系統(tǒng)的定位精度高隔盛,靜態(tài)重復(fù)精度達(dá)到0.037mm,絕對精度可以達(dá)到0.087mm拾稳,直線動態(tài)軌跡誤差可以達(dá)到0.2mm吮炕,圓弧軌跡誤差0.22mm[3]。此外NOKOV度量動作捕捉系統(tǒng)在滿分辨率情況下的采樣頻率最高可以達(dá)到380Hz访得,滿足對高運動速度演示進行數(shù)據(jù)采集的需求龙亲。NOKOV工程師有5年以上的項目經(jīng)驗,對于不同的場地情況可以給出定制化方案悍抑,使實驗過程中的遮擋影響降到最小鳄炉。
目前國外研究模仿學(xué)習(xí)知名的機構(gòu),比如瑞士聯(lián)邦理工學(xué)院(EPFL)的LASA實驗室搜骡、意大利技術(shù)研究院機器人實驗室拂盯、德國達(dá)姆施塔特大學(xué)Prof. Jan Peters團隊等,都使用了動作捕捉系統(tǒng)作為獲取示教軌跡數(shù)據(jù)的重要手段记靡。
動作捕捉應(yīng)用于示教學(xué)習(xí)案例舉例
哈爾濱工業(yè)大學(xué)-3C裝配任務(wù)精確控制
研究人員通過模仿學(xué)習(xí)方法提出一種有效的離線編程技術(shù)以實現(xiàn)3C裝配線的自動化[4]谈竿。該過程包括兩個階段团驱,第一階段,NOKOV度量光學(xué)動作捕捉設(shè)備用于捕獲在裝配過程中人手的位姿信息空凸;第二階段嚎花,通過學(xué)習(xí)這些演示數(shù)據(jù)設(shè)計機器人控制策略,首先利用基于密度的空間聚類啟發(fā)軌跡分割算法和基于局部離群因子的異常點檢測算法對演示數(shù)據(jù)進行預(yù)處理劫恒,然后從已處理的數(shù)據(jù)中通過基于高斯混合模型的概率學(xué)習(xí)策略學(xué)習(xí)人類裝配技能贩幻,從而驅(qū)動機器人在新環(huán)境下完成相同的裝配任務(wù)。
演示數(shù)據(jù)由NOKOV度量光學(xué)動作捕捉設(shè)備獲得两嘴,該平臺能夠跟蹤粘貼在操作人員手上的三個反光標(biāo)記點丛楚,操作簡單,可以直觀記錄人工裝配動作憔辫,并借用強化學(xué)習(xí)的框架提出一種迭代路徑優(yōu)化技術(shù)趣些。研究通過演示一條簡單的拾取-放置(pick-and-place)裝配路徑驗證了迭代路徑優(yōu)化策略的有效性。
重慶郵電大學(xué)-基于模仿學(xué)習(xí)手術(shù)機器人縫合技能建模方法
手術(shù)輔助機器人可以幫助外科醫(yī)生克服傳統(tǒng)手術(shù)在操作精度贰您、工作空間坏平、距離和協(xié)同工作等方面的難點。為了讓手術(shù)機器人系統(tǒng)實現(xiàn)像醫(yī)生一樣高質(zhì)量的自動化操作锦亦,一項重要的基礎(chǔ)工作是建立手術(shù)操作模型舶替。
為此,重慶郵電大學(xué)的楊德偉老師團隊以淺表組織縫合為建模對象杠园,進行了縫合技能學(xué)習(xí)和建模研究[5]顾瞪。為了獲取醫(yī)生縫合手術(shù)演示過程中的數(shù)據(jù),研究人員建立了一套縫合手術(shù)演示采集系統(tǒng)抛蚁。
系統(tǒng)包含一套NOKOV度量動作捕捉系統(tǒng)陈醒、手術(shù)鉗、縫合針瞧甩、線和傷口模型钉跷。根據(jù)DMPs方法將動作捕捉系統(tǒng)采集到的軌跡數(shù)據(jù)分為幾個動態(tài)過程,利用示教者的操作軌跡數(shù)據(jù)去訓(xùn)練DMPs模型肚逸,最終驗證了該方法對縫合過程的建模能力和對新場景的適應(yīng)性爷辙。
武漢大學(xué)-軌跡預(yù)測
武漢大學(xué)的軌跡預(yù)測相關(guān)研究,以球狀飛行物體為研究對象朦促,研究內(nèi)容包括運動目標(biāo)的實時識別犬钢、定位與軌跡預(yù)測,通過搭建LSTM網(wǎng)絡(luò)模型思灰,對模型進行訓(xùn)練和測試,解決了球狀飛行物體的識別與定位以及軌跡預(yù)測問題[6]混滔。
實驗采用Kinect深度相機和8鏡頭NOKOV度量動作捕捉系統(tǒng)方案搭建系統(tǒng)硬件平臺洒疚,采用 ROS系統(tǒng)作為機器人的軟件平臺歹颓,并對系統(tǒng)進行標(biāo)定。標(biāo)定對象包括包括 Kinect 深度相機的內(nèi)參標(biāo)定油湖,以及 Kinect 與 NOKOV 度量動作捕捉系統(tǒng)的聯(lián)合標(biāo)定巍扛。
運動目標(biāo)識別采用基于混合高斯模型的背景差分法對運動目標(biāo)進行識別,對運動目標(biāo)進行相平面定位以獲取對應(yīng)像素點的點云信息乏德,采用高斯牛頓法擬合點云質(zhì)心獲取運動目標(biāo)的空間坐標(biāo)撤奸,結(jié)合卡爾曼濾波對質(zhì)心運動軌跡進行優(yōu)化。
實驗中,研究人員采用基于RNN 的運動目標(biāo)軌跡預(yù)測方法喊括,利用NOKOV度量動作捕捉系統(tǒng)采集1000條運動目標(biāo)完整運動軌跡胧瓜,并將數(shù)據(jù)集80%的軌跡序列用于訓(xùn)練,20%的軌跡序列用于測試郑什。最后將所搭建網(wǎng)絡(luò)應(yīng)用于不規(guī)則運動目標(biāo)乒乓球拍的軌跡預(yù)測中府喳,證明了所搭建網(wǎng)絡(luò)的泛化能力。
參考文獻(xiàn):
[1]于建均,門玉森,阮曉鋼,徐驄馳.模仿學(xué)習(xí)在機器人仿生機制研究中的應(yīng)用[J].北京工業(yè)大學(xué)學(xué)報,2016,42(02):210-216.
[2] Recent Advances in Robot Learning fromDemonstration Harish Ravichandar, Athanasios S. Polydoros, Sonia Chernova, AudeBillard?Annual Review of Control, Robotics, andAutonomous Systems 2020 3:1, 297-330.
[3] H. Hu, Z. Cao, X. Yang, H. Xiong and Y.Lou, "Performance Evaluation of Optical Motion Capture Sensors forAssembly Motion Capturing," in IEEE Access, vol. 9, pp. 61444-61454, 2021,doi: 10.1109/ACCESS.2021.3074260.
[4] Z. Zhao, H. Hu, X. Yang and Y. Lou,"A Robot Programming by Demonstration Method for Precise Manipulation in3C Assembly," 2019 WRC Symposium on Advanced Robotics and Automation (WRCSARA), 2019, pp. 172-177, doi: 10.1109/WRC-SARA.2019.8931947.
[5] D. Yang, Q. Lv, G. Liao, K. Zheng, J.Luo and B. Wei, "Learning from Demonstration: Dynamical MovementPrimitives Based Reusable Suturing Skill Modelling Method," 2018 ChineseAutomation Congress (CAC), 2018, pp. 4252-4257, doi: 10.1109/CAC.2018.8623781.
[6]楊明輝. 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的運動目標(biāo)軌跡預(yù)測[D].武漢大學(xué),2019.