https://arxiv.org/pdf/1905.09025.pdf
工作來自于:
ARC Centre for Excellence for Robot Vision
Monash University, Australia
University of Adelaide, Australia
此工作把"眼在手"的相機(jī)圖像使用CNN端到端映射到UR機(jī)械臂末端的速度寸宵。在16分鐘內(nèi)冤灾,使用遙控器人工控制機(jī)械臂從不同的初始角度,是否能在1分鐘內(nèi)移動到水杯上方的目標(biāo)位置爷恳。
輸入圖像 224*224 像素
使用ResNet,把全局平均池化和全連接層用1*1的卷積層替換了歉秫,for channel reduction瑰艘。這里輸出的表示分類概率,而是6個(gè)浮點(diǎn)數(shù)僧须,表示的是執(zhí)行器末端的twist纲刀。
總結(jié):這個(gè)demonstration可以為data-inefficient 的RL方法提供給一個(gè)快速學(xué)習(xí)到的initial policy.