姓名:韓宜真
學(xué)號(hào):17020120095
轉(zhuǎn)載自:http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650802504&idx=4&sn=f7bad9bcf4ab0225eb88bf9a22539fdf&chksm=84e5cd36b3924420413405a3e4070d9366594d9fce9d0dcf6e8640656666cd4b9c1b9aa36e94&mpshare=1&scene=23&srcid=1117JD7sbcHYMfhbifSxGBpU&sharer_sharetime=1605622777651&sharer_shareid=3f1a3081900d54d7638a82ca5b9e8a0d#rd
【嵌牛導(dǎo)讀】人類對(duì)于杯子的用途和如何把它拿起來(lái)是很容易理解的捉蚤,但這件事對(duì)于機(jī)器人來(lái)說(shuō)卻不然。
【嵌牛鼻子】視覺(jué)任務(wù) 神經(jīng)網(wǎng)絡(luò)?
【嵌牛提問(wèn)】機(jī)器人是怎么抓住杯子的呢炼七?
【嵌牛正文】如何推理一個(gè)物體的 Affordance 是機(jī)器人相關(guān)研究的一個(gè)重點(diǎn)關(guān)注方向缆巧。在具體的 Affordance 中,抓韧阕尽(grasping)又是格外重要的一個(gè)功能陕悬。
前言
作為最早提出 Affordance 這一概念的學(xué)者,James Gibson 在他的書(shū) [1] 中正式定義了 Affordance:
Affordance 是環(huán)境所允許個(gè)人能實(shí)現(xiàn)的功能(Affordance is what the environment offers the individual)按傅。
不過(guò) Affordance 所最為人知的定義應(yīng)該是在他幾年后出版的書(shū) [2] 中的定義:
Afford 是在字典中存在的一個(gè)詞捉超,但 Affordance 不是。Affordance 是我個(gè)人創(chuàng)造出來(lái)的一個(gè)詞唯绍。Affordance 指代環(huán)境為動(dòng)物 / 人類提供的一種功能狂秦。我想用這個(gè)詞來(lái)表達(dá)環(huán)境和動(dòng)物 / 人類的互補(bǔ)性。
在中文語(yǔ)境下推捐,Affordance 可以大致理解為物體 / 環(huán)境的直觀功能裂问。雖然語(yǔ)意上比較難以理解,Affordance 卻是每個(gè)人在日常生活中下意識(shí)便會(huì)應(yīng)用的技能。舉例來(lái)說(shuō)堪簿,當(dāng)人類看到一個(gè)馬克杯的時(shí)候痊乾,他 / 她立刻就能夠理解杯子是可以用來(lái)盛物體的——不論是咖啡等液體還是固體——并且馬克的杯柄可以被抓握。除此之外椭更,假如人類看到茶杯哪审、玻璃杯、酒杯等任何非馬克杯的物體虑瀑,也不會(huì)因此而無(wú)法推斷該物體是否還能夠盛物體湿滓。人類幾乎天然就理解小型物體上的柄可以被抓握和應(yīng)該從那個(gè)角度抓握。人類也可以輕易理解門(mén)上的把手是用來(lái)推或拉的舌狗,掛鉤上的鉤子是用來(lái)掛東西的叽奥、家用電器上的按鈕是用來(lái)按(或者扭)的。設(shè)計(jì)師在設(shè)計(jì)產(chǎn)品時(shí)也必須將物體的 Affordance (直觀功能)和如何引導(dǎo)用戶理解物體的 Affordance 納入考慮中痛侍。不信朝氓?請(qǐng)移步設(shè)計(jì)師 Katerina Kamprani 精心設(shè)計(jì)的「不舒服」的產(chǎn)品一覽究竟。
設(shè)計(jì)師 Katerina Kamprani 設(shè)計(jì)的一系列讓人感覺(jué)「不舒服」的產(chǎn)品主届,其實(shí)就是違反了一個(gè)物件應(yīng)該有的 Affordance(圖源:https://www.theuncomfortable.com)
雖然 Affordance 是人類與生俱來(lái)的技能點(diǎn)赵哲,機(jī)器人卻沒(méi)有這樣的「運(yùn)氣」。由于機(jī)器人本質(zhì)上只是在運(yùn)行人類開(kāi)發(fā)的軟件而不能進(jìn)行真正的推理——至少目前還是這樣——機(jī)器人對(duì) Affordance 的理解取決于人類在這一領(lǐng)域的研究進(jìn)展君丁。實(shí)際上枫夺,機(jī)器人領(lǐng)域的研究已經(jīng)證明了 Affordance 遠(yuǎn)遠(yuǎn)不止是只存在于書(shū)本中的心理學(xué)概念。具體來(lái)說(shuō)绘闷,物體的抓取和操縱中筷屡,機(jī)器人需要通過(guò)視覺(jué)線索和經(jīng)驗(yàn)中學(xué)習(xí)周圍環(huán)境中物體的 Affordance,包括是否可以操縱物體簸喂、如何抓握物體以及學(xué)習(xí)操作對(duì)象以達(dá)到特定目標(biāo)毙死。?
不難看出,如何推理一個(gè)物體的 Affordance 是相關(guān)研究的一個(gè)重點(diǎn)關(guān)注方向喻鳄。在具體的 Affordance 中扼倘,抓取(grasping)又是格外重要的一個(gè)功能除呵。這兩點(diǎn)將是本文的討論重點(diǎn)再菊。
推理
推理(reasoning)Affordance 很好理解,即推斷一個(gè)物體的 Affordance —— 不論是通過(guò)視覺(jué)上的線索颜曾,還是通過(guò)過(guò)去的經(jīng)驗(yàn)知識(shí)纠拔。機(jī)器人需要理解有柄的物體可以抓握,帶有凹陷的物體可以盛物品泛豪。
推理物體的 Affordance 可以簡(jiǎn)單分為推理單一物體的 Affordance 和推理多個(gè)物體的 Affordance稠诲。由于多個(gè)物體間可能存在互動(dòng) (interaction)侦鹏,Affordance 的推理很容易就會(huì)變得非常復(fù)雜。本文將集中于單一物體的 Affordance 推理臀叙。
兩個(gè)物體之間可能有互動(dòng)(interaction)略水,從而改變了物體的 Affordance。(圖源:https://www.theuncomfortable.com)
具體來(lái)說(shuō)劝萤,學(xué)習(xí)推理單一物體 Affordance 的方法可以分為三類:通過(guò)模擬(simulation)渊涝、通過(guò)視覺(jué)特征(visual features)、和通過(guò)構(gòu)建知識(shí)圖譜(knowledge graph)床嫌。
通過(guò)模擬(simulation)
在 [3] 中跨释,Hongtao Wu 和 Gregory S. Chirikjian 利用模擬物體落入容器中的物理過(guò)程來(lái)對(duì)開(kāi)放式容器——即無(wú)蓋的容器,杯子厌处、碗鳖谈、碟等——的容納性 (containability affordance)進(jìn)行推理。還是用水杯舉例嘱蛋,當(dāng)機(jī)器人面對(duì)一個(gè)水杯時(shí)蚯姆,需要模擬從水杯上方傾倒物體的結(jié)果——物體是會(huì)落到桌面上還是會(huì)落到水杯內(nèi)五续?假如機(jī)器人面對(duì)的是一個(gè)沒(méi)有杯底的水杯洒敏,結(jié)果是什么?
整個(gè)實(shí)驗(yàn)中疙驾,作者使用了一個(gè)具有抓握功能的機(jī)器手凶伙,并在其上安裝了 RGB-D 攝像機(jī)來(lái)對(duì)推理對(duì)象進(jìn)行掃描。在 RGB-D 攝像機(jī)下有一個(gè)透明的平臺(tái)它碎,被推理的物體將會(huì)被放置在其上函荣。具體設(shè)置如下圖所示。
實(shí)驗(yàn)設(shè)計(jì)(圖源:H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.)
實(shí)驗(yàn)過(guò)程中扳肛,不同的物體會(huì)被隨機(jī)放置在透明平臺(tái)上傻挂,機(jī)器手會(huì)依次移動(dòng)到 24 個(gè)預(yù)先設(shè)定好的位置上蒿辙,利用腕上安裝的 RGB-D 攝像機(jī)捕獲場(chǎng)景的深度圖像平窘。接下來(lái)作者使用? TSDF Fusion [12] 密集地重建場(chǎng)景。由于平臺(tái)是透明的折剃,相機(jī)的深度傳感器不會(huì)捕捉到該平臺(tái)套腹,被建模物體的 3D 重建會(huì)比較簡(jiǎn)單 —— 只要在重建的場(chǎng)景中剪切(crop)即可绪抛。生成的 3D 模型會(huì)被用于接下來(lái)的模擬中,如下圖中間所示电禀,算法需要模擬類似于 M&M 豆大小的灰色的小顆粒物體向被推理對(duì)象掉落的物理過(guò)程幢码,并計(jì)算究竟有多少顆粒會(huì)進(jìn)入到該物體內(nèi)并被容納以量化一個(gè)物體的容納性,即判斷一個(gè)物體是否是開(kāi)放式容器尖飞。若模擬結(jié)果顯示被推理物體內(nèi)不保有任何顆粒症副,則該物體不是開(kāi)放式容器店雅。在下圖例子中,算法對(duì)紙杯和一卷膠帶分別進(jìn)行了模擬瓦糕,結(jié)果顯示只有紙杯是開(kāi)放式物體底洗。若一個(gè)物體被判斷為開(kāi)放式容器,機(jī)器手還會(huì)再次進(jìn)行模擬咕娄,以推斷自己應(yīng)該倒入的位置和方向亥揖,然后將之付諸于行動(dòng)。
機(jī)器手對(duì)紙杯和膠帶的容納性進(jìn)行推理圣勒。(圖源:H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.)
作者利用 11 個(gè)物體對(duì)整個(gè)模擬算法(以 Imagination 代指)進(jìn)行了校準(zhǔn)费变,然后將其與利用深度學(xué)習(xí)對(duì) RGB 圖像進(jìn)行學(xué)習(xí)的 AffordanceNet [11] 進(jìn)行了比較。測(cè)試集包含 51 個(gè)物體——23 個(gè)開(kāi)放式容器和 28 個(gè)非開(kāi)放式容器圣贸,測(cè)試表現(xiàn)用 accuracy 和 AUC (area under curve)進(jìn)行衡量挚歧。下表中可以看出 AffordanceNet 和 作者所提出的模擬方法都在測(cè)試集上取得了非常好的表現(xiàn)。Imagination 的準(zhǔn)確度稍差吁峻,主要是因?yàn)閷?duì)被推理物體的 3D 建模不夠準(zhǔn)確滑负,從而導(dǎo)致生成的 3D 模型上出現(xiàn)了輕微凹陷,而凹陷部位可以容納小顆粒物體從而導(dǎo)致了物體被誤判為開(kāi)放式容器用含。另一些失敗的情況則比較模棱兩可矮慕,如湯匙,這種爭(zhēng)議在人類標(biāo)注者上也存在啄骇。另一方面痴鳄,由于使用了 RGB-D 相機(jī),Imagination 算法可以利用深度信息缸夹,這對(duì)推理和執(zhí)行傾倒這個(gè)動(dòng)作是有優(yōu)勢(shì)的痪寻。作者在之后進(jìn)行的一些實(shí)驗(yàn)也證明了這一點(diǎn)。
利用模擬來(lái)對(duì)物體的 Affordance 進(jìn)行學(xué)習(xí)的優(yōu)勢(shì)主要在于可解釋度高虽惭、對(duì)未知物體的魯棒性好橡类,難點(diǎn)則在于嵌入式開(kāi)發(fā)中的硬件設(shè)施、計(jì)算能力芽唇、模擬算法的準(zhǔn)確性等顾画。比如本文的實(shí)驗(yàn)中 (1)被推理物體需要一直處于深度傳感器的測(cè)量范圍內(nèi);(2)只能對(duì)物體的頂部和側(cè)面進(jìn)行建模披摄,因?yàn)闊o(wú)法機(jī)器手無(wú)法從被推理物體的下方進(jìn)行掃描亲雪;(3)模擬算法模擬的是離散的剛性顆粒,其他物體——比如水——?jiǎng)t具有完全不同的物理特性疚膊;(4)Affordance 的推理局限于物體的容納性义辕,如果想要將該研究延伸到新的 Affordance 如物體的抓握性,則需要完全的不同的模擬算法寓盗。
通過(guò)視覺(jué)特征(visual features)
由于人類主要通過(guò)視覺(jué)線索對(duì)物體的 Affordance 進(jìn)行推理灌砖,利用 RGB 照片建模的研究并不少見(jiàn)璧函,比如前文提到的 AffordanceNet。隨著深度學(xué)習(xí)的流行基显,不少研究會(huì)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)取代傳統(tǒng)的特征工程蘸吓。[4] 就是典型的一例。這篇研究有意思的地方在于作者特意選擇了專家演示的視頻組成數(shù)據(jù)集撩幽,利用人類理解物體 Affordance 的線索訓(xùn)練模型库继。如果 [4] 也使用的視頻中也有水杯,那么 CNN 就需要對(duì)專家演示中將茶水傾倒到水杯中和抓握杯柄將水杯端起來(lái)的片段理解水杯的容納功能和抓握功能窜醉。
專家演示的視頻來(lái)自互聯(lián)網(wǎng)上充斥著的大量的產(chǎn)品評(píng)論視頻 (product review videos)宪萄,其中很多視頻中會(huì)有一名「專家」——比如產(chǎn)品評(píng)論者——通過(guò)對(duì)產(chǎn)品對(duì)象的一系列操作來(lái)詳細(xì)演示產(chǎn)品功能。除了為消費(fèi)者們拔草種草外榨惰,這些視頻還為作者提供了新思路——用這些視頻組成能夠?yàn)闄C(jī)器人提供有關(guān) affordance 以及人們?nèi)绾闻c產(chǎn)品交互的大規(guī)模拜英、高質(zhì)量數(shù)據(jù)。
產(chǎn)品評(píng)論視頻中往往有一名「專家」在對(duì)產(chǎn)品進(jìn)行演示(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)
這種方法雖然從邏輯上看非忱糯撸可行居凶,但卻面臨兩個(gè)挑戰(zhàn):第一,這些視頻中的產(chǎn)品和機(jī)器人要面對(duì)的產(chǎn)品在外觀上可能有非常大的差異藤抡,如何保證機(jī)器人學(xué)到的 affordance 對(duì)產(chǎn)品外觀是穩(wěn)健的侠碧;第二,在視頻中「專家」和產(chǎn)品的交互并不頻繁杰捂,比如在上圖例子中幾乎只有第三幀中「專家」有對(duì)產(chǎn)品進(jìn)行操作舆床,還是在有大量的背景信息下進(jìn)行的棋蚌,機(jī)器人需要在其中辨別并學(xué)習(xí)真正有用的信息嫁佳。
作者提出的解決辦法是將模型(Demo2Vec)分解為演示編碼器(Demonstration encoder)和 affordance 預(yù)測(cè)器(affordance prediction),演示編碼器負(fù)責(zé)將演示視頻通過(guò)「演示嵌入」(demonstration embedding) 總結(jié)為了人類動(dòng)作和被推理物體外觀的低維向量谷暮,這里的需要解決的問(wèn)題主要是如何提取關(guān)于人與物體交互的有用視覺(jué)提示蒿往,如前文提到的,這種交互在視頻中比較稀疏 (「sparse」)湿弦, 且存在許多其他無(wú)關(guān)物體瓤漏。作者提出用卷積 LSTM 網(wǎng)絡(luò)(ConvLSTM)和 soft-attention 來(lái)組成演示編碼器。卷積 LSTM 網(wǎng)絡(luò)使用兩組信息作為輸入颊埃,一組是視頻幀蔬充,即正常的 RGB 圖像,另一組則是當(dāng)前的視頻幀和前一幀的差值(?x_t = x_t -x_{t-1})用以捕捉兩幀之間的動(dòng)態(tài)變化, 從而捕捉手部動(dòng)作的變化訊息班利。
接下來(lái)饥漫,卷積 LSTM 網(wǎng)絡(luò)的兩組輸出(RGB 特征和動(dòng)態(tài)特征)將會(huì)被輸入到 soft attention 模塊中,最終得到的注意力權(quán)重會(huì)與 RGB 特征相乘罗标,并對(duì)所有幀求和庸队,從而生成 demonstration embedding积蜻。利用 demonstration embedding,affordance 預(yù)測(cè)器 (predictor)將知識(shí)轉(zhuǎn)移到目標(biāo)圖像上預(yù)測(cè)被推理物體的交互區(qū)域和動(dòng)作標(biāo)簽彻消。
(a)模型概述竿拆。Demo2Vec 模型由一個(gè)演示編碼器和一個(gè) affordance 預(yù)測(cè)器組成。(b)演示編碼器宾尚。演示編碼器將輸入的演示視頻嵌入到低維向量丙笋,輸入圖像包括 RGB 圖像和 運(yùn)動(dòng)圖像 (motion modality),然后用 soft attention 將兩部分信息融合起來(lái)煌贴。affordance 預(yù)測(cè)器然后利用嵌入向量來(lái)預(yù)測(cè)目標(biāo)圖像中展示的物體的 affordance 和熱力圖(heat map)不见。(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)
訓(xùn)練后的模型在面對(duì)同一個(gè)演示視頻的不同時(shí)段,根據(jù)演示者的不同操作會(huì)對(duì)同一個(gè)物體推理出不同的 affordance崔步。在下圖給出的例子中稳吮,演示者在制作奶昔,并依次涉及到了四個(gè) affordance:拿拙簟(hold)灶似、拿起(pick up)、推(push)瑞你、拿起(pick up)酪惭。該視頻被分為 4 個(gè)短片(由不同顏色表示),模型能夠正確的根據(jù)演示理解 affordance 并且識(shí)別每個(gè) affordance 對(duì)應(yīng)的部位者甲。這和人類的表現(xiàn)更相似春感,能夠讓機(jī)器人更自然一些。
不同的演示可以令模型對(duì)同一物體推理出不同的 affordance(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)
但是虏缸,不可避免地鲫懒,當(dāng)演示視頻中出現(xiàn)許多雜物或其他和被推理物體十分相似的物體時(shí),模型很容易受到誤導(dǎo)刽辙。如下圖所示窥岩,演示人站在攝像機(jī)前占據(jù)了大部分畫(huà)面,并且遮擋了被推理物體宰缤,此時(shí)模型錯(cuò)誤的將物體的 Affordance 預(yù)測(cè)為 Hold(如圖中紅色方框所示)颂翼, 而實(shí)際上應(yīng)該是 Rotate(如圖中綠色方框所示)。
當(dāng)演示人遮擋了被推理物體時(shí)推理結(jié)果會(huì)出錯(cuò)(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)
此外慨灭,每次對(duì)物體的 affordance 進(jìn)行判斷時(shí)朦乏,演示視頻是必不可少的。而人類只需要對(duì)演示視頻觀看幾次就能夠直接對(duì)未知物體進(jìn)行推理氧骤。從這一點(diǎn)看利用模擬(simulation)的 [3] 的泛化能力要更好一點(diǎn)呻疹。但利用視覺(jué)線索仍然是最接近人類推理 Affordance 的方法之一。算力方面语淘,根據(jù)模型的不同——比如 [5] 直接用 RGB-D 圖像 3D 建幕逵睿——有可能對(duì)計(jì)算能力有很高的要求际歼。
通過(guò)構(gòu)建知識(shí)圖譜(knowledge graph)
可以看出,利用視覺(jué)信息 + CNN 的方法主要是試圖模擬人類學(xué)習(xí) Affordance 的過(guò)程姑蓝,但是由于 CNN 是黑箱模型鹅心,訓(xùn)練出來(lái)的模型可解釋性差。除此之外纺荧,絕大多數(shù)訓(xùn)練好的 CNN 本質(zhì)上仍是一個(gè)分類器旭愧,因而其能夠推理的 Affordance 也局限于訓(xùn)練數(shù)據(jù)所包含的 Affordance。使用構(gòu)建知識(shí)庫(kù)的方法則不一樣宙暇,由于物品的各項(xiàng)特征都被單獨(dú)標(biāo)記了出來(lái)用于最后的推理输枯,模型在可解釋性方面更有優(yōu)勢(shì),使用基于知識(shí)的表示形式便于對(duì)學(xué)習(xí)范圍進(jìn)行擴(kuò)展占贫。如果利用知識(shí)圖譜對(duì)水杯的 Affordance 進(jìn)行學(xué)習(xí)桃熄,得到的規(guī)則可能是「有柄的物體可以被抓握,有開(kāi)口并且有底的物體可以容納」型奥。
[6] 利用圖像和其他元數(shù)據(jù)源中獲取物品的各種信息瞳收,然后使用馬爾可夫邏輯網(wǎng)絡(luò)(MLN)學(xué)習(xí)知識(shí)圖譜。在對(duì)未知物品進(jìn)行推理時(shí)只依賴于已習(xí)得的知識(shí)庫(kù)而無(wú)需訓(xùn)練單獨(dú)的分類器厢汹,包括 zero-shot affordance prediction螟深。
作者通過(guò)從圖像以及諸如 Amazon 和 eBay 之類的在線文本源中提取信息來(lái)抽取物品的屬性和 Affordance, 然后從中學(xué)習(xí)知識(shí)圖譜烫葬。每一個(gè)物品都有三類屬性:視覺(jué)屬性(Visual attributes)界弧、物理屬性(Physical attributes)和分類屬性(Categorical attributes)。視覺(jué)屬性對(duì)應(yīng)于從視覺(jué)感知中獲得的信息搭综,包括物品的形狀和材質(zhì)等垢箕;物理屬性包括物體的重量和大小设凹;分類屬性則反映物體所屬于的更抽象的類別舰讹,比如動(dòng)物茅姜、機(jī)器闪朱、器械、電器等等钻洒。
相應(yīng)地奋姿,每個(gè)物品也有三類標(biāo)簽:Affordance 標(biāo)簽、人體姿勢(shì)(Human poses)和人與物品的相對(duì)位置(Human-object relative locations)素标。后兩者分別用于描述人體的姿勢(shì)和人與物品交互過(guò)程中人與物體之間的空間關(guān)系称诗。
在數(shù)據(jù)收集好之后,就可以利用馬爾可夫邏輯網(wǎng)絡(luò)(MLN)從中學(xué)習(xí)關(guān)系即通用規(guī)則的權(quán)重來(lái)構(gòu)建知識(shí)圖譜头遭。下圖可視化了作者所構(gòu)建的知識(shí)圖譜的一部分寓免。在下圖中癣诱,每個(gè)節(jié)點(diǎn)包含了某一類屬性或標(biāo)簽,連接兩個(gè)節(jié)點(diǎn)的線段則代表兩個(gè)節(jié)點(diǎn)之間的邏輯公式——比如既是 vehicle 又是 animal袜香,MLN 需要學(xué)習(xí)相應(yīng)的權(quán)重撕予,其中正權(quán)重表示兩者可能同時(shí)出現(xiàn),由綠色實(shí)線表示蜈首,負(fù)權(quán)重表示兩者是負(fù)相關(guān)的实抡,由紅色虛線表示。在本例中 vehicle 和 animal 是由紅色虛線連接的欢策,即兩者不大可能出現(xiàn)在同一物體上吆寨。
構(gòu)造的 KB 的圖形化顯示。?(圖源:Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge Base Representation. ECCV.)
在執(zhí)行推理時(shí)踩寇,模型首先根據(jù)提供的圖像抽取物體的視覺(jué)屬性啄清,然后推測(cè)其物理和分類屬性。利用這些屬性模型可以在習(xí)得的知識(shí)圖譜中對(duì)物體的 Affordance 進(jìn)行查詢俺孙。下圖給出了? zero-shot affordance prediction 的例子盒延。
zero shot affordance prediction 的推理過(guò)程。給定一個(gè)未知對(duì)象的圖像鼠冕,模型通過(guò) hierarchical model 估算對(duì)象屬性添寺。這些屬性可作為知識(shí)圖譜查詢的線索,從而對(duì) Affordance 進(jìn)行預(yù)測(cè)懈费,并估計(jì)人體姿勢(shì)和人體的相對(duì)位置计露。(圖源:Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge Base Representation. ECCV.)
由于推理是運(yùn)用多個(gè)線索綜合完成的,模型的穩(wěn)健性較好憎乙,不容易出現(xiàn)缺少某一個(gè)屬性的信息就推理失敗的情況票罐。靈活性也好,可以比較容易的對(duì)模型進(jìn)行擴(kuò)展泞边。不便之處則在于模型的質(zhì)量很大程度上依靠于知識(shí)圖譜的質(zhì)量该押,而后者又依靠于數(shù)據(jù)集的質(zhì)量。如果數(shù)據(jù)集中有很強(qiáng)的偏置(bias)阵谚,比如紅色的物體剛好都可以被抓握蚕礼,所生成的模型表現(xiàn)也會(huì)受到影響。
當(dāng)然梢什,許多研究會(huì)將上述的方法混合起來(lái)奠蹬,比如 [9] 和 [10] 就使用了 CNN 抽取特征用于構(gòu)建知識(shí)圖譜。
抓握(grasping)
抓握(grasping)是人類生活最常用到的動(dòng)作之一嗡午,而機(jī)器人的任務(wù)就是根據(jù)已經(jīng)學(xué)習(xí)過(guò)的物體推斷未知物體的 grasping affordance囤躁,即一個(gè)物體是否能被抓握。抓握和推理任務(wù)在一定程度上有重合。在機(jī)器人領(lǐng)域內(nèi)狸演,有很多研究會(huì)將推斷物體是否能被抓握和識(shí)別物體具體能夠被抓握的位置放在一個(gè)學(xué)習(xí)任務(wù)中言蛇。另一方面,抓握也可以分為學(xué)習(xí) simple-task affordance 和 task-specific affordance宵距。本文的重點(diǎn)會(huì)更偏向于推理未知物體能否被抓握猜极,借用 zero-shot learning 的概念——在上文中的知識(shí)圖譜中也有簡(jiǎn)要提到——這一領(lǐng)域也被叫做 zero-shot (grasp) affordance。這也算是推理抓握功能的難點(diǎn)之一消玄,其他難點(diǎn)還包括實(shí)時(shí)推理跟伏、數(shù)據(jù)收集等。
早期的一些研究會(huì)利用本地特征抽取器(local feature extractors )來(lái)學(xué)習(xí)一個(gè)物體是否能被抓握翩瓜,如 [7]受扳。雖然隨著深度學(xué)習(xí)的流行手工設(shè)計(jì)的特征已經(jīng)不再吃香,這篇文章還是在一定程度上解決了如何面對(duì)未知物體的問(wèn)題:只尋找物體上是否有具有已知能夠抓握的部位兔跌。[8] 則使用了神經(jīng)網(wǎng)絡(luò)來(lái)判斷一個(gè)物體可能的 Affordance勘高,包括正面吸取(suction down)坟桅、側(cè)面吸然(suction side)、抓握(grasp down)和齊平抓握(flush grasp)仅乓。四種 Affordance 如下圖所示赖舟,抓握和齊平抓握的區(qū)別主要是后者具有在目標(biāo)對(duì)象和墻壁之間滑動(dòng)一根手指的附加行為。
神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的四種 Affordance(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)
在訓(xùn)練過(guò)程中夸楣,作者使用到兩個(gè)全卷積殘差網(wǎng)絡(luò)(FCN) —— ResNet101 —— 中分別判斷物體的吸取和抓握的 Affordance宾抓。為判斷物體是否能夠被吸取,下圖中上排的 FCN 使用多視角 RGB-D 圖像作為輸入豫喧,然后對(duì)每個(gè)像素的 吸取 Affordance 進(jìn)行預(yù)測(cè)石洗,預(yù)測(cè)值越接近 1,則代表該部位越容易被吸取紧显。隨后讲衫,模型需要將所有視角的的預(yù)測(cè)匯集到 3D 點(diǎn)云(3D point cloud)上。
圖中下排的 FCN 則負(fù)責(zé)抓握 Affordance 的推理孵班。作者假設(shè)一個(gè)物體可抓握與否取決于該物體是否有可抓握區(qū)域涉兽,并且可抓握區(qū)域可以從物體具備的幾何形狀和外觀推斷,即 [7] 的思想重父。首先花椭,RGB-D 圖像將被合并到場(chǎng)景的正交 RGB-D 高度圖(orthographic RGB-D heightmap)中,來(lái)生成場(chǎng)景的高度圖房午。圖中的每個(gè)像素代表垂直方向——即重力方向——上的 2mm*2mm 的空間。FCN 需要對(duì)圖中的每個(gè)像素的抓握 Affordance 進(jìn)行判斷(0-1 的概率)丹允,由于作者假設(shè)機(jī)器手的位置是與生成的高度圖在垂直方向上平行的郭厌,生成的 Affordance heatmap 可以直接用于機(jī)器手在該方向上抓握該物體某一個(gè)部位的可能性袋倔。通過(guò)將高度旋轉(zhuǎn) 16 次到不同的角度,并用 FCN 對(duì)其進(jìn)行預(yù)測(cè)折柠,則可以得出在不同方向上對(duì)該物體抓握的可能性宾娜,即預(yù)測(cè)結(jié)果直接包含了 16 種不同的自上而下的抓取角度的概率圖。
在后處理(post-processing)時(shí)扇售,根據(jù)最佳抓握點(diǎn)在生成的 3D 點(diǎn)云中的位置前塔,算法會(huì)計(jì)算機(jī)器手兩根手指的最佳寬度。同時(shí)承冰,如果最佳抓握點(diǎn)過(guò)于靠近墻壁华弓,算法會(huì)推薦執(zhí)行齊平抓握,否則執(zhí)行一般的抓握困乒。
作者所提出的神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)
由于在進(jìn)行推理時(shí)寂屏,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)有可能遇到未知的物體,作者提出了跨領(lǐng)域圖像匹配(cross-domain image matching)模型來(lái)通過(guò)通過(guò)檢索一組產(chǎn)品圖像中的最佳匹配來(lái)解決此識(shí)別問(wèn)題娜搂。該模型由兩組 ConvNet (two-stream ConvNet)組成迁霎,一個(gè)用來(lái)對(duì)已知的圖像計(jì)算 2048 維特征,另一個(gè)則為用于檢索的圖像——即未知物品的圖像——計(jì)算 2048 維特征百宇。在訓(xùn)練時(shí)作者從已知的物體中提供一系列匹配和不匹配的圖像對(duì)來(lái)提供平衡的正例和反例考廉,然后用 Triplet Loss 作為損失函數(shù)。這樣可以有效地優(yōu)化網(wǎng)絡(luò)携御,從而最大程度地減小匹配對(duì)特征之間的 l2 距離芝此,同時(shí)拉開(kāi)不匹配對(duì)特征之間的 l2 距離。在測(cè)試過(guò)程中因痛,已知對(duì)象和未知對(duì)象的圖像都被映射到公共特征空間上婚苹,模型通過(guò)將觀察到的圖像映射到相同的特征空間并找到可能性最高的匹配來(lái)識(shí)別它們。本質(zhì)上[8] 是把未知物體的推理簡(jiǎn)化成了搜索任務(wù)鸵膏。
未知物體的識(shí)別框架(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)
[9] 和 [6] 有一定相似度膊升,但 [9] 中的 CNN 是為了構(gòu)建知識(shí)圖譜然后用 MLN 進(jìn)行學(xué)習(xí)而服務(wù)的。其提出的模型如下圖所示谭企,在學(xué)習(xí)階段(紫色方框)根據(jù)已經(jīng)給出的一系列物體屬性廓译、抓握功能 以及依次創(chuàng)造出的規(guī)則(rules),作者使用 MLN 來(lái)學(xué)習(xí)物品的屬性债查、位置和抓握功能之間的語(yǔ)意關(guān)系非区。學(xué)習(xí)完成后得到白色方框內(nèi)所示例的知識(shí)圖譜。在推理階段(藍(lán)色方框)盹廷,作者使用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)從被推理的 RGB 圖像中提取被推理物品的屬性征绸,即形狀、紋理、材料管怠、位置等淆衷。為了從訓(xùn)練好的知識(shí)圖譜中查詢具體的抓握功能,作者使用吉布斯抽樣(Gibbs sampling)渤弛,在計(jì)算量允許的情況下遍歷盡可能多的可能性來(lái)生成后驗(yàn)樣本祝拯。
[9]中的抓握功能推理框架,由學(xué)習(xí)(learn)她肯,查詢(query)和映射(mapping)組成佳头。學(xué)習(xí)的模型(由白色矩形標(biāo)注)使用彩色線段對(duì)節(jié)點(diǎn)之間的關(guān)系進(jìn)行編碼(圖源:Ardón P., Pairet è. , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.)
相對(duì)于 [6], [9] 專注于解決抓握功能的推理晴氨,同時(shí)對(duì)其進(jìn)行了很多細(xì)分康嘉。在此之后, [9] 將一組細(xì)分后的掌握功能與一個(gè)物體相關(guān)聯(lián)瑞筐。下圖描繪了在不同室內(nèi)場(chǎng)景中凄鼻,不同形狀的物體可能對(duì)應(yīng)的抓握功能。三個(gè)箭頭按照顏色代表物體上不同位置更可能或更不可能擁有的抓握功能聚假。所有的可能性都已經(jīng)經(jīng)過(guò)了歸一化處理块蚌,在(+1,-1)內(nèi)分布膘格,數(shù)值越高峭范,則代表可能性越大。
有趣的是瘪贱,可以看到纱控,在不同的抓握功能中,與性狀最無(wú)關(guān)的功能是移交(hand over)菜秦。而其他功能甜害,如盛納(contain)則與物體的形狀關(guān)聯(lián)度很大。開(kāi)放式容器更有可能具有盛納功能而其他形狀如螺絲刀等則最不可能具有盛納功能球昨。
對(duì)物體的形狀和抓握功能之間的可能性進(jìn)行可視化(圖源:Ardón P., Pairet è. , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.)
結(jié)論
不難看出尔店,Affordance 的研究重點(diǎn)之一是發(fā)展機(jī)器人的泛化能力。正如人類能夠?qū)π螤蠲黠@不同但 Affordance 相同的物體——比如玻璃杯 vs 葡萄酒杯——成功進(jìn)行推理主慰,同時(shí)還不會(huì)混淆形狀相同但 Affordance 不同的物體嚣州,比如杯子和蠟燭。我們離人類的水平目前還有一段距離共螺,但得益于深度學(xué)習(xí)的發(fā)展该肴,Affordance 的推理也取得了很多突破。特別是 CNN 結(jié)合知識(shí)圖譜的路線藐不,已經(jīng)提供不少非常有希望的結(jié)果匀哄。
但另一方面秦效,硬件仍然是這個(gè)領(lǐng)域內(nèi)的一個(gè)挑戰(zhàn)。相較于普通的視覺(jué)任務(wù)(vision task)拱雏,深度信息對(duì)于 Affordance 的學(xué)習(xí)至關(guān)重要棉安。想象一下上文中兩個(gè)杯子交纏的例子底扳,若沒(méi)有深度信息模型就無(wú)法正確推理铸抑。雖然這個(gè)例子比較極端,但當(dāng)機(jī)器人需要和真實(shí)世界——一個(gè)有很多靜止和非靜止物體的世界——進(jìn)行交互時(shí)衷模,深度信息絕對(duì)是必不可少的鹊汛。此外,如果模型不能被部署在云端上阱冶,算力也是對(duì)目前機(jī)器人身上的硬件的一個(gè)挑戰(zhàn)刁憋。使用模擬或者使用神經(jīng)網(wǎng)絡(luò),這兩個(gè)方法對(duì)算力的要求都比較高木蹬,并且很多研究在推理并定位了 Affordance 還需要將結(jié)果投射到 3D 模型上至耻,又進(jìn)一步加大了硬件算力方面的挑戰(zhàn)。
總的來(lái)說(shuō)镊叁,筆者對(duì)機(jī)器人這一領(lǐng)域的發(fā)展充滿信心尘颓,期待能夠盡快看到更多研究上的突破落實(shí)到實(shí)際生產(chǎn)中。也許在不遠(yuǎn)的將來(lái)晦譬,我們就能在海底撈看到機(jī)器人服務(wù)員為你端茶倒水疤苹、為你表演扯面了呢? :-)
參考文獻(xiàn)
[1] J. J. Gibson (1966). The Senses Considered as Perceptual Systems. Allen and Unwin, London.
[2] J. J. Gibson (1975). 'Affordances and behavior'. In E. S. Reed & R. Jones (eds.), Reasons for Realism: Selected Essays of James J. Gibson, pp. 410-411. Lawrence Erlbaum, Hillsdale, NJ, 1 edn.
[3] H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.
[4] K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018). Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.
[5] Y. Zhu, C. Jiang, Y. Zhao, D. Terzopoulos, and S.-C. Zhu.(2016).? Inferring forces and learning human utilities from videos. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3823–3833.
[6] Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge Base Representation. ECCV.
[7] Montesano L. and Lopes M. (2009).,Learning grasping affordances from local visual descriptors. 2009 IEEE 8th International Conference on Development and Learning
[8] Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.
[9] Ardón P., Pairet è. , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.
[10] Ardón P., Pairet è., Petrick R., Ramamoorthy S., Lohan K. (2019) Reasoning on Grasp-Action Affordances. Towards Autonomous Robotic Systems. TAROS 2019. Lecture Notes in Computer Science, vol 11649.?
[11] Do, T.-T., Anh N., and Ian R. (2018). Affordancenet: An end-to-end deep learning approach for object affordance detection. 2018 IEEE international conference on robotics and automation (ICRA).?
[12] B. Curless and M. Levoy. (1996) A volumetric method for building complex models from range images. Proceedings of the 23rd annual conference on Computer graphics and interactive techniques, pp. 303–312.?