“ 機(jī)器人視覺導(dǎo)航是機(jī)器人領(lǐng)域的一個(gè)重要研究方向,本文介紹了視覺導(dǎo)航的前沿技術(shù)楚午≌哑耄”
一、前沿
視覺導(dǎo)航(Visual Navigation)一直是人工智能領(lǐng)域矾柜,機(jī)器人領(lǐng)域非常重要的一個(gè)研究方向司浪,在之前我在專欄里曾寫過這篇文章(知乎專欄鏈接:zhuanlan.zhihu.com):
( Flood Sung:最前沿:深度增強(qiáng)學(xué)習(xí)再發(fā)力,家用機(jī)器人已近在眼前 )
文章鏈接:
https://zhuanlan.zhihu.com/p/22523121
介紹了Fei-Fei Li組的使用深度增強(qiáng)學(xué)習(xí)做視覺導(dǎo)航的文章把沼。那么一年時(shí)間過去了,這個(gè)領(lǐng)域又發(fā)生了什么翻天覆地的變化呢吁伺?
我想這兩天饮睬,deepmind最新的進(jìn)展是讓人驚訝的:
https://deepmind.com/blog/learning-to-navigate-cities-without-a-map/deepmind.com
https://deepmind.com/blog/learning-to-navigatecities-without-a-map/
現(xiàn)在的端到端神經(jīng)網(wǎng)絡(luò)竟然可以在這么大的真實(shí)地圖上進(jìn)行第一視角的導(dǎo)航,你能想象嗎界斜?以前搞機(jī)器人做planning的人能想到嗎适掰?
我真的是蠻震驚的饿凛,我覺得會(huì)有進(jìn)展,也僅僅局限在仿真環(huán)境中昼丑,我依然覺得真實(shí)環(huán)境太過復(fù)雜了,但是當(dāng)真正做到的時(shí)候夸赫,我們反而有點(diǎn)不敢相信菩帝。純神經(jīng)網(wǎng)絡(luò)的視覺導(dǎo)航呀!
所以茬腿,今天我們要來談?wù)劵谏疃葘W(xué)習(xí)視覺導(dǎo)航的最近的一些重要進(jìn)展呼奢,包括以下三篇文章:
一、https://arxiv.org/abs/1804.00168
二切平、https://arxiv.org/abs/1803.10760
三握础、https://openreview.net/forum?id=BkisuzWRW
其中前兩篇也就是 deepmind 最近發(fā)的,而第三篇 zero shot imitation learning則是 UCB 在 ICLR 2018 錄用的 oral paper 悴品。
二禀综、Learning to Navigate in Cities Without a Map
就先說說這篇讓人震驚的paper吧简烘!看了方法論你會(huì)發(fā)現(xiàn),nothing new定枷!
并沒有看到太多很新的東西孤澎,可以說就是作者之前成果的綜合。
我們可以看到依鸥,整個(gè)網(wǎng)絡(luò)是非常非常簡(jiǎn)單的亥至,輸入是目標(biāo)位置g和當(dāng)前的視覺狀態(tài)x,然后輸出具體動(dòng)作和價(jià)值贱迟。作者專門為目標(biāo)位置g構(gòu)造了一個(gè)rnn模塊姐扮,來讓神經(jīng)網(wǎng)絡(luò)來感知位置信息,同時(shí)這樣實(shí)現(xiàn)了模塊化衣吠,從而來可以直接實(shí)現(xiàn)多個(gè)城市的訓(xùn)練與遷移茶敏。
然后我覺得就沒了,文章對(duì)目標(biāo)位置g做了一點(diǎn)特殊構(gòu)造缚俏,使用周圍的地標(biāo)距離來描述惊搏。整個(gè)網(wǎng)絡(luò)使用IMPALA的一個(gè)分布式RL算法來訓(xùn)練,并且使用了curriculum learning循序漸進(jìn)的來訓(xùn)練整個(gè)網(wǎng)絡(luò)忧换,讓網(wǎng)絡(luò)能夠記憶各種位置導(dǎo)航的方式恬惯。
整個(gè)方法論作者在paper里面其實(shí)也就是用了一頁(yè)紙來描述。效果為什么這么好亚茬?
不是很清楚其實(shí)酪耳,文章里沒有細(xì)說。整個(gè)網(wǎng)絡(luò)規(guī)模應(yīng)該是很大的刹缝,從文章中說使用512個(gè)actor來分布式訓(xùn)練可以看出來碗暗。
簡(jiǎn)單的說,在方法論并沒有新奇的情況下做出了難以置信的效果梢夯,不得不說深度學(xué)習(xí)很神奇言疗!
三、Unsupervised Predictive Memory in a Goal-Directed Agent
這篇文章做的工作不一樣颂砸,可以實(shí)現(xiàn)one shot navigation噪奄。在上一篇paper中,實(shí)際上這個(gè)神經(jīng)網(wǎng)絡(luò)在地圖上已經(jīng)跑了無數(shù)遍了人乓,記住了所有路線梗醇。但是人可以做到只走一遍就能記住路線,下次就不用再探索了撒蟀。而這篇文章其中的一個(gè)實(shí)驗(yàn)叙谨,就做了這個(gè)one shot navigation的問題。
但這篇文章的思路完全不一樣保屯,也肯定要不一樣手负,因?yàn)槭莖ne shot涤垫,意味著需要很好的記憶。所以這篇文章的關(guān)鍵在于構(gòu)造了一個(gè)非常復(fù)雜的記憶模塊竟终,來更好的提取記憶信息蝠猬。我們這里不講詳細(xì)的細(xì)節(jié),只是說說思想统捶。實(shí)際上這篇文章提出的MERLIN依然是一個(gè)meta reinforcement learning的模型榆芦,因?yàn)樗阎暗膔eward信息也一并輸入進(jìn)去,這是meta的一個(gè)關(guān)鍵喘鸟,不了解的童鞋可以看看這篇paper:
https://arxiv.org/abs/1611.05763
所以匆绣,首先是這個(gè)模型具備meta屬性,才使其能夠做到one shot navigation什黑,其次是其復(fù)雜的memory模塊大幅度提升了記憶之前信息的能力崎淳,可以說通過一次的探索構(gòu)建出了整個(gè)地圖模型,從而能夠提取信息到下一步的policy網(wǎng)絡(luò)進(jìn)行處理愕把。大家可以看看這篇文章的演示視頻拣凹,依然非常讓人印象深刻。
四恨豁、Zero-Shot Imitation Learning
那么這篇文章呢就換個(gè)角度故意不做reinforcement learning了嚣镜,改用imitation learning來做。道理也很顯然呀橘蜜,我們可以用一些專家的甚至最優(yōu)的軌跡來直接訓(xùn)練網(wǎng)絡(luò)菊匿,而不需要通過reinforcement learning的方式來自己探索。我們先看看這篇文章的網(wǎng)絡(luò)結(jié)構(gòu):
有沒有覺得和第一篇paper的其實(shí)相當(dāng)接近扮匠。只是這里的目標(biāo)也是用圖片來表示的。但是這篇文章除了改用imitation learning之外凡涩,很重要的一點(diǎn)是所謂的zero shot棒搜?那這里什么叫做zero shot呢?
引用一下原文:
“Our method is ”zero-shot” in that we never see expert actions and never see demonstrations during learning. ”
這個(gè)網(wǎng)絡(luò)模型在訓(xùn)練的時(shí)候是沒有使用任何的專家動(dòng)作的活箕,那么怎么訓(xùn)練呢力麸?使用隨機(jī)探索的trajectory (s1,a1,s2,a2,s3,a3....) 有這樣的軌跡,我們可以把任何一點(diǎn)的狀態(tài)s作為目標(biāo)位置育韩】寺欤看到這,大家會(huì)不會(huì)覺得很hindsight experience replay的思想很像呢:
[1707.01495] Hindsight Experience Replay
所以這篇文章這個(gè)idea真的很棒筋讨,并且在網(wǎng)絡(luò)結(jié)構(gòu)上我們看上面最右邊的那個(gè)圖埃叭,它還加一個(gè)對(duì)未來state的預(yù)測(cè)模塊,進(jìn)一步強(qiáng)化了其學(xué)習(xí)效果悉罕。
五赤屋、小結(jié)
由于時(shí)間有限立镶,我這里也只是很初略的介紹了一下這三篇paper的一些思想上的東西,這三篇paper實(shí)現(xiàn)的結(jié)果都是讓人覺得有點(diǎn)‘啊哈這樣也行’类早。但是idea可能真的沒有那么復(fù)雜媚媒,實(shí)現(xiàn)上倒是會(huì)很復(fù)雜。有了這三篇paper的結(jié)果涩僻,我們可以說深度學(xué)習(xí)在視覺導(dǎo)航這塊取得了挺大的進(jìn)展了缭召。那么未來呢?
我想肯定都要往真實(shí)場(chǎng)景上上手了逆日,要不然還有什么意思呢嵌巷?比如這個(gè)one shot navigation。如果真實(shí)的機(jī)器人在真實(shí)的房子里走幾圈之后屏富,你讓他去找啥他就能去晴竞,那么這個(gè)視覺導(dǎo)航的目標(biāo)也就實(shí)現(xiàn)了,簡(jiǎn)直都可以落地了有木有狠半?
家用機(jī)器人確實(shí)在一步一步的走進(jìn)現(xiàn)實(shí)噩死,讓我們拭目以待!一起加油神年!
------ END ------