最前沿:視覺導(dǎo)航(Visual Navigation)王污,讓人驚訝的進(jìn)展


“ 機(jī)器人視覺導(dǎo)航是機(jī)器人領(lǐng)域的一個(gè)重要研究方向,本文介紹了視覺導(dǎo)航的前沿技術(shù)楚午≌哑耄”


一、前沿

視覺導(dǎo)航(Visual Navigation)一直是人工智能領(lǐng)域矾柜,機(jī)器人領(lǐng)域非常重要的一個(gè)研究方向司浪,在之前我在專欄里曾寫過這篇文章(知乎專欄鏈接:zhuanlan.zhihu.com):


( Flood Sung:最前沿:深度增強(qiáng)學(xué)習(xí)再發(fā)力,家用機(jī)器人已近在眼前 )

文章鏈接:

https://zhuanlan.zhihu.com/p/22523121


介紹了Fei-Fei Li組的使用深度增強(qiáng)學(xué)習(xí)做視覺導(dǎo)航的文章把沼。那么一年時(shí)間過去了,這個(gè)領(lǐng)域又發(fā)生了什么翻天覆地的變化呢吁伺?


我想這兩天饮睬,deepmind最新的進(jìn)展是讓人驚訝的:


https://deepmind.com/blog/learning-to-navigate-cities-without-a-map/deepmind.com


https://deepmind.com/blog/learning-to-navigatecities-without-a-map/


現(xiàn)在的端到端神經(jīng)網(wǎng)絡(luò)竟然可以在這么大的真實(shí)地圖上進(jìn)行第一視角的導(dǎo)航,你能想象嗎界斜?以前搞機(jī)器人做planning的人能想到嗎适掰?


我真的是蠻震驚的饿凛,我覺得會(huì)有進(jìn)展,也僅僅局限在仿真環(huán)境中昼丑,我依然覺得真實(shí)環(huán)境太過復(fù)雜了,但是當(dāng)真正做到的時(shí)候夸赫,我們反而有點(diǎn)不敢相信菩帝。純神經(jīng)網(wǎng)絡(luò)的視覺導(dǎo)航呀!


所以茬腿,今天我們要來談?wù)劵谏疃葘W(xué)習(xí)視覺導(dǎo)航的最近的一些重要進(jìn)展呼奢,包括以下三篇文章:


一、https://arxiv.org/abs/1804.00168


二切平、https://arxiv.org/abs/1803.10760


三握础、https://openreview.net/forum?id=BkisuzWRW


其中前兩篇也就是 deepmind 最近發(fā)的,而第三篇 zero shot imitation learning則是 UCB 在 ICLR 2018 錄用的 oral paper 悴品。


二禀综、Learning to Navigate in Cities Without a Map


就先說說這篇讓人震驚的paper吧简烘!看了方法論你會(huì)發(fā)現(xiàn),nothing new定枷!


并沒有看到太多很新的東西孤澎,可以說就是作者之前成果的綜合。



我們可以看到依鸥,整個(gè)網(wǎng)絡(luò)是非常非常簡(jiǎn)單的亥至,輸入是目標(biāo)位置g和當(dāng)前的視覺狀態(tài)x,然后輸出具體動(dòng)作和價(jià)值贱迟。作者專門為目標(biāo)位置g構(gòu)造了一個(gè)rnn模塊姐扮,來讓神經(jīng)網(wǎng)絡(luò)來感知位置信息,同時(shí)這樣實(shí)現(xiàn)了模塊化衣吠,從而來可以直接實(shí)現(xiàn)多個(gè)城市的訓(xùn)練與遷移茶敏。


然后我覺得就沒了,文章對(duì)目標(biāo)位置g做了一點(diǎn)特殊構(gòu)造缚俏,使用周圍的地標(biāo)距離來描述惊搏。整個(gè)網(wǎng)絡(luò)使用IMPALA的一個(gè)分布式RL算法來訓(xùn)練,并且使用了curriculum learning循序漸進(jìn)的來訓(xùn)練整個(gè)網(wǎng)絡(luò)忧换,讓網(wǎng)絡(luò)能夠記憶各種位置導(dǎo)航的方式恬惯。


整個(gè)方法論作者在paper里面其實(shí)也就是用了一頁(yè)紙來描述。效果為什么這么好亚茬?


不是很清楚其實(shí)酪耳,文章里沒有細(xì)說。整個(gè)網(wǎng)絡(luò)規(guī)模應(yīng)該是很大的刹缝,從文章中說使用512個(gè)actor來分布式訓(xùn)練可以看出來碗暗。


簡(jiǎn)單的說,在方法論并沒有新奇的情況下做出了難以置信的效果梢夯,不得不說深度學(xué)習(xí)很神奇言疗!


三、Unsupervised Predictive Memory in a Goal-Directed Agent


這篇文章做的工作不一樣颂砸,可以實(shí)現(xiàn)one shot navigation噪奄。在上一篇paper中,實(shí)際上這個(gè)神經(jīng)網(wǎng)絡(luò)在地圖上已經(jīng)跑了無數(shù)遍了人乓,記住了所有路線梗醇。但是人可以做到只走一遍就能記住路線,下次就不用再探索了撒蟀。而這篇文章其中的一個(gè)實(shí)驗(yàn)叙谨,就做了這個(gè)one shot navigation的問題。



但這篇文章的思路完全不一樣保屯,也肯定要不一樣手负,因?yàn)槭莖ne shot涤垫,意味著需要很好的記憶。所以這篇文章的關(guān)鍵在于構(gòu)造了一個(gè)非常復(fù)雜的記憶模塊竟终,來更好的提取記憶信息蝠猬。我們這里不講詳細(xì)的細(xì)節(jié),只是說說思想统捶。實(shí)際上這篇文章提出的MERLIN依然是一個(gè)meta reinforcement learning的模型榆芦,因?yàn)樗阎暗膔eward信息也一并輸入進(jìn)去,這是meta的一個(gè)關(guān)鍵喘鸟,不了解的童鞋可以看看這篇paper:


https://arxiv.org/abs/1611.05763


所以匆绣,首先是這個(gè)模型具備meta屬性,才使其能夠做到one shot navigation什黑,其次是其復(fù)雜的memory模塊大幅度提升了記憶之前信息的能力崎淳,可以說通過一次的探索構(gòu)建出了整個(gè)地圖模型,從而能夠提取信息到下一步的policy網(wǎng)絡(luò)進(jìn)行處理愕把。大家可以看看這篇文章的演示視頻拣凹,依然非常讓人印象深刻。


四恨豁、Zero-Shot Imitation Learning


那么這篇文章呢就換個(gè)角度故意不做reinforcement learning了嚣镜,改用imitation learning來做。道理也很顯然呀橘蜜,我們可以用一些專家的甚至最優(yōu)的軌跡來直接訓(xùn)練網(wǎng)絡(luò)菊匿,而不需要通過reinforcement learning的方式來自己探索。我們先看看這篇文章的網(wǎng)絡(luò)結(jié)構(gòu):



有沒有覺得和第一篇paper的其實(shí)相當(dāng)接近扮匠。只是這里的目標(biāo)也是用圖片來表示的。但是這篇文章除了改用imitation learning之外凡涩,很重要的一點(diǎn)是所謂的zero shot棒搜?那這里什么叫做zero shot呢?


引用一下原文:


“Our method is ”zero-shot” in that we never see expert actions and never see demonstrations during learning. ”


這個(gè)網(wǎng)絡(luò)模型在訓(xùn)練的時(shí)候是沒有使用任何的專家動(dòng)作的活箕,那么怎么訓(xùn)練呢力麸?使用隨機(jī)探索的trajectory (s1,a1,s2,a2,s3,a3....) 有這樣的軌跡,我們可以把任何一點(diǎn)的狀態(tài)s作為目標(biāo)位置育韩】寺欤看到這,大家會(huì)不會(huì)覺得很hindsight experience replay的思想很像呢:


[1707.01495] Hindsight Experience Replay


所以這篇文章這個(gè)idea真的很棒筋讨,并且在網(wǎng)絡(luò)結(jié)構(gòu)上我們看上面最右邊的那個(gè)圖埃叭,它還加一個(gè)對(duì)未來state的預(yù)測(cè)模塊,進(jìn)一步強(qiáng)化了其學(xué)習(xí)效果悉罕。


五赤屋、小結(jié)


由于時(shí)間有限立镶,我這里也只是很初略的介紹了一下這三篇paper的一些思想上的東西,這三篇paper實(shí)現(xiàn)的結(jié)果都是讓人覺得有點(diǎn)‘啊哈這樣也行’类早。但是idea可能真的沒有那么復(fù)雜媚媒,實(shí)現(xiàn)上倒是會(huì)很復(fù)雜。有了這三篇paper的結(jié)果涩僻,我們可以說深度學(xué)習(xí)在視覺導(dǎo)航這塊取得了挺大的進(jìn)展了缭召。那么未來呢?


我想肯定都要往真實(shí)場(chǎng)景上上手了逆日,要不然還有什么意思呢嵌巷?比如這個(gè)one shot navigation。如果真實(shí)的機(jī)器人在真實(shí)的房子里走幾圈之后屏富,你讓他去找啥他就能去晴竞,那么這個(gè)視覺導(dǎo)航的目標(biāo)也就實(shí)現(xiàn)了,簡(jiǎn)直都可以落地了有木有狠半?


家用機(jī)器人確實(shí)在一步一步的走進(jìn)現(xiàn)實(shí)噩死,讓我們拭目以待!一起加油神年!



------ END ------

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末已维,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子已日,更是在濱河造成了極大的恐慌垛耳,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件飘千,死亡現(xiàn)場(chǎng)離奇詭異堂鲜,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)护奈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門缔莲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人霉旗,你說我怎么就攤上這事痴奏。” “怎么了厌秒?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵读拆,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我鸵闪,道長(zhǎng)檐晕,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任蚌讼,我火速辦了婚禮棉姐,結(jié)果婚禮上屠列,老公的妹妹穿的比我還像新娘。我一直安慰自己伞矩,他們只是感情好笛洛,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著乃坤,像睡著了一般苛让。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上湿诊,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天狱杰,我揣著相機(jī)與錄音,去河邊找鬼厅须。 笑死仿畸,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的朗和。 我是一名探鬼主播错沽,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼眶拉!你這毒婦竟也來了千埃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤忆植,失蹤者是張志新(化名)和其女友劉穎放可,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體朝刊,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡耀里,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了拾氓。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冯挎。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖痪枫,靈堂內(nèi)的尸體忽然破棺而出织堂,到底是詐尸還是另有隱情叠艳,我是刑警寧澤奶陈,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站附较,受9級(jí)特大地震影響吃粒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拒课,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一徐勃、第九天 我趴在偏房一處隱蔽的房頂上張望事示。 院中可真熱鬧,春花似錦僻肖、人聲如沸肖爵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)劝堪。三九已至,卻和暖如春揉稚,著一層夾襖步出監(jiān)牢的瞬間秒啦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工搀玖, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留余境,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓灌诅,卻偏偏與公主長(zhǎng)得像芳来,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子延塑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容