是的舵揭,谷歌DeepMind又在搞事情如筛。
這次,是用深度強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)來建立導(dǎo)航系統(tǒng)则涯。無需標(biāo)注好的地圖指引复局,AI僅僅依靠街景照片的圖像識別就能到達(dá)目的地。類似于AlphaGo Zero的沒有棋譜粟判,也能學(xué)會下棋亿昏。
注意,這無關(guān)乎駕駛浮入,僅僅關(guān)乎導(dǎo)航——穿越真實城市龙优,到達(dá)指定的經(jīng)緯度坐標(biāo)。整個過程不涉及交通數(shù)據(jù)(周圍有沒有車和人)事秀,也沒有對車輛控制建模。
但這已經(jīng)足夠復(fù)雜了野舶。在曼哈頓的5個區(qū)域易迹、倫敦和巴黎市中心,AI能成功穿過復(fù)雜的交叉路口平道、人行道睹欲、隧道和各種拓?fù)浣Y(jié)構(gòu)。
3月31號一屋,DeepMind在ArXiv上發(fā)布了相關(guān)論文:Learning to Navigate in Cities Without a Map窘疮。大數(shù)據(jù)文摘公眾號后臺回復(fù)“導(dǎo)航”即可下載這篇論文。
DeepMind隨后發(fā)表的一篇博客文章稱冀墨,AI做的這件事類似于一個小孩如何記住周邊的環(huán)境闸衫。小孩并不需要看一張地圖,只需記住街道的視覺外觀并沿途轉(zhuǎn)向诽嘉,就能前往朋友家蔚出、學(xué)械芮蹋或雜貨店。而且會越走越熟練骄酗。如果迷路了稀余,他可以通過關(guān)鍵地標(biāo)甚至太陽的朝向來認(rèn)路。
這是人類的導(dǎo)航系統(tǒng)趋翻。
導(dǎo)航是一項重要的認(rèn)知任務(wù)睛琳,有導(dǎo)航系統(tǒng)的人類和動物可以在復(fù)雜的世界中遠(yuǎn)距離穿行,而無需地圖踏烙。同時师骗,可以自我定位(“我在這里”)和表述目標(biāo)(“我要去那里”)。
那么宙帝,AI如何學(xué)習(xí)在沒有地圖的城市中進(jìn)行導(dǎo)航丧凤?
一個利器是谷歌街景視圖(Google Street View)。這些圖像數(shù)據(jù)是現(xiàn)成的步脓。這樣愿待,AI不用真的到某個城市里穿行,只要在街景里游蕩就可以了靴患。利用街景視圖建模的優(yōu)勢在于仍侥,這些照片以人眼視角拍攝,也就是說鸳君,如果一個人站在相同的地理位置农渊,他看到的圖像就和模型看到的一樣。
依靠街景圖像而不是地圖
研究人員建立了一個基于神經(jīng)網(wǎng)絡(luò)的人工智能體或颊,學(xué)習(xí)使用視覺信息(來自街景圖像的像素)在多個城市中導(dǎo)航砸紊。當(dāng)AI到達(dá)目標(biāo)目的地(例如,指定的經(jīng)緯度坐標(biāo))時囱挑,該AI就會得到獎勵醉顽。
好比一個7x24小時無限循環(huán)工作的快遞員,要不斷地到達(dá)指定地點平挑,但是又沒有地圖可以看游添。
隨著時間的推移,AI學(xué)習(xí)以這種方式跨越整個城市通熄。經(jīng)過在多個城市的訓(xùn)練和學(xué)習(xí)唆涝,在適應(yīng)新的城市時AI的表現(xiàn)非常好。
AI在巴黎街景中訓(xùn)練唇辨。街景圖像與城市地圖疊加廊酣,顯示目標(biāo)位置(紅色),代理位置和視野(綠色)助泽。請注意啰扛,AI不會看到地圖嚎京,只能看到目標(biāo)位置的緯度/經(jīng)度坐標(biāo)。
與傳統(tǒng)的依賴明確映射和探索的方法(例如試圖本地化并同時繪制地圖)相反隐解,DeepMind讓AI只使用視覺觀察鞍帝,而不使用地圖、GPS定位或其他輔助工具煞茫。
用到的技術(shù)是帕涌,構(gòu)建了一個神經(jīng)網(wǎng)絡(luò)代理,用于輸入從環(huán)境中觀察到的圖像续徽,并預(yù)測它應(yīng)該在該環(huán)境中執(zhí)行的下一個操作蚓曼。使用深度強(qiáng)化學(xué)習(xí)進(jìn)行端對端訓(xùn)練,類似于此前關(guān)于學(xué)習(xí)穿越復(fù)雜3D迷宮钦扭,以及用無監(jiān)督輔助任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí)來玩游戲的研究纫版,但是使用到的數(shù)據(jù)規(guī)模比小型模擬迷宮環(huán)境要大得多。
神經(jīng)網(wǎng)絡(luò)由三部分組成:
可以處理圖像并提取視覺特征的卷積網(wǎng)絡(luò)
特定場所的循環(huán)神經(jīng)網(wǎng)絡(luò)客情,其隱含任務(wù)是記住環(huán)境其弊,并學(xué)習(xí)“這里“(代理的當(dāng)前位置)和”那里“(目標(biāo)的位置)
產(chǎn)生關(guān)于代理行為的導(dǎo)航策略的場所不變循環(huán)網(wǎng)絡(luò)。特定于語言環(huán)境的模塊被設(shè)計為可互換膀斋,并且如其名稱所示梭伐,對于代理導(dǎo)航的每個城市都是唯一的,而視覺模塊和策略模塊可以是語言環(huán)境不變的仰担。
CityNav (a)
MultiCityNav特定城市建模 (b)
訓(xùn)練和轉(zhuǎn)移到新城市 (c)
就像在Google Street View界面中一樣糊识,AI代理可以在適當(dāng)?shù)奈恢眯D(zhuǎn),或者在可能的情況下前進(jìn)到下一個街景摔蓝。與谷歌地圖和街景環(huán)境不同赂苗,AI不會看到小箭頭,本地或全球地圖贮尉,或著名的Pegman:它需要學(xué)習(xí)區(qū)分開放道路和人行道哑梳。目標(biāo)可能在真實世界中距離數(shù)公里,AI要通過數(shù)百個街景圖才能到達(dá)绘盟。
Pegman,谷歌街景視圖中的虛擬小人
值得注意的是悯仙,這是一個可以轉(zhuǎn)移到新城市的模塊化神經(jīng)網(wǎng)絡(luò)架構(gòu)龄毡。與人類一樣,當(dāng)AI訪問一個新的城市時锡垄,我們會期望它必須學(xué)習(xí)一組新的地標(biāo)沦零,但不必重新學(xué)習(xí)其視覺表現(xiàn)或其行為(例如,沿著街道向前走或在交叉路口處轉(zhuǎn)向)货岭。因此路操,使用MultiCity體系結(jié)構(gòu)疾渴,DeepMind首先在許多城市進(jìn)行訓(xùn)練,然后凍結(jié)策略網(wǎng)絡(luò)和視覺卷積網(wǎng)絡(luò)屯仗,并在一個新城市中只建立一個新的特定地區(qū)路徑搞坝。這種方法使AI能夠獲得新的知識,而不會忘記它已經(jīng)學(xué)到了什么魁袜,類似于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)桩撮。
導(dǎo)航系統(tǒng)是研究和開發(fā)人工智能的基礎(chǔ),也對了解人類的生物導(dǎo)航系統(tǒng)有幫助峰弹。