多模態(tài):自動駕駛中的多模態(tài)學(xué)習(xí)

本文首發(fā)于公眾號“我AI”,歡迎關(guān)注错忱,共同進步界阁。

進入深度學(xué)習(xí)時代后侯繁,自動駕駛車輛的感知系統(tǒng)得到了大幅提升。為了獲得更加魯棒和準確的感知結(jié)果泡躯,一輛具備輔助駕駛或自動駕駛功能的車輛贮竟,通常需要配備不同的傳感器,在不同的工況下互相補充较剃。典型的傳感器模態(tài)包括:攝像頭咕别、雷達、激光雷達写穴、高精地圖等惰拱。本文結(jié)合一篇綜述文章和筆者的理解,介紹在自動駕駛中對多模態(tài)數(shù)據(jù)進行處理确垫、學(xué)習(xí)的方法和挑戰(zhàn)弓颈。

對多模態(tài)不甚了解的朋友可以先閱讀我的這篇文章:#多模態(tài)(一):下一代人機交互?#

圖源[1]删掀,自動駕駛感知系統(tǒng)利用多模態(tài)數(shù)據(jù)進行魯棒翔冀、準確的感知

這篇綜述文章Deep Multi-modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, Methods, and Challenges由Bosch、烏爾姆大學(xué)披泪、卡爾斯魯厄理工大學(xué)的幾位研究人員發(fā)表在IEEE Transactions on Intelligent Transportation Systems上纤子。針對自動駕駛感知中的兩類典型任務(wù):目標檢測和語義分割,回顧了與多模態(tài)相關(guān)的數(shù)據(jù)集款票、方法和挑戰(zhàn)控硼。

圖源[1]

本文的大致內(nèi)容如下:

1. 在設(shè)計和使用多模態(tài)方法之前,首先需要考慮和數(shù)據(jù)相關(guān)的幾個問題(在本文第1節(jié)介紹):

是否有可用的多模態(tài)數(shù)據(jù)集以及數(shù)據(jù)是如何標注的艾少;

數(shù)據(jù)集是否覆蓋了多樣的駕駛場景卡乾;

數(shù)據(jù)是否是高質(zhì)量的;

2. 在設(shè)計多模態(tài)方法時缚够,需要考慮的問題(在本文第2幔妨、3、4節(jié)介紹):

what to fuse:哪些模態(tài)需要被融合谍椅,如何恰當?shù)谋碚骱吞幚磉@些模態(tài)误堡;

how to fuse:可以使用哪些融合操作和方法;

when to fuse:哪一階段的特征表征最適合融合雏吭;

3. 現(xiàn)今對多模態(tài)學(xué)習(xí)的研究锁施,面臨的問題和挑戰(zhàn)(本文第5節(jié))。


01 自動駕駛的多模傳感器和數(shù)據(jù)集

自動駕駛車輛通常配備的代表不同模態(tài)的傳感器(見下圖):

a) 視覺攝像頭和熱成像相機(Camera):通過相機能捕捉環(huán)境的詳細紋理信息。視覺攝像頭通常對光照和天氣敏感悉抵,熱成像相機則對白天/黑夜變化更魯棒肩狂。然而,這兩類視覺感知都無法提供深度信息基跑;

b) 激光雷達(LiDAR):激光雷達能以3D點云的方式提供環(huán)境中準確的深度信息婚温,受光照和天氣影響相對較小。但是媳否,無法捕捉環(huán)境目標的詳細紋理(近期有新型的flash LiDAR彌補了該缺陷)且點云對于遙遠目標變得非常稀疏栅螟;

c) 雷達(Radar):對光照和天氣影響魯棒,但由于分辨率低(稀疏點云)篱竭,使得通過雷達數(shù)據(jù)識別物體類型很困難力图;

d) 超聲傳感(Ultrasonic):常用于低速場景下的近場目標檢測,例如泊車場景掺逼。容易受到空氣濕度吃媒、溫度、塵土影響吕喘;

e) 全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS)和高精地圖(HD Map):GNSS例如GPS赘那,結(jié)合高精地圖,用于自車定位和路徑規(guī)劃氯质;

f) IMU和里程計(Odometer):提供自車的加速度募舟、旋轉(zhuǎn)速率、里程闻察,用于自車定位拱礁。

圖源[1],(a)為DARPA 2007的Boss自動駕駛車輛辕漂,(b)為waymo的自動駕駛車輛

大部分基于深度學(xué)習(xí)的多模態(tài)算法都采用了有監(jiān)督學(xué)習(xí)呢灶,因此有標注的數(shù)據(jù)集尤為重要。下表概括了自2013年以來的自動駕駛多模態(tài)數(shù)據(jù)集钉嘹,從模態(tài)鸯乃、標注方法、采集場景跋涣、數(shù)據(jù)集大小缨睡、目標類別幾個主要維度進行對比

表源[2]仆潮,自動駕駛多模態(tài)數(shù)據(jù)集-1


表源[2]宏蛉,自動駕駛多模態(tài)數(shù)據(jù)集-2


02 多模態(tài)方法-what to fuse

在自動駕駛感知的目標識別和語義分割任務(wù)中遣臼,Lidar和camera是最常被用于進行多模態(tài)深度學(xué)習(xí)的兩個模態(tài)性置,radar和camera的融合次之。

針對lidar揍堰、camera鹏浅、radar這三種不同模態(tài)的傳感器嗅义,首先自然是要了解他們各自的表征方法,即這三種模態(tài)在單模態(tài)方法中是如何各自被神經(jīng)網(wǎng)絡(luò)處理的隐砸。了解了模態(tài)的特性和處理方法后之碗,才能明確面對某一任務(wù)該使用哪些模態(tài)的組合。

Camera:大部分神經(jīng)網(wǎng)絡(luò)直接用單攝像頭的RGB圖像數(shù)據(jù)作為輸入季希,輸出2D或3D坐標系下的目標檢測框褪那,即單目視覺。理論上式塌,在沒有任何先驗的前提下博敬,單目視覺無法從幾何的角度還原出目標物體的3D坐標信息。但通過從數(shù)據(jù)中學(xué)習(xí)的方法峰尝,能實現(xiàn)對3D坐標的估計偏窝。

這一研究領(lǐng)域即為單目3D目標檢測(我會在之后具體撰文分享)。在我看來武学,單目3D目標檢測方案通臣劳可以分為以下幾大類:

a)BEV(Bird-Eye-View)法:將單目圖像轉(zhuǎn)為鳥瞰圖后做檢測;

b)偽激光雷達法:通過單目深度估計火窒,將單目圖像轉(zhuǎn)為點云圖硼补,然后利用對激光雷達點云數(shù)據(jù)的目標檢測算法;

c)關(guān)鍵點和形狀法:利用目標的關(guān)鍵點和形狀等先驗知識沛鸵,還原3D坐標信息括勺;

d)2D升級3D法:在2D目標檢測網(wǎng)絡(luò)的基礎(chǔ)上增加檢測的維度(如yaw角度、目標的長寬高等)曲掰,從而還原出3D檢測框疾捍;

e)直接生成法:通過網(wǎng)絡(luò)在2D圖像上直接回歸出3D的檢測框。

Lidar:激光雷達提供環(huán)境的點云數(shù)據(jù)栏妖,每個點都有xyz坐標和反射強度信息乱豆。由于激光雷達的數(shù)據(jù)是三維點云,傳統(tǒng)用于圖像中的深度學(xué)習(xí)方法無法直接處理如此海量的點數(shù)據(jù)(原因例如a.每一幀的點的個數(shù)都不固定吊趾;b.3維點云數(shù)據(jù)是稀疏的而2維圖像數(shù)據(jù)是稠密的)宛裕。因此在進入網(wǎng)絡(luò)之前通常需要對點云數(shù)據(jù)進行預(yù)處理,得到合適的數(shù)據(jù)表征论泛。

常見的對點云數(shù)據(jù)的目標檢測方法可以分為三類:

a)體素(voxel)法:首先將3D點云編碼為離散的3D體素揩尸,再經(jīng)過神經(jīng)網(wǎng)絡(luò)檢測;

b)直接法:直接學(xué)習(xí)3D點云數(shù)據(jù)屁奏,例如PointNet++岩榆;

c)圖像法:將3D點云轉(zhuǎn)為2D圖像(如鳥瞰圖形式),再利用2D圖像目標檢測方法。

Radar:往往采用與激光雷達大體類似的思路勇边,但由于其分辨率低且點更加稀疏犹撒,需要在算法上做些許調(diào)整,例如累積多幀的點云數(shù)據(jù)后再進神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)粒褒。

下圖的表格們识颊,總結(jié)了一些多模態(tài)深度學(xué)習(xí)的方法。從已有的這些方法中奕坟,論文的作者作出以下觀察:

a)?大部分方法使用2D卷積神經(jīng)網(wǎng)絡(luò)提取lidar和camera數(shù)據(jù)特征(將3D點云投影到2D平面)祥款,少部分會使用3D卷積神經(jīng)網(wǎng)絡(luò)或PointNet來提取lidar點云數(shù)據(jù)中的特征;

b) 雖然多篇多模態(tài)目標檢測的工作對3D激光雷達點云數(shù)據(jù)聚類和分割月杉,但在進行多模態(tài)融合時仍基于點云數(shù)據(jù)的2D表征來提取特征镰踏;

c) 為了進行模態(tài)對齊,存在一些工作將點云投影到圖像平面或者將RGB圖像投影到點云BEV平面沙合。同時奠伪,另一些工作直接融合點云BEV圖和RGB圖像,通過神經(jīng)網(wǎng)絡(luò)隱式的進行特征對齊首懈。

表源[2]绊率,多模態(tài)目標檢測方法-1
表源[2],多模態(tài)目標檢測方法-2
表源[2]究履,多模態(tài)目標檢測方法-3
表源[2]滤否,多模態(tài)語義分割方法


03 多模態(tài)方法-how?to fuse

上一節(jié)解決了如何從單一模態(tài)中提取特征,這一節(jié)解決如何將不同模態(tài)的特征進行融合最仑。

文章中總結(jié)了四種模態(tài)特征融合的方法

a) 相加或平均(Addition or Average Mean):對不同模態(tài)的特征向量或特征圖進行按元素相加或求不同維度上的平均藐俺;

b) 拼接(Concatenation):特征向量或特征圖在某一維度上進行拼接或堆疊;

c) 集成(Ensemble):常被用于融合目標檢測網(wǎng)絡(luò)中的ROIs泥彤,不同模態(tài)下的檢測的ROIs進行合并欲芹;

d) 專家混合(Mixture of Experts):上述的模態(tài)融合方法沒有考慮感知模態(tài)的信息量(例如RGB攝像頭在夜晚比激光雷達點云具備更少的信息量),寄希望于神經(jīng)網(wǎng)絡(luò)能夠隱式的學(xué)習(xí)不同模態(tài)特征圖的權(quán)重吟吝。專家混合方法則希望通過模型顯式的建模特征圖的權(quán)重菱父。例如下圖中的Gating Network就是這樣一個顯式的模型。

圖源[1]剑逃,專家混合方法


04 多模態(tài)方法-when?to fuse

上一節(jié)回答了如何進行模態(tài)的融合浙宜,這一節(jié)需要解決在模型的哪一階段進行模態(tài)的融合

文章中總結(jié)了幾個融合的階段:

a) 前融合(early fusion):下圖(a)蛹磺,直接融合原始的或經(jīng)過一定前處理的傳感器數(shù)據(jù)粟瞬。前融合的優(yōu)點——充分利用了原始數(shù)據(jù)中的信息量、同時處理多個傳感器可以降低整體運算和內(nèi)存消耗萤捆。缺點是——對傳感器數(shù)據(jù)的對齊(空間和時間上對齊)敏感裙品、模型的靈活性下降乓梨;

b) 后融合(late fusion):下圖(b),對每一個模態(tài)的檢測/識別結(jié)果進行融合清酥。后融合的優(yōu)點——高度靈活和模塊化,引入一個新的模態(tài)不會對原有網(wǎng)絡(luò)產(chǎn)生影響蕴侣。缺點是——高運算和內(nèi)存消耗焰轻,并且丟失了大量對于模態(tài)融合有益的中間信息;

c) 中間融合(middle fusion):在模型的特征層上昆雀,對不同模態(tài)數(shù)據(jù)被處理出的特征進行融合辱志。下圖的(c)(d)(e)均為中間融合的不同方式。

圖源[1]狞膘,不同階段的模態(tài)融合圖示

除了簡單的作出上述三個融合階段的劃分外揩懒,對于目標檢測任務(wù),還存在著復(fù)雜的融合模式(見下圖)挽封,例如雖然融合發(fā)生在模型的中間層已球,但并非直接在特征層上進行融合(因此不屬于middle fusion),而是在region proposal上進行融合辅愿。

圖源[1]智亮,對于目標檢測任務(wù)的一些不同的融合模式

“how to fuse”和“what to fuse”并不是割裂的,在不同的融合階段点待,使用的融合方法也存在差異:

a) 特征拼接常用于early和middle fusion阔蛉;

b) 相加或平均常用于middle fusion;

c) 集成和專家混合常用于middle和late fusion癞埠。


05 問題和挑戰(zhàn)

對于自動駕駛中多模態(tài)學(xué)習(xí)的研究状原,仍存在許多需要克服的問題和挑戰(zhàn)(詳見下表):

1. 數(shù)據(jù)

a) 數(shù)據(jù)的多樣性:獲取覆蓋復(fù)雜多樣的駕駛場景的大量多模態(tài)數(shù)據(jù)難以獲取

b) 數(shù)據(jù)和標注的質(zhì)量:標注錯誤降低算法性能;多模態(tài)數(shù)據(jù)的空間和時間對齊誤差影響算法學(xué)習(xí)

2. 融合方法

a) 在what/how/when to fuse上還有大量的工作可做

b) 融合網(wǎng)絡(luò)需要滿足自動駕駛的實時性要求

3. 其他

a) 評價指標:自動駕駛感知系統(tǒng)對魯棒性的要求更高苗踪,且在多模態(tài)系統(tǒng)中涉及到多個傳感器颠区,其在不同工況下的不確定性亦不相同。因此通铲,對模型的評價應(yīng)當引入魯棒性或不確定性指標

b) 更多的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

表源[1]瓦呼,問題和挑戰(zhàn)匯總


06 結(jié)語

需要強調(diào)的是:作者認為沒有直接的證據(jù)證明某一階段的融合就一定優(yōu)于在其他階段的融合,例如前融合就一定優(yōu)于后融合测暗。因為融合方法的性能和融合的模態(tài)央串、數(shù)據(jù)的情況、網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計等高度相關(guān)碗啄。

盡管如此质和,我也曾根據(jù)經(jīng)驗對不同融合階段進行對比(見下表)。在我看來稚字,純從理論上來說饲宿,由于前融合所損失的信息量最小厦酬,只要有合適的方法,就能夠在大多數(shù)場景下取得最佳的性能瘫想。

而這一“合適的方法”仗阅,正是學(xué)界不斷摸索的方向。

參考資料:

[1]?Feng, D., Haase-Schutz, C., Rosenbaum, L., Hertlein, H., Glaser, C., Timm, F., Wiesbeck, W., & Dietmayer, K. (2020). Deep Multi-Modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, Methods, and Challenges.?IEEE Transactions on Intelligent Transportation Systems, 1–20. https://doi.org/10.1109/TITS.2020.2972974.

[2]?https://arxiv.org/pdf/1902.07830.pdf

- END -

新朋友們可以看看我過往的相關(guān)文章

?

【相關(guān)推薦閱讀】

#多模態(tài)(一):下一代人機交互国夜?#

模式識別學(xué)科發(fā)展報告丨前言

“一心多用”的方法——多任務(wù)學(xué)習(xí)

NCP:19個神經(jīng)元完成自動駕駛减噪?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市车吹,隨后出現(xiàn)的幾起案子筹裕,更是在濱河造成了極大的恐慌谆棺,老刑警劉巖澜薄,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異香椎,居然都是意外死亡乐埠,警方通過查閱死者的電腦和手機抗斤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來丈咐,“玉大人豪治,你說我怎么就攤上這事〕豆蓿” “怎么了负拟?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長歹河。 經(jīng)常有香客問我掩浙,道長,這世上最難降的妖魔是什么秸歧? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任厨姚,我火速辦了婚禮,結(jié)果婚禮上键菱,老公的妹妹穿的比我還像新娘谬墙。我一直安慰自己,他們只是感情好经备,可當我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布拭抬。 她就那樣靜靜地躺著,像睡著了一般侵蒙。 火紅的嫁衣襯著肌膚如雪造虎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天纷闺,我揣著相機與錄音算凿,去河邊找鬼份蝴。 笑死,一個胖子當著我的面吹牛氓轰,可吹牛的內(nèi)容都是我干的婚夫。 我是一名探鬼主播,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼署鸡,長吁一口氣:“原來是場噩夢啊……” “哼案糙!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起储玫,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎萤皂,沒想到半個月后撒穷,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡裆熙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年端礼,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片入录。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡蛤奥,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出僚稿,到底是詐尸還是另有隱情凡桥,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布蚀同,位于F島的核電站缅刽,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蠢络。R本人自食惡果不足惜衰猛,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望刹孔。 院中可真熱鬧啡省,春花似錦、人聲如沸髓霞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽方库。三九已至分预,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間薪捍,已是汗流浹背笼痹。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工配喳, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人凳干。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓晴裹,卻偏偏與公主長得像,于是被迫代替她去往敵國和親救赐。 傳聞我的和親對象是個殘疾皇子涧团,可洞房花燭夜當晚...
    茶點故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容