這篇文章整體沒(méi)什么好說(shuō)的阻荒,只是將Deformable DETR應(yīng)用到了LiDAR 3D檢測(cè)任務(wù)上盛险,所以我們這里看一下其細(xì)節(jié)部分就行拯欧。
1. 方法
下圖是Li3DeTr 的整體結(jié)構(gòu)拱烁, 首先網(wǎng)絡(luò)的輸入是由LiDAR得到的點(diǎn)云數(shù)據(jù)霜定,點(diǎn)云首先經(jīng)過(guò)SparseConv 或者 PointPillars 網(wǎng)絡(luò)將點(diǎn)云數(shù)據(jù)轉(zhuǎn)到BEV上,然后經(jīng)過(guò)FPN生成多尺度的BEV特征思喊,這里 (SparseConv/PointPillars + FPN)稱為backbone部分壁酬,然后經(jīng)過(guò)由多層encoder layer組成的encoder部分,encoder部分和deformable DETR中的定義相同恨课,每個(gè)feature map上的pixel作為query舆乔,來(lái)自多l(xiāng)evel的特征圖由deformable 形式選擇的點(diǎn)作為value進(jìn)行融合,融合后的特征稱為L(zhǎng)iDAR Global Features, 接著將global features 送入到decoder中進(jìn)行解碼剂公,這里和deformable detr的操作也類(lèi)似希俩,即一組可學(xué)習(xí)參數(shù)稱為queries,先經(jīng)過(guò)MHSA交互纲辽,再送入cross attention中與global feature交互颜武,cross attention中同樣采用的deformable attention的形式降低計(jì)算量,注意cross attention中deformable使用的ref_pts 由queries經(jīng)過(guò)單層線性層映射得到拖吼。decoder 由多層decoder layer構(gòu)成鳞上,最終輸出進(jìn)行set2set_prediction的監(jiān)督約束。
ok吊档,接下來(lái)看下細(xì)節(jié):
- encoder 完全采用的deformable detr的detr結(jié)構(gòu)
- decoder layer的每一層ref_pts, 由輸入query經(jīng)FC生成篙议,
- decoder layer 中attention的計(jì)算方式
, 其中
表示第j層的global feat,總共4個(gè)level籍铁,
表示將第i個(gè)ref_pts 映射到第j個(gè)level尺度上的位置涡上,
是由
經(jīng)過(guò)FC層生成的,可以發(fā)現(xiàn)和deformable attention相比拒名,這里沒(méi)有生成offset吩愧,而是每個(gè)level的feat上只取對(duì)應(yīng)ref_pts位置的雙線性插值特征進(jìn)行加權(quán)和。最后query的更新方式為
這里
是對(duì)ref_pts的位置編碼增显,有點(diǎn)奇怪的是這里是在skip-connection的基礎(chǔ)上又加上了位置編碼雁佳,然后再進(jìn)行LayerNorm?
- decoder layer的每一層bbox_embed 預(yù)測(cè)的是相對(duì)于前一層layer的ref_pts的delta增量同云,包括
.
2. 實(shí)驗(yàn)
消融實(shí)驗(yàn)
-
object category
文章對(duì)比的transformer方法是Object-DGCNN糖权,因?yàn)樽髡哒J(rèn)為該模型是和本文方法類(lèi)似的standalone transformer 模型,對(duì)比更公平炸站。作者認(rèn)為該方法由于使用多尺度的deformable attention能夠充分利用lidar的更長(zhǎng)距離特征星澳,因此對(duì)于大目標(biāo)提升更明顯,比如vehicle旱易、trailer禁偎,truck等腿堤,即使是數(shù)目較少的bicycle類(lèi)本文方法相對(duì)于Obj-DGCNN也提升了6.9個(gè)點(diǎn),作者認(rèn)為是cross attention中l(wèi)ocal和global特征的抽取如暖。
image.png -
object distance
本文對(duì)30m外的目標(biāo)的指標(biāo)mAP提升最明顯笆檀,作者認(rèn)為是本文的attention 建模了long-range的交互,即使遠(yuǎn)處的點(diǎn)云較稀疏盒至。
image.png -
object size
基于transformer的目標(biāo)在大目標(biāo)上的提升會(huì)更高一些酗洒。
image.png - attention blocks
這個(gè)地方?jīng)]有搞懂為什么本文的cross attention和deformable detr差距不大但指標(biāo)帶來(lái)這么大變化,需要看下代碼枷遂。 - number of queries
900個(gè)query效果最好樱衷,這個(gè)可能得依賴具體的任務(wù)場(chǎng)景
3. 結(jié)論
本質(zhì)就是DeformableDETR在LiDAR數(shù)據(jù)上的應(yīng)用。