【學(xué)習(xí)筆記算凿,僅作參考,歡迎交流】
發(fā)表于 ECCV-2016 的 SSD 算法是繼 Faster RCNN 和 YOLO 之后又一個(gè)杰出的物體檢測(cè)算法犁功。與 Faster RCNN 和 YOLO 相比氓轰,它的識(shí)別速度和性能都得到了顯著的提高。
1. 物體檢測(cè)
- 定位 (Localization): 檢測(cè)器需要給出物體在圖像中的位置 (bounding box)
-
分類 (Classification): 檢測(cè)器需要給出物體的類別 (label)
圖片修改自斯坦福 CS231N 課件
2. 相關(guān)的算法
-
基于區(qū)域的算法: RCNN, Fast RCNN, Faster RCNN, Mask RCNN 等
整個(gè)檢測(cè)過(guò)程分為兩個(gè)階段浸卦。在第一個(gè)階段署鸡,檢測(cè)器需要找到一些假設(shè)的區(qū)域 (ROI);在第二個(gè)階段,檢測(cè)器需要在這些假設(shè)區(qū)域上進(jìn)行分類 (classification) 和 位置回歸 (bounding box regression)靴庆。
Faster RCNN -
基于回歸的算法:YOLO 等
端到端 (end-to-end) 的檢測(cè)過(guò)程时捌,直接回歸出物體的類別和位置。
YOLO
3. SSD算法
SSD 算法是 Faster RCNN 和 YOLO 的結(jié)合:
- 采用了基于回歸的模式(類似于YOLO)炉抒,在一個(gè)網(wǎng)絡(luò)中直接回歸出物體的類別和位置奢讨,因此檢測(cè)速度很快。
- 同時(shí)也利用了基于區(qū)域的概念(類似于Faster RCNN)焰薄,在檢測(cè)的過(guò)程中拿诸,使用了許多候選區(qū)域作為ROI。
骨干網(wǎng)絡(luò):
SSD的骨干網(wǎng)絡(luò)是基于傳統(tǒng)的圖像分類網(wǎng)絡(luò)塞茅,例如 VGG亩码,ResNet 等。本文以 VGG16 為例進(jìn)行分析野瘦。如下圖所示描沟,經(jīng)過(guò)10個(gè)卷積層(con. layer) 和 3個(gè)池化層(max pooling) 的處理,我們可以得到一個(gè)尺寸為 38×38×512 的特征圖 (feature map)鞭光。下一步吏廉,我們需要在這個(gè)特征圖上進(jìn)行回歸,得到物體的位置和類別衰猛。
回歸 (Regression):
和 YOLO 的回歸操作相似迟蜜,首先我們先考慮在特征圖的每個(gè)位置上,有且只有一個(gè)候選框(default box)的情況啡省。
- 位置回歸:檢測(cè)器需要給出框中心偏移量 (cx,cy)娜睛,相對(duì)于圖片尺寸的寬度和高度 (w,h),總計(jì)需要回歸四個(gè)值卦睹。
-
分類: 對(duì)于每一個(gè) bounding box畦戒,我們需要給出 20個(gè)類別+1個(gè)背景類 的得分(score)。
回歸
對(duì)于每一個(gè)位置结序,我們需要一個(gè)25維的向量來(lái)存儲(chǔ)檢測(cè)物體的位置和類別信息障斋。對(duì)于我們的38×38的特征圖,我們需要一個(gè)維度為 38×38×25 的空間來(lái)存儲(chǔ)這些信息徐鹤。因此垃环,檢測(cè)器需要學(xué)習(xí)特征圖(38×38×512)到檢測(cè)結(jié)果(38×38×25)的映射關(guān)系。這一步轉(zhuǎn)換返敬,使用的是卷積操作:使用25個(gè)3×3的卷積核遂庄,對(duì)特征圖進(jìn)行卷積。到這里劲赠,我們已經(jīng)完成了在每個(gè)位置上回歸一個(gè)框的操作涛目。 - 多個(gè)候選框:SSD在每個(gè)位置上秸谢,希望回歸k個(gè)基于不同尺寸的框。因此在每個(gè)位置上需要 25×k 維的空間霹肝,存儲(chǔ)這些框的回歸和分類信息估蹄,因而卷積操作變成了使用 25×k個(gè)3×3的卷積核,來(lái)獲得 38×38×25k 維度的檢測(cè)結(jié)果圖(score map)沫换。
-
多個(gè)特征圖:對(duì)于神經(jīng)網(wǎng)絡(luò)臭蚁,淺層的特征圖包含了更較多的細(xì)節(jié)信息,更適合進(jìn)行小物體的檢測(cè)苗沧;而較深的特征圖包含了更多的全局信息刊棕,更適合大物體的檢測(cè)。因此待逞,通過(guò)在不同的特征圖上對(duì)不同尺寸的候選框進(jìn)行回歸,可以對(duì)不同尺寸的物體有更好的檢測(cè)結(jié)果网严。
多個(gè)特征圖
4. 實(shí)驗(yàn)結(jié)果
SSD的檢測(cè)精度和速度都非常出色识樱,76.8 mAP 和 22FPS 超過(guò)了Faster RCNN和YOLO。