SSD的網(wǎng)絡(luò)分為兩部分,前半部分是用于圖像分類的標(biāo)準(zhǔn)網(wǎng)絡(luò)(去掉了分類相關(guān)的層)贤旷,后面的網(wǎng)絡(luò)是用于檢測的多尺度特征映射層,從而達到檢測不同大小的目標(biāo)。SSD在保持YOLO高速的同時效果也提升很多盲憎,主要是借鑒了Faster R-CNN中的Anchor機制,取消了提取proposal的過程胳挎,同時使用了多尺度的feature map饼疙。
SSD vs YOLO
SSD的做法非常直接,既然提取proposal之后仍然要做分類和邊界回歸,那么不如直接認為feature map上的每一個位置都可能是建議區(qū)域窑眯,這樣一來就可以不用提取proposal了屏积。另外,提取proposal時Anchor機制還可以繼續(xù)使用磅甩,只不過defaut box的尺度多樣性體現(xiàn)在不同尺度的feature map上炊林。
SSD
在多尺度的feature map上做檢測可以同時兼顧大目標(biāo)和小目標(biāo)。上圖 (a) 表示帶有兩個Ground Truth邊框的輸入圖片卷要,圖 (b) 和 (c) 分別表示8×8網(wǎng)格和4×4網(wǎng)格渣聚,顯然前者適合檢測小的目標(biāo),比如圖片中的貓僧叉,后者適合檢測大的目標(biāo)奕枝,比如圖片中的狗。在每個格子上有一系列固定大小的Box瓶堕,這些在SSD稱為Default Box隘道,用來框定目標(biāo)物體的位置,在訓(xùn)練的時候Ground Truth會賦予給某個固定的Box郎笆,比如圖(b)中的藍框和圖(c)中的紅框谭梗。