8.1 R-FCN
R-FCN屬于two-stage的目標(biāo)檢測算法搜骡。
- backbone部分RPN框舔,這里使用ResNet末早。
- head部分R-FCN辩尊,使用全連接網(wǎng)絡(luò)涛浙。
其中ResNet-101 + R-FCN的方法在PASCAL VOC 2007測試數(shù)據(jù)集的mmAP達(dá)到83.6%。
R-FCN的核心思想
- 得到目標(biāo)多個特征摄欲。
假設(shè)我們只有一個特征圖用來檢測右眼轿亮。那么我們可以使用它定位人臉嗎?應(yīng)該可以胸墙。因?yàn)橛已蹜?yīng)該在人臉圖像的左上角我注,所以我們可以利用這一點(diǎn)定位整個人臉。如果我們還有其他用來檢測左眼迟隅、鼻子或嘴巴的特征圖但骨,那么我們可以將檢測結(jié)果結(jié)合起來,更好地定位人臉智袭。 - 使用全卷積網(wǎng)絡(luò)提高推理速度
在Faster R-CNN中奔缠,檢測器使用了多個全連接層進(jìn)行預(yù)測。如果有2000個ROI吼野,那么成本非常高校哎。R-FCN通過減少每個ROI所需的工作量實(shí)現(xiàn)加速。上面基于區(qū)域的特征圖與ROI是獨(dú)立的瞳步,可以在每個ROI之外單獨(dú)計(jì)算闷哆。剩下的工作就比較簡單了,因此R-FCN的速度比Faster R-CNN快单起。
現(xiàn)在我們來看一下的特征圖M抱怔,內(nèi)部包含一個灰色方塊。我們將方塊平均分成3×3個區(qū)域馏臭。在M中創(chuàng)建了一個新的特征圖野蝇,來檢測方塊的左上角(TL)讼稚。這個新的特征圖如圖2(右)所示括儒。只有綠色的網(wǎng)格單元[2,2]處于激活狀態(tài)。
我們將方塊分成9個部分锐想,由此創(chuàng)建了9個特征圖帮寻,每個用來檢測對應(yīng)的目標(biāo)區(qū)域。這些特征圖叫做位置敏感得分圖(position-sensitive score map)赠摇,因?yàn)槊總€圖檢測目標(biāo)的子區(qū)域(計(jì)算其得分)固逗。
圖4中紅色虛線矩形是建議的ROI浅蚪。我們將其分割成3×3個區(qū)域,并詢問每個區(qū)域包含目標(biāo)對應(yīng)部分的概率是多少烫罩。例如惜傲,左上角ROI區(qū)域包含左眼的概率。我們將結(jié)果存儲成3×3 vote數(shù)組贝攒,如圖4(右)所示盗誊。例如,vote_array[0][0]包含左上角區(qū)域是否包含目標(biāo)對應(yīng)部分的得分隘弊。
將ROI應(yīng)用到特征圖上哈踱,輸出一個3x3數(shù)組。將得分圖和ROI映射到vote數(shù)組的過程叫做位置敏感ROI池化(position-sensitive ROI-pool)梨熙。
將ROI的一部分疊加到對應(yīng)的得分圖上开镣,計(jì)算V[i][j]。在計(jì)算出位置敏感ROI池化的所有值后咽扇,類別得分是其所有元素得分的平均值邪财。
假如我們有C個類別要檢測。我們將其擴(kuò)展為C+1個類別质欲,這樣就為背景(非目標(biāo))增加了一個新的類別卧蜓。每個類別有3×3個得分圖,因此一共有(C+1)×3×3個得分圖把敞。使用每個類別的得分圖可以預(yù)測出該類別的類別得分弥奸。然后我們對這些得分應(yīng)用 softmax 函數(shù),計(jì)算出每個類別的概率奋早。以下是數(shù)據(jù)流圖盛霎,在本案例中,k=3耽装。