特征圖中每個(gè)紅色框的中心點(diǎn)都可以對(duì)應(yīng)到原圖的某個(gè)點(diǎn)启昧,原圖中的這個(gè)點(diǎn)被稱為錨點(diǎn)(anchor)。對(duì)于每個(gè)錨點(diǎn)正驻,我們都會(huì)以它為中心點(diǎn)選擇 9 個(gè)不同大小和長(zhǎng)寬比例的框(論文中為 128 * 128,256 * 256抢腐,512 * 512 的三種尺寸姑曙,每種尺寸按 1:1,1:2,2:1的長(zhǎng)寬比例縮放,共 9 個(gè)迈倍,它們?cè)陬A(yù)測(cè)時(shí)的順序是固定的)伤靠,作為 RPN 需要評(píng)估的候選框。RPN 的目標(biāo)就是對(duì)原圖中的每個(gè)錨點(diǎn)對(duì)應(yīng)的 9 個(gè)框啼染,預(yù)測(cè)他是否是一個(gè)存在目標(biāo)的框(并不一定包含完整的目標(biāo)宴合,只要這個(gè)框與 groud truth 的 IoU>0.7就認(rèn)為這個(gè)框是一個(gè) region proposal)。并且對(duì)于預(yù)測(cè)為 region proposal 的框迹鹅, RPN 還會(huì)預(yù)測(cè)一種長(zhǎng)寬縮放和位置平移的位置修正卦洽,使得對(duì)這個(gè) anchor box 修正后與 groud truth 的位置盡可能重疊度越高,修正后的框作為真正的 region proposal斜棚。
RPN 的主要步驟如下:
1阀蒂、利用 VGG16 等卷積神經(jīng)網(wǎng)絡(luò)的卷積層的到一些特征圖,例如圖中的 256 個(gè) H * W 的特征圖
2弟蚀、在特征圖上用 3 * 3 的滑動(dòng)窗口進(jìn)行卷積蚤霞,得到進(jìn)一步的 256 * H * W 的特征圖,從特征的維度看可以看成 H * W 的特征圖上每個(gè)點(diǎn)都有一個(gè) 256 維的特征向量
3义钉、將特征圖上每個(gè)點(diǎn)的 256 維特征與兩個(gè)全連接層連接昧绣。第一個(gè)全連接層輸出 2 * 9 個(gè)值,即這個(gè)錨點(diǎn)對(duì)應(yīng)的 9 個(gè) achor box捶闸,每個(gè) box 兩個(gè)值分別表示包含目標(biāo)的概率與不包含的概率(使用了 softmax loss 所以需要兩個(gè)值)夜畴。例如前兩個(gè)值表示 128 * 128 的 box 包含與不包含目標(biāo)的概率。第二個(gè)全連接層輸出 4 * 9 個(gè)值鉴嗤,每個(gè) anchor box 對(duì)應(yīng) 4 個(gè)值斩启,它們分別表征對(duì) groud truth 的長(zhǎng)寬與x、y坐標(biāo)的預(yù)測(cè)醉锅。(訓(xùn)練時(shí)只有包含目標(biāo)(即與 groud truth 的 IoU>0.7)的 anchor box 對(duì) groud truth 位置與大小預(yù)測(cè)的誤差才會(huì)對(duì) loss 有貢獻(xiàn))
4兔簇、對(duì)步驟 3 中預(yù)測(cè)包含目標(biāo)的 anchor box,利用 4 個(gè)位置回歸值對(duì) box 進(jìn)行平移和縮放硬耍,就能產(chǎn)生大量的候選框垄琐,此時(shí)利用非極大值抑制篩選一些預(yù)測(cè)分較高的候選框,作為最終的 region proposals
疑問(wèn)一:為什么 RPN能夠預(yù)測(cè) groud truth 的位置(輸入特征只有圖像像素的卷積特征经柴,完全沒(méi)有位置信息)狸窘?
實(shí)際上步驟 3 中預(yù)測(cè)的 4 個(gè)值不是直接預(yù)測(cè) H, W, x, y,很顯然由于特征圖上每個(gè)點(diǎn)都是共享權(quán)值的坯认,它們根本沒(méi)法對(duì)不同的長(zhǎng)寬和位置做出直接的預(yù)測(cè)(想象一下輸入的特征只是圖像的卷積特征翻擒,完全沒(méi)有當(dāng)前 anchor box 的位置大小信息氓涣,顯然不可能預(yù)測(cè)出 groud truth 的絕對(duì)位置和大小)陋气。這 4 個(gè)值是預(yù)測(cè)如何經(jīng)過(guò)平移與縮放使得當(dāng)前這個(gè) anchor box 能與 groud truth 盡可能重合(見(jiàn) R-CNN 論文附錄C):
由于 4 個(gè) G 值與 4 個(gè) P 值都是已知的,那么我們訓(xùn)練時(shí)就有了 dx(P), dy(P), dw(P), dh(P) 的目標(biāo)值如圖所示:
只有圖像像素卷積信息確實(shí)沒(méi)法預(yù)測(cè) groud truth 的絕對(duì)位置和大小草讶,但是利用圖像信息完全有可能預(yù)測(cè)當(dāng)前 region proposal 在 grouth truth 中的相對(duì)位置,我們也就可以預(yù)測(cè)怎么對(duì)當(dāng)前 anchor box 進(jìn)行平移與縮放得到包含整個(gè)目標(biāo)的候選框炉菲。例如一輛自行車到涂,可能當(dāng)前的 anchor box 中包含著自行車的前輪與把手部分,當(dāng) cnn 檢測(cè)到這樣的特征時(shí)颁督,他就能預(yù)測(cè)將這個(gè) box 向右平移并且水平方向擴(kuò)大一倍就是整個(gè)自行車目標(biāo)的 groud truth部分践啄。