RoIPooling
- Conv layers使用的是VGG16航攒,feat_stride=32烫映,假定原圖中有一region proposal,大小為665 x 665兢交,這樣薪捍,映射到特征圖中的大小:665 / 32=20.78,即20.78 x 20.78配喳,在計算的時候會進(jìn)行取整操作酪穿,于是,進(jìn)行的第一次量化被济,即映射的特征圖大小為20*20
- 假定pooled_w=7,pooled_h=7,即pooling后固定成7x7大小的特征圖,所以涧团,將上面在 feature map上映射的20 x 20的 region proposal劃分成49個同等大小的小區(qū)域只磷,每個小區(qū)域的大小20 / 7=2.86,即2.86 x 2.86,此時泌绣,進(jìn)行第二次量化钮追,故每個7x7的中小區(qū)域所占的像素大小變成2 x 2
3 ) 每個2 x 2的小區(qū)域里,取出其中最大的像素值阿迈,作為這一個區(qū)域的‘代表’元媚,這樣,49個小區(qū)域就輸出49個像素值仿滔,組成7 x 7大小的feature map
- 假定pooled_w=7,pooled_h=7,即pooling后固定成7x7大小的特征圖,所以涧团,將上面在 feature map上映射的20 x 20的 region proposal劃分成49個同等大小的小區(qū)域只磷,每個小區(qū)域的大小20 / 7=2.86,即2.86 x 2.86,此時泌绣,進(jìn)行第二次量化钮追,故每個7x7的中小區(qū)域所占的像素大小變成2 x 2
- 經(jīng)過兩次量化惠毁,即將浮點數(shù)取整,原本在特征圖上映射的20 x 20大小的region proposal崎页,偏差成大小為14 x 14的鞠绰,這樣的像素偏差勢必會對后層的回歸定位產(chǎn)生影響
RoIAlign
- 與RoIPooling類似,假定pooled_w=7,pooled_h=7,即pooling后固定成7 x 7大小的特征圖飒焦,所以蜈膨,將在 feature map上映射的20.78 x 20.78的region proposal 劃分成49個同等大小的小區(qū)域屿笼,每個小區(qū)域的大小20.78 / 7=2.97,即2.97 x 2.97
- 假定采樣點數(shù)為4,即表示翁巍,對于每個2.97 x 2.97的小區(qū)域驴一,平分四份,每一份取其中心點位置灶壶,而中心點位置的像素肝断,采用雙線性插值法進(jìn)行計算,這樣驰凛,就會得到四個點的像素值胸懈,如下圖
- 上圖中右四個
x
就是四個小區(qū)域的中心點,也就是說對更加精細(xì)的插值得到更加平滑的邊界恰响。最后趣钱,取四個像素值中最大值作為這個小區(qū)域(即:2.97 x 2.97大小的區(qū)域)的像素值同樣是49個小區(qū)域得到49個像素值,組成7 x 7大小的feature map