通過角點定位和場景分割的多朝向場景文本檢測
論文主要思想
通過定位文本邊框的角點和相對位置的文本區(qū)域分割
網絡
網絡架構
Net.png
特征提取
- 使用全卷積網絡來提取特征、角點檢測权谁、位置敏感分割
- 模型的主干是預訓練的VGG16
- 引入了FPN/DSSD的主干來提取特征
特征提取細節(jié)
- 將VGG16的fc6和fc7分別轉換為卷積層conv6和conv7
- 額外的卷積層(conv8 conv9 conv10 conv11)疊于conv7上方來增大特征提取的感受野
- 一些DSSD提取的反卷積模塊被用天top-down路徑中
- 為了更好的檢測不同大小的文本,使用從conv11到conv3 256通道的反卷積模塊(conv10 9 8 7 4 conv3的特征被重復使用)
- 一共內置6個反卷積模塊
- 通過conv11和反卷積模塊有更豐富的特征表示,被用來檢測角點和預測poistion-sensitive maps
角點檢測
- 類似SSD和DSSD,用默認框檢測角點
- 每一個默認框輸出分類得分和偏移,對應于4種類型的角點
- 采用以一種卷積的方式用兩個分支來預測得分和偏移
- 卷積fiters都設置為256
- 每個cell有k個default boxes
- "score"分支和"offset"分支分別為每一個默認框的每種類型角點輸出2個分數(shù)和4個偏移(2是指在這個位置是否存在一個角點)
Position-Sensitive 分割
- 對于文本邊框R,一個g*g的網格被用來將邊框分成不同的bins
- 對于每個bin,一個segmentation map被用來決定map中的這個像素是不是屬于這個bin
- 重新使用了F3 F4 F7 F8 F9的特征,他們上面建一些卷積模塊,遵循角本檢測分支的殘余模塊
- 這些塊被resize為F3大小,然后用1 2 4 8 16的scale factor.同一尺寸的的輸出被加在一起產生更豐富的特征
- 最后position-sensitive分割圖有g*g通道,大小跟輸入圖一樣大,g默認為2
損失函數(shù)
lconf.png
lloc.png
llseq.png
Loss.png