論文地址:《ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection》
github地址:https://github.com/wangyuxin87/ContourNet
該論文發(fā)表與CVPR2020。
文章認(rèn)為現(xiàn)在自然場景主要存在兩個挑戰(zhàn):1. 誤檢問題 2. 自然場景中文本尺度變化較大使得網(wǎng)絡(luò)難以學(xué)習(xí)。
為了解決上述的兩個問題,文章提出了Local Orthogonal Texture-aware Module (LOTM)來緩解誤檢問題复濒,Adaptive Region Proposal Network(Adaptive-RPN)來解決文本尺度問題。
一汉买、網(wǎng)絡(luò)結(jié)構(gòu)
ContourNet整體結(jié)構(gòu)如下圖所示瓷蛙〖垂眩可以看出網(wǎng)絡(luò)主要由三部分修然,Adaptive Region Proposal Network (Adaptive-RPN), Local Orthogonal Texture-aware Module (LOTM) and Point Re-scoring Algorithm笛钝。
整體來看采用的是2-stage的方式。圖片先經(jīng)過backbone+FPN結(jié)構(gòu)的網(wǎng)絡(luò)愕宋,將FPN輸出的feature送入Aaptive RPN獲取proposals婆翔,然后通過Deformable RoI pooling將feature map對應(yīng)區(qū)域特征提取送個LOTM模型,最終經(jīng)過Point Re-scoring Algorithm輸出文本的檢測區(qū)域掏婶。
1.1 Adaptive-RPN
RPN是2-stage物體檢測中常用的結(jié)構(gòu),通常是在anchor基礎(chǔ)上回歸獲得預(yù)測的proposal 潭陪。通常訓(xùn)練時采用smooth l1 loss雄妥,但是這種loss在大小不同的gt框情況下最蕾,對于相同IoU的檢測框loss值不一樣,所以對于優(yōu)化檢測框IoU來說是不太合適的老厌。
為了解決上述問題瘟则,文章提出Adaptive-RPN,不同于RPN回歸枝秤。
首先預(yù)定義一些點(diǎn)(這n個點(diǎn)中包含了1個中心點(diǎn)和n-1個邊界點(diǎn))醋拧,然后回歸獲得新的點(diǎn)
。
上式中淀弹,是預(yù)測的對應(yīng)的點(diǎn)offsets丹壕,和為對應(yīng)anchor框的寬和高。
獲得回歸后的點(diǎn)后薇溃,利用max-min函數(shù)求得對應(yīng)的proposal框菌赖,公式如下:
需要特別說明的是,n點(diǎn)中包含的中心點(diǎn)也是為了限制框邊界的沐序,例如
RPN回歸方式和Adaptive-RPN回歸方式示意圖如下:
1.2 LOTM
該模塊的靈感來源于傳統(tǒng)的邊緣檢測算法,例如Sobel算子策幼。LOTM模塊如下所示:
LOTM由兩個平行的支路組成邑时。圖中上路分支采用的卷積核對文本水平方向的信息進(jìn)行提取,相同的下路分支采用的卷積核對文本豎直方向的信息進(jìn)行提取特姐。k為超參晶丘。兩路分支的卷積結(jié)果分別經(jīng)過sigmoid層將feature轉(zhuǎn)為值在[0,1]之間的heatmaps,這兩個heatmaps分別表示文字輪廓兩個正交方向的響應(yīng)信息到逊。
1.4 Point Re-scoring Algorithm
該模塊就是為了將LOTM輸出的兩個方向的響應(yīng)信息融合出最終的輪廓信息铣口。該模型的偽代碼如下所示:
偽代碼中的和就是采用類似和的核進(jìn)行maxpooling操作。k文章采用3觉壶,這里設(shè)置為0.5脑题。
經(jīng)過這一步后就獲得了文本最終的文本輪廓。
二铜靶、Loss計(jì)算
網(wǎng)絡(luò)采用的Loss如下式所示:
上式中分別表示Adaptive-RPN 分類loss叔遂, Adaptive-RPN 回歸loss, 水平方向的contour point loss争剿, 豎直方向的contour point loss已艰, bounding box 分類loss, bounding box回歸loss蚕苇。對應(yīng)的值除外作為balance的超參哩掺,其余都是1.
2.1 Adaptive-RPN Loss
上面講過Adaptive-RPN為了緩解框大小帶來的問題,所以Adaptive-RPN回歸Loss采用IoU loss:
上式中Intersection和Union表示gt和預(yù)測proposal之間的交集和并集涩笤。
Adaptive-RPN分類Loss采用cross-entropy loss嚼吞。
2.2 LOTM Loss
為了解決正負(fù)樣本不均衡的問題盒件,LOTM模型的loss監(jiān)督采用class-balanced cross-entropy loss,如下所示:
這里和表示gt和預(yù)測的像素值舱禽。和分別表示負(fù)樣本和正樣本的個數(shù)炒刁,N表示總樣本數(shù)。
2.3 bounding box Loss
Bounding box loss同faster rcnn誊稚。
三翔始、gt
所有的訓(xùn)練數(shù)據(jù)集都是采用多邊形的標(biāo)注方式,多邊形邊緣的點(diǎn)都是用于訓(xùn)練的輪廓點(diǎn)里伯。(使用scipy包中的distance_transform_edit函數(shù)獲取)
Adaptive-RPN的gt獲取采用預(yù)測時類似的方式max-min獲取得到城瞎。
文章的原理基本是這樣的,具體實(shí)驗(yàn)可以查看原文俏脊。