《ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection》論文詳解

論文地址:ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection

github地址:https://github.com/wangyuxin87/ContourNet

該論文發(fā)表與CVPR2020。

文章認(rèn)為現(xiàn)在自然場景主要存在兩個挑戰(zhàn):1. 誤檢問題 2. 自然場景中文本尺度變化較大使得網(wǎng)絡(luò)難以學(xué)習(xí)。

為了解決上述的兩個問題,文章提出了Local Orthogonal Texture-aware Module (LOTM)來緩解誤檢問題复濒,Adaptive Region Proposal Network(Adaptive-RPN)來解決文本尺度問題。

一汉买、網(wǎng)絡(luò)結(jié)構(gòu)

ContourNet整體結(jié)構(gòu)如下圖所示瓷蛙〖垂眩可以看出網(wǎng)絡(luò)主要由三部分修然,Adaptive Region Proposal Network (Adaptive-RPN), Local Orthogonal Texture-aware Module (LOTM) and Point Re-scoring Algorithm笛钝。

整體來看采用的是2-stage的方式。圖片先經(jīng)過backbone+FPN結(jié)構(gòu)的網(wǎng)絡(luò)愕宋,將FPN輸出的feature送入Aaptive RPN獲取proposals婆翔,然后通過Deformable RoI pooling將feature map對應(yīng)區(qū)域特征提取送個LOTM模型,最終經(jīng)過Point Re-scoring Algorithm輸出文本的檢測區(qū)域掏婶。


1.png

1.1 Adaptive-RPN

RPN是2-stage物體檢測中常用的結(jié)構(gòu),通常是在anchorB_c=\{x_c, y_c, w_c, h_c\}基礎(chǔ)上回歸獲得預(yù)測的proposal B_t=\{x_c+w_c\Delta{x_c}, y_c+h_c\Delta{y_c}, w_ce^{\Delta{w_c}}, h_ce^{\Delta{h_c}}\}潭陪。通常訓(xùn)練時采用smooth l1 loss雄妥,但是這種loss在大小不同的gt框情況下最蕾,對于相同IoU的檢測框loss值不一樣,所以對于優(yōu)化檢測框IoU來說是不太合適的老厌。

為了解決上述問題瘟则,文章提出Adaptive-RPN,不同于RPN回歸\{\Delta{x}, \Delta{y}, \Delta{w}, \Delta{h}\}枝秤。

首先預(yù)定義一些點(diǎn)P=\{(x_1, y_l)\}^n_{l=1}(這n個點(diǎn)中包含了1個中心點(diǎn)和n-1個邊界點(diǎn))醋拧,然后回歸獲得新的點(diǎn)

R=\{x_r, y_r\}^n_{r=1}=\{(x_l+w_c\Delta{x_l}, y_l+h_c\Delta{y_l})\}^n_{l=1}

上式中淀弹,\{\Delta{x_l}, \Delta{y_l}\}^n_{l=1}是預(yù)測的對應(yīng)的點(diǎn)offsets丹壕,w_ch_c為對應(yīng)anchor框的寬和高。

獲得回歸后的點(diǎn)后薇溃,利用max-min函數(shù)求得對應(yīng)的proposal框菌赖,公式如下:

Proposal=\{x_{tl}, y_{tl}, x_{rb}, y_{rb}\}\\=\{min\{x_r\}^n_{r=1}, min\{y_r\}^n_{r=1}, max\{x_r\}^n_{r=1}, max\{y_r\}^n_{r=1}\}

需要特別說明的是,n點(diǎn)中包含的中心點(diǎn)\{x', y'\}也是為了限制框邊界的沐序,例如如果x_{tl} > x', 那么x_{tl}=x'琉用。

RPN回歸方式和Adaptive-RPN回歸方式示意圖如下:


2.png

1.2 LOTM

該模塊的靈感來源于傳統(tǒng)的邊緣檢測算法,例如Sobel算子策幼。LOTM模塊如下所示:

3.png

LOTM由兩個平行的支路組成邑时。圖中上路分支采用1\times k的卷積核對文本水平方向的信息進(jìn)行提取,相同的下路分支采用k\times 1的卷積核對文本豎直方向的信息進(jìn)行提取特姐。k為超參晶丘。兩路分支的卷積結(jié)果分別經(jīng)過sigmoid層將feature轉(zhuǎn)為值在[0,1]之間的heatmaps,這兩個heatmaps分別表示文字輪廓兩個正交方向的響應(yīng)信息到逊。

1.4 Point Re-scoring Algorithm

該模塊就是為了將LOTM輸出的兩個方向的響應(yīng)信息融合出最終的輪廓信息铣口。該模型的偽代碼如下所示:


4.png

偽代碼中的NMS_HNMS_V就是采用類似1\times kk\times 1的核進(jìn)行maxpooling操作。k文章采用3觉壶,\theta這里設(shè)置為0.5脑题。

經(jīng)過這一步后就獲得了文本最終的文本輪廓。

二铜靶、Loss計(jì)算

網(wǎng)絡(luò)采用的Loss如下式所示:

L=L_{Arpn_{cls}}+\lambda_{Areg}L_{Arpn_{reg}}+\lambda_{Hcp}L_{Hcp}+\lambda_{Vcp}L_{Vcp}+\lambda_{box_{cls}}L_{box_{cls}}+\lambda_{box_{reg}}L_{box_{reg}}

上式中L_{Arpn_{cls}}, L_{Arpn_{reg}}, L_{Hcp},L_{Vcp}, L_{box_{cls}}, L_{box_{reg}}分別表示Adaptive-RPN 分類loss叔遂, Adaptive-RPN 回歸loss, 水平方向的contour point loss争剿, 豎直方向的contour point loss已艰, bounding box 分類loss, bounding box回歸loss蚕苇。對應(yīng)的\lambda值除\lambda_{Areg}外作為balance的超參哩掺,其余都是1.

2.1 Adaptive-RPN Loss

上面講過Adaptive-RPN為了緩解框大小帶來的問題,所以Adaptive-RPN回歸Loss采用IoU loss:

L_{Arpn_{reg}}=-log\frac{Intersection + 1}{Union +1}

上式中Intersection和Union表示gt和預(yù)測proposal之間的交集和并集涩笤。

Adaptive-RPN分類Loss采用cross-entropy loss嚼吞。

2.2 LOTM Loss

為了解決正負(fù)樣本不均衡的問題盒件,LOTM模型的loss監(jiān)督采用class-balanced cross-entropy loss,如下所示:

L_{Hcp}=L_{Vcp}=L_{cp}=-\frac{N_{neg}}{N}y_ilogp_i-\frac{N_{pos}}{N}(1-y_i)log(1-p_i)

這里y_ip_i表示gt和預(yù)測的像素值舱禽。N_{neg}N_{pos}分別表示負(fù)樣本和正樣本的個數(shù)炒刁,N表示總樣本數(shù)。

2.3 bounding box Loss

Bounding box loss同faster rcnn誊稚。

三翔始、gt

所有的訓(xùn)練數(shù)據(jù)集都是采用多邊形的標(biāo)注方式,多邊形邊緣的點(diǎn)都是用于訓(xùn)練的輪廓點(diǎn)里伯。(使用scipy包中的distance_transform_edit函數(shù)獲取)

Adaptive-RPN的gt獲取采用預(yù)測時類似的方式max-min獲取得到城瞎。

文章的原理基本是這樣的,具體實(shí)驗(yàn)可以查看原文俏脊。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末全谤,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子爷贫,更是在濱河造成了極大的恐慌认然,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件漫萄,死亡現(xiàn)場離奇詭異卷员,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)腾务,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門毕骡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人岩瘦,你說我怎么就攤上這事未巫。” “怎么了启昧?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵叙凡,是天一觀的道長。 經(jīng)常有香客問我密末,道長握爷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任严里,我火速辦了婚禮新啼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘刹碾。我一直安慰自己燥撞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著叨吮,像睡著了一般辆布。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上茶鉴,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天,我揣著相機(jī)與錄音景用,去河邊找鬼涵叮。 笑死,一個胖子當(dāng)著我的面吹牛伞插,可吹牛的內(nèi)容都是我干的割粮。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼媚污,長吁一口氣:“原來是場噩夢啊……” “哼舀瓢!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起耗美,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤京髓,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后商架,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體堰怨,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年蛇摸,在試婚紗的時候發(fā)現(xiàn)自己被綠了备图。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡赶袄,死狀恐怖揽涮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情饿肺,我是刑警寧澤蒋困,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站唬格,受9級特大地震影響家破,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜购岗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一汰聋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧喊积,春花似錦烹困、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拟蜻。三九已至,卻和暖如春枯饿,著一層夾襖步出監(jiān)牢的瞬間酝锅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工奢方, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留搔扁,地道東北人。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓蟋字,卻偏偏與公主長得像稿蹲,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鹊奖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容