文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書
聲明:作者翻譯論文僅為學習,如有侵權請聯(lián)系作者刪除博文荡灾,謝謝歼郭!
翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation
Detecting Text in Natural Image with Connectionist Text Proposal Network
摘要
我們提出了一種新穎的連接文本提議網(wǎng)絡(CTPN)弯囊,它能夠準確定位自然圖像中的文本行。CTPN直接在卷積特征映射中的一系列細粒度文本提議中檢測文本行虽另。我們開發(fā)了一個垂直錨點機制,聯(lián)合預測每個固定寬度提議的位置和文本/非文本分數(shù)饺谬,大大提高了定位精度捂刺。序列提議通過循環(huán)神經(jīng)網(wǎng)絡自然地連接起來谣拣,該網(wǎng)絡無縫地結合到卷積網(wǎng)絡中,從而形成端到端的可訓練模型族展。這使得CTPN可以探索豐富的圖像上下文信息森缠,使其能夠檢測極其模糊的文本。CTPN在多尺度和多語言文本上可靠地工作仪缸,而不需要進一步的后處理贵涵,脫離了以前的自底向上需要多步后過濾的方法。它在ICDAR 2013和2015的基準數(shù)據(jù)集上達到了0.88和0.61的F-measure恰画,大大超過了最近的結果[8宾茂,35]。通過使用非常深的VGG16模型[27]拴还,CTPN的計算效率為0.14s每張圖像跨晴。在線演示獲取地址:http://textdet.com/。
關鍵詞
場景文本檢測片林;卷積網(wǎng)絡端盆;循環(huán)神經(jīng)網(wǎng)絡;錨點機制
1. 引言
在自然圖像中閱讀文本最近在計算機視覺中引起越來越多的關注[8费封,14爱谁,15,10孝偎,35访敌,11,9衣盾,1寺旺,28,32]势决。這是由于它的許多實際應用阻塑,如圖像OCR,多語言翻譯果复,圖像檢索等陈莽。它包括兩個子任務:文本檢測和識別。這項工作的重點是檢測任務[14虽抄,1走搁,28,32]迈窟,這是比在一個良好的裁剪字圖像[15私植,9]進行的識別任務更具有挑戰(zhàn)性。文本模式的大變化和高度雜亂的背景構成了精確文本定位的主要挑戰(zhàn)车酣。
目前的文本檢測方法大多采用自下而上的流程[28曲稼,1索绪,14,32贫悄,33]瑞驱。它們通常從低級別字符或筆畫檢測開始,后面通常會跟隨一些后續(xù)步驟:非文本組件過濾窄坦,文本行構建和文本行驗證钱烟。這些自底向上的多步驟方法通常復雜,魯棒性和可靠性較差嫡丙。它們的性能很大程度上依賴于字符檢測的結果拴袭,并且已經(jīng)提出了連接組件方法或滑動窗口方法。這些方法通常探索低級特征(例如曙博,基于SWT[3拥刻,13],MSER[14父泳,33般哼,23]或HoG[28])來區(qū)分候選文本和背景。但是惠窄,如果沒有上下文信息蒸眠,他們不能魯棒的單獨識別各個筆劃或字符。例如杆融,相比單個字符人們更信任一個字符序列楞卡,特別是當一個字符非常模糊時。這些限制在字符檢測中通常會導致大量非文本組件脾歇,在后續(xù)步驟中的主要困難是處理它們蒋腮。此外,正如[28]所指出的藕各,這些誤檢很容易在自下而上的過程中連續(xù)累積池摧。為了解決這些問題,我們利用強大的深度特征直接在卷積映射中檢測文本信息激况。我們開發(fā)的文本錨點機制能在細粒度上精確預測文本位置作彤。然后,我們提出了一種網(wǎng)內(nèi)循環(huán)架構乌逐,用于按順序連接這些細粒度的文本提議竭讳,從而允許它們編碼豐富的上下文信息。
深度卷積神經(jīng)網(wǎng)絡(CNN)最近已經(jīng)基本實現(xiàn)了一般物體檢測[25黔帕,5代咸,6]。最先進的方法是Faster Region-CNN(R-CNN)系統(tǒng)[25]成黄,其中提出了區(qū)域提議網(wǎng)絡(RPN)直接從卷積特征映射中生成高質(zhì)量類別不可知的目標提議呐芥。然后將RPN提議輸入Faster R-CNN[5]模型進行進一步的分類和微調(diào),從而實現(xiàn)通用目標檢測的最新性能奋岁。然而思瘟,很難將這些通用目標檢測系統(tǒng)直接應用于場景文本檢測,這通常需要更高的定位精度闻伶。在通用目標檢測中滨攻,每個目標都有一個明確的封閉邊界[2],而在文本中可能不存在這樣一個明確定義的邊界蓝翰,因為文本行或單詞是由許多單獨的字符或筆劃組成的光绕。對于目標檢測,典型的正確檢測是松散定義的畜份,例如诞帐,檢測到的邊界框與其實際邊界框(例如,PASCAL標準[4])之間的重疊>0.5爆雹,因為人們可以容易地從目標的主要部分識別它停蕉。相比之下,綜合閱讀文本是一個細粒度的識別任務钙态,需要正確的檢測慧起,覆蓋文本行或字的整個區(qū)域。因此册倒,文本檢測通常需要更準確的定義蚓挤,導致不同的評估標準,例如文本基準中常用的Wolf標準[19驻子,21]屈尼。
在這項工作中,我們通過將RPN架構[25]擴展到準確的文本行定義來填補這個空白拴孤。我們提出了幾種技術發(fā)展脾歧,針對我們的問題可以優(yōu)雅地調(diào)整通用目標檢測模型。我們通過提出一種網(wǎng)絡內(nèi)循環(huán)機制爭取更進一步演熟,使我們的模型能夠直接在卷積映射中檢測文本序列鞭执,避免通過額外昂貴的CNN檢測模型進行進一步的后處理。
1.1 貢獻
我們提出了一種新穎的連接文本提議網(wǎng)絡(CTPN)芒粹,它可以直接定位卷積層中的文本序列兄纺。這克服了以前的建立在字符檢測基礎上的自下而上方法帶來的一些主要限制。我們利用強深度卷積特性和共享計算機制的優(yōu)點化漆,提出了如圖1所示的CTPN架構估脆。主要貢獻如下:
圖1:(a)連接文本提議網(wǎng)絡(CTPN)的架構。我們通過VGG16模型[27]的最后一個卷積映射(conv5)密集地滑動3×3空間窗口座云。每行的序列窗口通過雙向LSTM(BLSTM)[7]循環(huán)連接疙赠,其中每個窗口的卷積特征(3×3×C)被用作256維的BLSTM(包括兩個128維的LSTM)的輸入付材。RNN層連接到512維的全連接層,接著是輸出層圃阳,聯(lián)合預測$k$個錨點的文本/非文本分數(shù)厌衔,y軸坐標和邊緣調(diào)整偏移。(b)CTPN輸出連續(xù)的固定寬度細粒度文本提議捍岳。每個框的顏色表示文本/非文本分數(shù)富寿。只顯示文本框正例的分數(shù)。
首先锣夹,我們將文本檢測的問題轉化為一系列細粒度的文本提議页徐。我們開發(fā)了一個錨點回歸機制,可以聯(lián)合預測每個文本提議的垂直位置和文本/非文本分數(shù)银萍,從而獲得出色的定位精度变勇。這背離了整個目標的RPN預測,RPN預測難以提供令人滿意的定位精度砖顷。
其次贰锁,我們提出了一種在卷積特征映射中優(yōu)雅連接序列文本提議的網(wǎng)絡內(nèi)循環(huán)機制。通過這種連接滤蝠,我們的檢測器可以探索文本行有意義的上下文信息豌熄,使其能夠可靠地檢測極具挑戰(zhàn)性的文本。
第三物咳,兩種方法無縫集成锣险,以符合文本序列的性質(zhì),從而形成統(tǒng)一的端到端可訓練模型览闰。我們的方法能夠在單個過程中處理多尺度和多語言的文本芯肤,避免進一步的后過濾或細化。
第四压鉴,我們的方法在許多基準數(shù)據(jù)集上達到了新的最先進成果崖咨,顯著改善了最近的結果(例如,0.88的F-measure超過了2013年ICDAR的[8]中的0.83油吭,而0.64的F-measure超過了ICDAR2015上[35]中的0.54 )击蹲。此外,通過使用非常深的VGG16模型[27]婉宰,這在計算上是高效的歌豺,導致了每張圖像0.14s的運行時間(在ICDAR 2013上)。
2. 相關工作
文本檢測心包。過去在場景文本檢測中的工作一直以自下而上的方法為主类咧,一般建立在筆畫或字符檢測上。它們可以粗略地分為兩類,基于連接組件(CC)的方法和基于滑動窗口的方法痕惋∏睿基于CC的方法通過使用快速濾波器來區(qū)分文本和非文本像素,然后通過使用低級屬性(例如強度血巍,顏色萧锉,梯度等[33珊随,14述寡,32,13叶洞,3])將文本像素貪婪地分為筆劃或候選字符鲫凶。基于滑動窗口的方法通過在圖像中密集地滑動多尺度窗口來檢測候選字符衩辟。字符或非字符窗口通過預先訓練的分類器螟炫,使用手動設計的特征[28,29]或最近的CNN特征[16]進行區(qū)分艺晴。然而昼钻,這兩種方法通常都會受到較差的字符檢測性能的影響,導致在接下來的組件過濾和文本行構建步驟中出現(xiàn)累積的錯誤封寞。此外然评,強大地過濾非字符組件或者自信地驗證檢測到的文本行本身就更加困難[1,33狈究,14]碗淌。另一個限制是通過在大量的滑動窗口上運行分類器,滑動窗口方法在計算上是昂貴的抖锥。
目標檢測亿眠。卷積神經(jīng)網(wǎng)絡(CNN)近來在通用目標檢測[25,5磅废,6]上已經(jīng)取得了實質(zhì)的進步纳像。一個常見的策略是通過使用廉價的低級特征來生成許多目標提議,然后使用強CNN分類器來進一步對生成的提議進行分類和細化拯勉。生成類別不可知目標提議的選擇性搜索(SS)[4]是目前領先的目標檢測系統(tǒng)中應用最廣泛的方法之一竟趾,如CNN(R-CNN)[6]及其擴展[5]。最近谜喊,Ren等人[25]提出了Faster R-CNN目標檢測系統(tǒng)潭兽。他們提出了一個區(qū)域提議網(wǎng)絡(RPN),可以直接從卷積特征映射中生成高質(zhì)量的類別不可知的目標提議斗遏。通過共享卷積計算RPN是快速的山卦。然而,RPN提議不具有判別性,需要通過額外的成本高昂的CNN模型(如Fast R-CNN模型[5])進一步細化和分類账蓉。更重要的是枚碗,文本與一般目標有很大的不同,因此很難直接將通用目標檢測系統(tǒng)應用到這個高度領域化的任務中铸本。
3. 連接文本提議網(wǎng)絡
本節(jié)介紹連接文本提議網(wǎng)絡(CTPN)的細節(jié)肮雨。它包括三個關鍵的貢獻,使文本定位可靠和準確:檢測細粒度提議中的文本箱玷,循環(huán)連接文本提議和邊緣細化怨规。
3.1 在細粒度提議中檢測文本
類似于區(qū)域提議網(wǎng)絡(RPN)[25],CTPN本質(zhì)上是一個全卷積網(wǎng)絡锡足,允許任意大小的輸入圖像波丰。它通過在卷積特征映射中密集地滑動小窗口來檢測文本行,并且輸出一系列細粒度的(例如舶得,寬度為固定的16個像素)文本提議掰烟,如圖1(b)所示。
我們以非常深的16層vggNet(VGG16)[27]為例來描述我們的方法沐批,該方法很容易應用于其他深度模型纫骑。CTPN的架構如圖1(a)所示。我們使用一個小的空間窗口3×3來滑動最后的卷積層特征映射(例如九孩,VGG16的conv5)先馆。conv5特征映射的大小由輸入圖像的大小決定,而總步長和感受野分別固定為16個和228個像素捻撑。網(wǎng)絡架構決定總步長和感受野磨隘。在卷積層中使用滑動窗口允許它共享卷積計算,這是減少昂貴的基于滑動窗口的方法的計算量的關鍵顾患。
通常番捂,滑動窗口方法采用多尺度窗口來檢測不同尺寸的目標,其中一個窗口尺度被固定到與目標的尺寸相似江解。在[25]中设预,Ren等人提出了一種有效的錨點回歸機制,允許RPN使用單尺度窗口檢測多尺度目標犁河。關鍵的洞察力是單個窗口能夠通過使用多個靈活的錨點來預測各種尺度和長寬比的目標鳖枕。我們希望將這種有效的錨點機制擴展到我們的文本任務。然而桨螺,實質(zhì)上文本與普通目標不同宾符,它們通常具有明確的封閉邊界和中心,可以從它的一部分推斷整個目標[2]灭翔。文本是一個沒有明顯封閉邊界的序列魏烫。它可能包含多層次的組件,如筆劃,字符哄褒,單詞稀蟋,文本行和文本區(qū)域等,這些組件之間沒有明確區(qū)分呐赡。文本檢測是在單詞或文本行級別中定義的退客,因此通過將其定義為單個目標(例如檢測單詞的一部分)可能很容易進行錯誤的檢測。因此链嘀,直接預測文本行或單詞的位置可能很難或不可靠萌狂,因此很難獲得令人滿意的準確性。一個例子如圖2所示管闷,其中RPN直接被訓練用于定位圖像中的文本行粥脚。
圖2:左:RPN提議窃肠。右:細粒度的文本提議包个。
我們尋找文本的獨特屬性,能夠很好地概括各個層次的文本組件冤留。我們觀察到由RPN進行的單詞檢測很難準確預測單詞的水平邊碧囊,因為單詞中的每個字符都是孤立的或分離的,這使得查找單詞的開始和結束位置很混亂纤怒。顯然糯而,文本行是一個序列,它是文本和通用目標之間的主要區(qū)別泊窘。將文本行視為一系列細粒度的文本提議是很自然的熄驼,其中每個提議通常代表文本行的一小部分,例如寬度為16個像素的文本塊烘豹。每個提議可能包含單個或多個筆劃瓜贾,字符的一部分,單個或多個字符等携悯。我們認為祭芦,通過固定每個提議的水平位置來預測其垂直位置會更準確,水平位置更難預測憔鬼。與預測目標4個坐標的RPN相比龟劲,這減少了搜索空間。我們開發(fā)了垂直錨點機制轴或,可以同時預測每個細粒度提議的文本/非文本分數(shù)和y軸的位置昌跌。檢測一般固定寬度的文本提議比識別分隔的字符更可靠,分隔字符容易與字符或多個字符的一部分混淆照雁。此外蚕愤,檢測一系列固定寬度文本提議中的文本行也可以在多個尺度和多個長寬比的文本上可靠地工作。
為此,我們設計如下的細粒度文本提議审胸。我們的檢測器密集地調(diào)查了conv5中的每個空間位置亥宿。文本提議被定義為具有16個像素的固定寬度(在輸入圖像中)。這相當于在conv5的映射上密集地移動檢測器砂沛,其中總步長恰好為16個像素烫扼。然后,我們設計$k$個垂直錨點來預測每個提議的$y$坐標碍庵。$k$個錨點具有相同的水平位置映企,固定寬度為16個像素,但其垂直位置在$k$個不同的高度變化静浴。在我們的實驗中堰氓,我們對每個提議使用十個錨點,$k=10$苹享,其高度在輸入圖像中從11個像素變化到273個像素(每次$\div 0.7$)双絮。明確的垂直坐標是通過提議邊界框的高度和$y$軸中心來度量的。我們計算相對于錨點的邊界框位置的相對預測的垂直坐標($\textbf{v}$)得问,如下所示:$$v_c=(c_y-c_ya)/ha, \qquad v_h=\log (h/h^a) \tag{1} $$$$v*_c=(c*_y-c_ya)/ha, \qquad v^*_h=\log (h*/ha)\tag{2}$$ 其中$\textbf{v}=\lbrace v_c,v_h \rbrace$和$\textbf{v}^*=\lbrace v*_c,v*_h\rbrace$分別是相對于預測坐標和實際坐標囤攀。$c_ya$和$ha$是錨盒的中心($y$軸)和高度,可以從輸入圖像預先計算宫纬。$c_y$和$h$是輸入圖像中預測的$y$軸坐標焚挠,而$c*_y$和$h*$是實際坐標。因此漓骚,如圖1(b)和圖2(右)所示蝌衔,每個預測文本提議都有一個大小為$h\times 16$的邊界框(在輸入圖像中)。一般來說蝌蹂,文本提議在很大程度上要比它的有效感受野228$\times$228要小噩斟。
檢測處理總結如下。給定輸入圖像叉信,我們有$W \times H \times C$ conv5特征映射(通過使用VGG16模型)亩冬,其中$C$是特征映射或通道的數(shù)目,并且$W \times H$是空間布置硼身。當我們的檢測器通過conv5密集地滑動3$\times$3窗口時硅急,每個滑動窗口使用$3 \times 3 \times C$的卷積特征來產(chǎn)生預測。對于每個預測佳遂,水平位置($x$軸坐標)和$k$個錨點位置是固定的营袜,可以通過將conv5中的空間窗口位置映射到輸入圖像上來預先計算。我們的檢測器在每個窗口位置輸出$k$個錨點的文本/非文本分數(shù)和預測的$y$軸坐標($\textbf{v}$)丑罪。檢測到的文本提議是從具有$> 0.7 $(具有非極大值抑制)的文本/非文本分數(shù)的錨點生成的荚板。通過設計的垂直錨點和細粒度的檢測策略凤壁,我們的檢測器能夠通過使用單尺度圖像處理各種尺度和長寬比的文本行。這進一步減少了計算量跪另,同時預測了文本行的準確位置拧抖。與RPN或Faster R-CNN系統(tǒng)[25]相比,我們的細粒度檢測提供更詳細的監(jiān)督信息免绿,自然會導致更精確的檢測唧席。
3.2 循環(huán)連接文本提議
為了提高定位精度,我們將文本行分成一系列細粒度的文本提議嘲驾,并分別預測每個文本提議淌哟。顯然,將每個孤立的提議獨立考慮并不魯棒辽故。這可能會導致對與文本模式類似的非文本目標的誤檢丙猬,如窗口翁潘,磚塊辜昵,樹葉等(在文獻[13]中稱為類文本異常值)戒财。還可以丟棄一些含有弱文本信息的模糊模式。圖3給出了幾個例子(上)彤枢。文本具有強大的序列特征狰晚,序列上下文信息對做出可靠決策至關重要。最近的工作已經(jīng)證實了這一點[9]缴啡,其中應用遞歸神經(jīng)網(wǎng)絡(RNN)來編碼用于文本識別的上下文信息。他們的結果表明瓷们,序列上下文信息極大地促進了對裁剪的單詞圖像的識別任務业栅。
圖3:上:沒有RNN的CTPN。下:有RNN連接的CTPN谬晕。
受到這項工作的啟發(fā)碘裕,我們認為這種上下文信息對于我們的檢測任務也很重要。我們的檢測器應該能夠探索這些重要的上下文信息攒钳,以便在每個單獨的提議中都可以做出更可靠的決策帮孔。此外,我們的目標是直接在卷積層中編碼這些信息不撑,從而實現(xiàn)細粒度文本提議優(yōu)雅無縫的網(wǎng)內(nèi)連接文兢。RNN提供了一種自然選擇,使用其隱藏層對這些信息進行循環(huán)編碼焕檬。為此姆坚,我們提出在conv5上設計一個RNN層,它將每個窗口的卷積特征作為序列輸入实愚,并在隱藏層中循環(huán)更新其內(nèi)部狀態(tài):$H_t$兼呵,$$H_{t}=\varphi(H_{t-1}, X_t), \qquad t=1,2,...,W \tag{3}$$其中$X_t \in R^{3\times 3 \times C}$是第$t$個滑動窗口(3$\times$3)的輸入conv5特征兔辅。滑動窗口從左向右密集移動击喂,導致每行的$t=1,2,...,W$序列特征维苔。$W$是conv5的寬度。$H_t$是從當前輸入($X_t$)和以$H_{t-1}$編碼的先前狀態(tài)聯(lián)合計算的循環(huán)內(nèi)部狀態(tài)懂昂。遞歸是通過使用非線性函數(shù)$\varphi$來計算的蕉鸳,它定義了循環(huán)模型的確切形式。我們利用長短時記憶(LSTM)架構[12]作為我們的RNN層忍法。通過引入三個附加乘法門:輸入門潮尝,忘記門和輸出門,專門提出了LSTM以解決梯度消失問題饿序。細節(jié)可以在[12]中找到勉失。因此,RNN隱藏層中的內(nèi)部狀態(tài)可以訪問所有先前窗口通過循環(huán)連接掃描的序列上下文信息原探。我們通過使用雙向LSTM來進一步擴展RNN層乱凿,這使得它能夠在兩個方向上對遞歸上下文進行編碼,以便連接感受野能夠覆蓋整個圖像寬度咽弦,例如228$\times$width徒蟆。我們對每個LSTM使用一個128維的隱藏層,從而產(chǎn)生256維的RNN隱藏層$H_t \in R^{256}$型型。
$H_t$中的內(nèi)部狀態(tài)被映射到后面的FC層段审,并且輸出層用于計算第$t$個提議的預測。因此闹蒜,我們與RNN層的集成非常優(yōu)雅寺枉,從而形成了一種高效的模型,可以在無需額外成本的情況下進行端到端的訓練绷落。RNN連接的功效如圖3所示姥闪。顯然,它大大減少了錯誤檢測砌烁,同時還能夠恢復很多包含非常弱的文本信息的遺漏文本提議筐喳。
3.3 邊緣細化
我們的CTPN能夠準確可靠地檢測細粒度的文本提議。通過連接其文本/非文本分數(shù)為$>0.7$的連續(xù)文本提議函喉,文本行的構建非常簡單避归。文本行構建如下。首先函似,我們?yōu)樘嶙h$B_i$定義一個配對鄰居($B_j$)作為$B_j->B_i$槐脏,當(i)$B_j$是最接近$B_i$的水平距離,(ii)該距離小于50像素撇寞,并且(iii)它們的垂直重疊是$>0.7$時顿天。其次堂氯,如果$B_j->B_i$和$B_i->B_j$,則將兩個提議分組為一對牌废。然后通過順序連接具有相同提議的對來構建文本行咽白。
細粒度的檢測和RNN連接可以預測垂直方向的精確位置。在水平方向上鸟缕,圖像被分成一系列相等的寬度為16個像素的提議晶框。如圖4所示,當兩個水平邊的文本提議沒有完全被實際文本行區(qū)域覆蓋懂从,或者某些邊的提議被丟棄(例如文本得分較低)時授段,這可能會導致不準確的定位。這種不準確性在通用目標檢測中可能并不重要番甩,但在文本檢測中不應忽視侵贵,特別是對于那些小型文本行或文字。為了解決這個問題缘薛,我們提出了一種邊緣細化的方法窍育,可以精確地估計左右兩側水平方向上的每個錨點/提議的偏移量(稱為邊緣錨點或邊緣提議)。與y坐標預測類似宴胧,我們計算相對偏移為:$$o=(x_{side}-c_xa)/wa, \quad o*=(x*_{side}-c_xa)/wa$$漱抓,其中$x_{side}$是最接近水平邊(例如,左邊或右邊)到當前錨點的預測的$x$坐標恕齐。$x*_{side}$是$x$軸的實際(GT)邊緣坐標乞娄,它是從實際邊界框和錨點位置預先計算的。$c_xa$是$x$軸的錨點的中心檐迟。$wa$是固定的錨點寬度补胚,$wa=16$。當我們將一系列檢測到的細粒度文本提議連接到文本行中時追迟,這些提議被定義為開始和結束提議。我們只使用邊緣提議的偏移量來優(yōu)化最終的文本行邊界框骚腥。通過邊緣細化改進的幾個檢測示例如圖4所示敦间。邊緣細化進一步提高了定位精度,從而使SWT和Multi-Lingual數(shù)據(jù)集上的性能提高了約$2%$束铭。請注意廓块,我們的模型同時預測了邊緣細化的偏移量,如圖1所示契沫。它不是通過額外的后處理步驟計算的带猴。
圖4:CTPN檢測有(紅色框)和沒有(黃色虛線框)邊緣細化。細粒度提議邊界框的顏色表示文本/非文本分數(shù)懈万。
3.4 模型輸出與損失函數(shù)
提出的CTPN有三個輸出共同連接到最后的FC層拴清,如圖1(a)所示靶病。這三個輸出同時預測公式(2)中的文本/非文本分數(shù)($ \ textbf {s} $),垂直坐標($\textbf{v}=\lbrace v_c, v_h\rbrace$)和邊緣細化偏移($\textbf{o}$)口予。我們將探索$k$個錨點來預測它們在conv5中的每個空間位置娄周,從而在輸出層分別得到$2k$,$2k$和$k$個參數(shù)沪停。
我們采用多任務學習來聯(lián)合優(yōu)化模型參數(shù)煤辨。我們引入了三種損失函數(shù):$L{cl}_s$,$L{re}_v$和$l^{re}_o$木张,其分別計算文本/非文本分數(shù)众辨,坐標和邊緣細化∠侠瘢考慮到這些因素鹃彻,我們遵循[5,25]中應用的多任務損失且轨,并最小化圖像的總體目標函數(shù)($L$)最小化:$$L(\textbf{s}_i, \textbf{v}_j, \textbf{o}_k) =\frac1{N_{s}}\sum_iL^{cl}_{s}(\textbf{s}_i, \textbf{s}_i^*) +\frac{\lambda_1}{N_v}\sum_j L^{re}_v(\textbf{v}_j, \textbf{v}_j^*) +\frac{\lambda_2}{N_o}\sum_k L^{re}_o(\textbf{o}_k, \textbf{o}_k^*) $$浮声,其中每個錨點都是一個訓練樣本,$i$是一個小批量數(shù)據(jù)中一個錨點的索引旋奢。$\textbf{s}_i$是預測的錨點$i$作為實際文本的預測概率泳挥。$\textbf{s}_i^*=\lbrace 0,1\rbrace$是真實值。$j$是$y$坐標回歸中有效錨點集合中錨點的索引至朗,定義如下屉符。有效的錨點是定義的正錨點($\textbf{s}_j*=1$,如下所述)锹引,或者與實際文本提議重疊的交并比(IoU)$>0.5$矗钟。$\textbf{v}_j$和$\textbf{v}_j*$是與第$j$個錨點關聯(lián)的預測的和真實的$y$坐標。$k$是邊緣錨點的索引嫌变,其被定義為在實際文本行邊界框的左側或右側水平距離(例如32個像素)內(nèi)的一組錨點吨艇。$\textbf{o}_k$和$\textbf{o}_k*$是與第$k$個錨點關聯(lián)的$x$軸的預測和實際偏移量。$L{cl}_s$是我們使用Softmax損失區(qū)分文本和非文本的分類損失腾啥。$L{re}_v$和$L{re}_o$是回歸損失东涡。我們遵循以前的工作,使用平滑$L_1$函數(shù)來計算它們[5倘待,25]疮跑。$\lambda_1$和$\lambda_2$是損失權重,用來平衡不同的任務凸舵,將它們經(jīng)驗地設置為1.0和2.0祖娘。$N_{s}$ $N_{v}$和$N_{o}$是標準化參數(shù),表示$L{cl}_s$啊奄,$L{re}_v$渐苏,$L^{re}_o$分別使用的錨點總數(shù)掀潮。
3.5 訓練和實現(xiàn)細節(jié)
通過使用標準的反向傳播和隨機梯度下降(SGD),可以對CTPN進行端對端訓練整以。與RPN[25]類似胧辽,訓練樣本是錨點,其位置可以在輸入圖像中預先計算公黑,以便可以從相應的實際邊界框中計算每個錨點的訓練標簽邑商。
訓練標簽。對于文本/非文本分類凡蚜,二值標簽分配給每個正(文本)錨點或負(非文本)錨點人断。它通過計算與實際邊界框的IoU重疊(除以錨點位置)來定義。正錨點被定義為:(i)與任何實際邊界框具有$>0.7$的IoU重疊朝蜘;或者(ii)與實際邊界框具有最高IoU重疊恶迈。通過條件(ii),即使是非常小的文本模式也可以分為正錨點谱醇。這對于檢測小規(guī)模文本模式至關重要暇仲,這是CTPN的主要優(yōu)勢之一。這不同于通用目標檢測副渴,通用目標檢測中條件(ii)的影響可能不顯著奈附。負錨點定義為與所有實際邊界框具有$<0.5$的IoU重疊。$y$坐標回歸($\textbf{v}*$)和偏移回歸($\textbf{o}*$)的訓練標簽分別按公式(2)和(4)計算煮剧。
訓練數(shù)據(jù)斥滤。在訓練過程中,每個小批量樣本從單張圖像中隨機收集勉盅。每個小批量數(shù)據(jù)的錨點數(shù)量固定為$N_s=128$佑颇,正負樣本的比例為1:1。如果正樣本的數(shù)量少于64草娜,則會用小圖像塊填充負樣本挑胸。我們的模型在3000張自然圖像上訓練,其中包括來自ICDAR 2013訓練集的229張圖像宰闰。我們自己收集了其他圖像嗜暴,并用文本行邊界框進行了手工標注。在所有基準測試集中议蟆,所有自我收集的訓練圖像都不與任何測試圖像重疊。為了訓練萎战,將輸入圖像的短邊設置為600來調(diào)整輸入圖像的大小咐容,同時保持其原始長寬比。
實現(xiàn)細節(jié)蚂维。我們遵循標準實踐戳粒,并在ImageNet數(shù)據(jù)[26]上探索預先訓練的非常深的VGG16模型[27]路狮。我們通過使用具有0均值和0.01標準差的高斯分布的隨機權重來初始化新層(例如,RNN和輸出層)蔚约。該模型通過固定前兩個卷積層中的參數(shù)進行端對端的訓練奄妨。我們使用0.9的動量和0.0005的重量衰減。在前16K次迭代中苹祟,學習率被設置為0.001砸抛,隨后以0.0001的學習率再進行4K次迭代。我們的模型在Caffe框架[17]中實現(xiàn)树枫。
4. 實驗結果和討論
我們在五個文本檢測基準數(shù)據(jù)集上評估CTPN直焙,即ICDAR 2011[21],ICDAR 2013[19]砂轻,ICDAR 2015[18]奔誓,SWT[3]和Multilingual[24]數(shù)據(jù)集。在我們的實驗中搔涝,我們首先單獨驗證每個提議組件的效率厨喂,例如細粒度文本提議檢測或網(wǎng)內(nèi)循環(huán)連接。ICDAR 2013用于該組件的評估庄呈。
4.1 基準數(shù)據(jù)集和評估標準
ICDAR 2011數(shù)據(jù)集[21]由229張訓練圖像和255張測試圖像組成蜕煌,圖像以字級別標記。ICDAR 2013[19]與ICDAR 2011類似抒痒,共有462張圖像幌绍,其中包括229張訓練圖像和233張測試圖像。ICDAR 2015年(Incidental Scene Text —— Challenge 4)[18]包括使用Google Glass收集的1500張圖像故响。訓練集有1000張圖像傀广,剩余的500張圖像用于測試。這個數(shù)據(jù)集比以前的數(shù)據(jù)集更具挑戰(zhàn)性彩届,包括任意方向伪冰,非常小的尺度和低分辨率的文本。Multilingual場景文本數(shù)據(jù)集由[24]收集樟蠕。它包含248張訓練圖像和239張測試圖像贮聂。圖像包含多種語言的文字,并且真實值以文本行級別標注寨辩。Epshtein等[3]引入了包含307張圖像的SWT數(shù)據(jù)集吓懈,其中包含許多極小尺度的文本。
我們遵循以前的工作靡狞,使用由數(shù)據(jù)集創(chuàng)建者或競賽組織者提供的標準評估協(xié)議耻警。對于ICDAR 2011,我們使用[30]提出的標準協(xié)議,對ICDAR 2013的評估遵循[19]中的標準甘穿。對于ICDAR 2015腮恩,我們使用了由組織者提供的在線評估系統(tǒng)[18]。SWT和Multilingual數(shù)據(jù)集的評估分別遵循[3]和[24]中定義的協(xié)議温兼。
4.2 具有Faster R-CNN的細粒度文本提議網(wǎng)絡
我們首先討論我們關于RPN和Faster R-CNN系統(tǒng)[25]的細粒度檢測策略秸滴。如表1(左)所示,通過產(chǎn)生大量的錯誤檢測(低精度)募判,單獨的RPN難以執(zhí)行準確的文本定位荡含。通過使用Fast R-CNN檢測模型[5]完善RPN提議,F(xiàn)aster R-CNN系統(tǒng)顯著提高了定位精度兰伤,其F-measure為0.75内颗。一個觀察結果是Faster R-CNN也增加了原始RPN的召回率。這可能受益于Fast R-CNN的聯(lián)合邊界框回歸機制敦腔,其提高了預測邊界框的準確性均澳。RPN提議可以粗略定位文本行或文字的主要部分,但根據(jù)ICDAR 2013的標準這不夠準確符衔。顯然找前,所提出的細粒度文本提議網(wǎng)絡(FTPN)在精確度和召回率方面都顯著改進了Faster R-CNN,表明通過預測一系列細粒度文本提議而不是整體文本行判族,F(xiàn)TPN更精確可靠躺盛。
表1:ICDAR 2013的組件評估以及在SWT和MULTILENGUAL數(shù)據(jù)集上的最新成果。
4.3 循環(huán)連接文本提議
我們討論循環(huán)連接對CTPN的影響形帮。如圖3所示槽惫,上下文信息對于減少誤檢非常有用,例如類似文本的異常值辩撑。對于恢復高度模糊的文本(例如極小的文本)來說界斜,這非常重要,這是我們CTPN的主要優(yōu)勢之一合冀,如圖6所示各薇。這些吸引人的屬性可顯著提升性能。如表1(左)所示君躺,使用我們的循環(huán)連接峭判,CTPN大幅度改善了FTPN,將F-measure從0.80的提高到0.88棕叫。
圖6:在極小尺度的情況下(紅色框內(nèi))CTPN檢測結果林螃,其中一些真實邊界框被遺漏。黃色邊界箱是真實值俺泣。
運行時間治宣。通過使用單個GPU急侥,我們的CTPN(用于整個檢測處理)的執(zhí)行時間為每張圖像大約0.14s,固定短邊為600侮邀。沒有RNN連接的CTPN每張圖像GPU時間大約需要0.13s。因此贝润,所提出的網(wǎng)內(nèi)循環(huán)機制稍微增加了模型計算绊茧,并獲得了相當大的性能增益。
4.4 與最新結果的比較
我們在幾個具有挑戰(zhàn)性的圖像上的檢測結果如圖5所示打掘』罚可以發(fā)現(xiàn),CTPN在這些具有挑戰(zhàn)性的情況上可以完美的工作尊蚁,其中一些對于許多以前的方法來說是困難的亡笑。它能夠有效地處理多尺度和多語言(例如中文和韓文)。
圖5:CTPN在幾個具有挑戰(zhàn)性的圖像上的檢測結果横朋,包括多尺度和多語言文本行仑乌。黃色邊界框是真實值。
全面評估是在五個基準數(shù)據(jù)集上進行的琴锭。圖像分辨率在不同的數(shù)據(jù)集中顯著不同晰甚。我們?yōu)镾WT和ICDAR 2015設置圖像短邊為2000,其他三個的短邊為600决帖。我們將我們的性能與最近公布的結果[1,28,34]進行了比較厕九。如表1和表2所示,我們的CTPN在所有的五個數(shù)據(jù)集上都實現(xiàn)了最佳性能地回。在SWT上扁远,我們的改進對于召回和F-measure都非常重要,并在精確度上取得了很小的收益刻像。我們的檢測器在Multilingual上比TextFlow表現(xiàn)更好畅买,表明我們的方法能很好地泛化到各種語言。在ICDAR 2013上绎速,它的性能優(yōu)于最近的TextFlow[28]和FASText[1]皮获,將F-measure從0.80提高到了0.88。精確度和召回率都有顯著提高纹冤,改進分別超過$+5%$和$+7%$洒宝。此外,我們進一步與[8,11,35]比較了我們的方法萌京,它們是在我們的首次提交后發(fā)布的雁歌。它始終在F-measure和召回率方面取得重大進展。這可能是由于CTPN在非常具有挑戰(zhàn)性的文本上具有很強的檢測能力知残,例如非常小的文本靠瞎,其中一些甚至對人來說都很難。如圖6所示,我們的檢測器可以正確地檢測到那些具有挑戰(zhàn)性的圖像乏盐,但有些甚至會被真實標簽遺漏佳窑,這可能會降低我們的評估精度。
表2:ICDAR 2011父能,2013和2015上的最新結果神凑。
我們進一步調(diào)查了各種方法的運行時間,在表2中進行了比較何吝。FASText[1]達到0.15s每張圖像的CPU時間溉委。我們的方法比它快一點,取得了0.14s每張圖像爱榕,但是在GPU時間上瓣喊。盡管直接比較它們是不公平的,但GPU計算已經(jīng)成為主流黔酥,最近在目標檢測方面的深度學習方法[25,5,6]上取得了很大成功藻三。無論運行時間如何,我們的方法都大大優(yōu)于FASText絮爷,F(xiàn)-measure的性能提高了$11%$趴酣。我們的時間可以通過使用較小的圖像尺度來縮短。在ICDAR 2013中坑夯,使用450的縮放比例時間降低到0.09s每張圖像岖寞,同時獲得0.92/0.77/0.84的P/R/F,與Gupta等人的方法[8]相比柜蜈,GPU時間為0.07s每張圖像仗谆,我們的方法是具有競爭力的。
5. 結論
我們提出了連接文本提議網(wǎng)絡(CTPN)—— 一種可端到端訓練的高效文本檢測器淑履。CTPN直接在卷積映射的一系列細粒度文本提議中檢測文本行隶垮。我們開發(fā)了垂直錨點機制,聯(lián)合預測每個提議的精確位置和文本/非文本分數(shù)秘噪,這是實現(xiàn)文本準確定位的關鍵狸吞。我們提出了一個網(wǎng)內(nèi)RNN層,可以優(yōu)雅地連接順序文本提議指煎,使其能夠探索有意義的上下文信息蹋偏。這些關鍵技術的發(fā)展帶來了檢測極具挑戰(zhàn)性的文本的強大能力,同時減少了誤檢至壤。通過在五個基準數(shù)據(jù)集測試中實現(xiàn)了最佳性能威始,每張圖像運行時間為0.14s,CTPN是有效的像街。
References
Busta, M., Neumann, L., Matas, J.: Fastext: Efficient unconstrained scene text detector (2015), in IEEE International Conference on Computer Vision (ICCV)
Cheng, M., Zhang, Z., Lin, W., Torr, P.: Bing: Binarized normed gradients for objectness estimation at 300fps (2014), in IEEE Computer Vision and Pattern Recognition (CVPR)
Epshtein, B., Ofek, E., Wexler, Y.: Detecting text in natural scenes with stroke width transform (2010), in IEEE Computer Vision and Pattern Recognition (CVPR)
Everingham, M., Gool, L.V., Williams, C.K.I., Winn, J., Zisserman, A.: The pascal visual object classes (voc) challenge. International Journal of Computer Vision (IJCV) 88(2), 303–338 (2010)
Girshick, R.: Fast r-cnn (2015), in IEEE International Conference on Computer Vision (ICCV)
Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation (2014), in IEEE Computer Vision and Pattern Recognition (CVPR)
Graves, A., Schmidhuber, J.: Framewise phoneme classification with bidirectional lstm and other neural network architectures. Neural Networks 18(5), 602–610 (2005)
Gupta, A., Vedaldi, A., Zisserman, A.: Synthetic data for text localisation in natural images (2016), in IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
He,P.,Huang,W.,Qiao,Y.,Loy,C.C.,Tang,X.:Readingscenetextindeepconvo- lutional sequences (2016), in The 30th AAAI Conference on Artificial Intelligence (AAAI-16)
He, T., Huang, W., Qiao, Y., Yao, J.: Accurate text localization in natural image with cascaded convolutional text network (2016), arXiv:1603.09423
He, T., Huang, W., Qiao, Y., Yao, J.: Text-attentional convolutional neural net- works for scene text detection. IEEE Trans. Image Processing (TIP) 25, 2529–2541 (2016)
Hochreiter, S., Schmidhuber, J.: Long short-term memory. Neural Networks 9(8), 1735–1780 (1997)
Huang, W., Lin, Z., Yang, J., Wang, J.: Text localization in natural images using stroke feature transform and text covariance descriptors (2013), in IEEE International Conference on Computer Vision (ICCV)
Huang, W., Qiao, Y., Tang, X.: Robust scene text detection with convolutional neural networks induced mser trees (2014), in European Conference on Computer Vision (ECCV)
Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: Reading text in the wild with convolutional neural networks. International Journal of Computer Vision (IJCV) (2016)
Jaderberg, M., Vedaldi, A., Zisserman, A.: Deep features for text spotting (2014), in European Conference on Computer Vision (ECCV)
Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding (2014), in ACM International Conference on Multimedia (ACM MM)
Karatzas,D.,Gomez-Bigorda,L.,Nicolaou,A.,Ghosh,S.,Bagdanov,A.,Iwamura, M., Matas, J., Neumann, L., Chandrasekhar, V.R., Lu, S., Shafait, F., Uchida, S.,Valveny, E.: Icdar 2015 competition on robust reading (2015), in International Conference on Document Analysis and Recognition (ICDAR)
Karatzas, D., Shafait, F., Uchida, S., Iwamura, M., i Bigorda, L.G., Mestre, S.R., Mas, J., Mota, D.F., Almazan, J.A., de las Heras., L.P.: Icdar 2013 robust reading competition (2013), in International Conference on Document Analysis and Recognition (ICDAR)
Mao, J., Li, H., Zhou, W., Yan, S., Tian, Q.: Scale based region growing for scene text detection (2013), in ACM International Conference on Multimedia (ACM MM)
Minetto, R., Thome, N., Cord, M., Fabrizio, J., Marcotegui, B.: Snoopertext: A multiresolution system for text detection in complex visual scenes (2010), in IEEE International Conference on Pattern Recognition (ICIP)
Neumann, L., Matas, J.: Efficient scene text localization and recognition with local character refinement (2015), in International Conference on Document Analysis and Recognition (ICDAR)
Neumann, L., Matas, J.: Real-time lexicon-free scene text localization and recognition. In IEEE Trans. Pattern Analysis and Machine Intelligence (TPAMI) (2015)
Pan, Y., Hou, X., Liu, C.: Hybrid approach to detect and localize texts in natural scene images. IEEE Trans. Image Processing (TIP) 20, 800–813 (2011)
Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: Towards real-time object detection with region proposal networks (2015), in Neural Information Processing Systems (NIPS)
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Li, F.: Imagenet large scale visual recognition challenge. International Journal of Computer Vision (IJCV) 115(3), 211–252 (2015)
Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition (2015), in International Conference on Learning Representation (ICLR)
Tian, S., Pan, Y., Huang, C., Lu, S., Yu, K., Tan, C.L.: Text flow: A unified text detection system in natural scene images (2015), in IEEE International Conference on Computer Vision (ICCV)
Wang, K., Babenko, B., Belongie, S.: End-to-end scene text recognition (2011), in IEEE International Conference on Computer Vision (ICCV)
Wolf, C., Jolion, J.: Object count / area graphs for the evaluation of object detection and segmentation algorithms. International Journal of Document Analysis 8, 280–296 (2006)
Yao, C., Bai, X., Liu, W.: A unified framework for multioriented text detection and recognition. IEEE Trans. Image Processing (TIP) 23(11), 4737–4749 (2014)
Yin, X.C., Pei, W.Y., Zhang, J., Hao, H.W.: Multi-orientation scene text detection with adaptive clustering. IEEE Trans. Pattern Analysis and Machine Intelligence (TPAMI) 37, 1930–1937 (2015)
Yin, X.C., Yin, X., Huang, K., Hao, H.W.: Robust text detection in natural scene images. IEEE Trans. Pattern Analysis and Machine Intelligence (TPAMI) 36, 970–983 (2014)
Zhang, Z., Shen, W., Yao, C., Bai, X.: Symmetry-based text line detection in natural scenes (2015), in IEEE Computer Vision and Pattern Recognition (CVPR)
Zhang, Z., Zhang, C., Shen, W., Yao, C., Liu, W., Bai, X.: Multi-oriented text de- tection with fully convolutional networks (2016), in IEEE Conference on Computer Vision and Pattern Recognition (CVPR)