[AAAI2021]論文翻譯MANGO: A Mask Attention Guided One-Stage Scene Text Spotter

幻燈片1.PNG
幻燈片2.PNG
幻燈片3.PNG
幻燈片4.PNG
幻燈片5.PNG
幻燈片6.PNG
幻燈片7.PNG

Abstract

最近吹由,端到端場景文本識別已成為一個流行的研究主題倾鲫,因為它具有全局優(yōu)化的優(yōu)點和在實際應用中的高可維護性乌昔。大多數方法試圖開發(fā)各種感興趣的區(qū)域(RoI)操作磕道,以將檢測部分和序列識別部分連接到兩階段的文本識別框架中行冰。然而悼做,在這樣的框架中贿堰,識別部分對檢測到的結果高度敏感(例如羹与,文本輪廓的緊湊性)纵搁。為了解決這個問題,在本文中徘层,我們提出了一種新穎的“Mask Attention Guided One-stage”文本識別框架趣效,稱為MANGO跷敬,在該框架中無需RoI操作就可以直接識別字符序列西傀。具體而言:

  • 開發(fā)了位置感知mask注意力模塊拥褂,以生成每個文本實例及其字符的注意力權重饺鹃。
  • 它允許將圖像中的不同文本實例分配在不同的特征圖通道上,這些通道進一步分組為一批實例特征馏锡。
  • 最后杯道,使用輕量級序列解碼器來生成字符序列党巾。

值得注意的是齿拂,MANGO自有地適應于任意形狀的文本識別署海,并且僅使用粗略的位置信息(例如矩形邊界框)和文本注釋就可以進行端到端的訓練砸狞。實驗結果表明刀森,該方法在規(guī)則和不規(guī)則文本識別基準(即ICDAR 2013研底,ICDAR 2015透罢,Total-Text和SCUT-CTW1500)上均達到了有競爭力甚至最新性能琐凭。

1 Introduction

場景文本識別由于其各種實際應用而備受關注统屈,例如發(fā)票/收據理解中的關鍵實體識別愁憔,電子商務系統中的產品名稱識別以及智能運輸系統中的車牌識別吨掌。傳統的場景文字識別系統通常分三步進行:定位文字區(qū)域膜宋,從原始圖像中裁剪文字區(qū)域并將其識別為字符序列秋茫。然而盡管這種文本識別模型帶來了許多可考慮的問題肛著,例如:
(1)錯誤將在多個單獨的任務之間累
(2)維護多個單獨的模型的成本很高
(3)該模型難以適應各種應用程序枢贿。

因此局荚,提出了許多工作以端到端的方式來最終優(yōu)化文本識別過程耀态。這些方法通常使用各種興趣區(qū)域(RoI)操作以可微分的方式橋接文本檢測和識別部分茫陆,從而形成了兩階段框架簿盅。粗略地說桨醋,早期的端到端方法將軸對齊的矩形RoI用作連接模塊。這些方法處理不規(guī)則的(例如偎蘸,透視圖或彎曲的)文本實例能力有限迷雪,因為這種類型的RoI可能會帶來背景或其他文本的干擾章咧。為了解決這個問題赁严,后來的方法(設計了一些形狀自適應RoI機制來提取不規(guī)則物體疼约。文本實例并將其校正為規(guī)則形狀程剥。



圖1:傳統的兩階段文本識別過程和提出的MANGO的圖示哨免。 圖(a)顯示了通過RoI操作連接檢測和識別部分的兩階段文本識別策略琢唾。 圖(b)是一種提出的單階段文本識別方法采桃,它可以直接輸出最終的字符序列丘损。

在兩階段方法中徘钥,識別部分高度依賴于定位結果呈础,這就要求檢測部分必須能夠捕獲準確的文本邊界以消除背景干擾而钞。因此臼节,訓練魯棒的文本檢測模型依賴于準確的檢測注釋,例如在不規(guī)則文本識別中使用的多邊形或蒙版注釋蟋定。自然地溢吻,標記這種注釋是費力且昂貴的犀盟。另一方面阅畴,要確保緊緊封閉的文本區(qū)域(由檢測注釋進行監(jiān)督)對于以下識別任務而言是最佳形式,這并不容易监署。例如,在圖1(a)中晓避,緊密的文本邊界可能會擦除字符的邊緣紋理并導致錯誤的結果俏拱。通常锅必,需要手動擴展這些嚴格的檢測結果搞隐,以適應實際應用中的識別尔许。此外味廊,在proposals之后執(zhí)行帶有非極大抑制(NMS)的復雜RoI操作也很耗時余佛,尤其是對于任意形狀的區(qū)域辉巡。盡管(Xing et al.2019)提出了一種單階段采用字符分割策略的字符級別的識別框架郊楣,但很難擴展到具有更多字符類別(例如漢字)的情況钥组。它還會丟失角色之間的關鍵上下文信息程梦。

實際上屿附,當人們閱讀時挺份,他們不需要描繪文本實例的準確輪廓压恒。通過視覺注意力關注的粗略文本位置來識別文本實例就足夠了探赫。在這里伦吠,我們將場景文本識別重新考慮為注意力和閱讀的問題,即箱靴,一次直接讀出粗略注意的文本區(qū)域的文本內容衡怀。

在本文中,我們提出了一種名為MANGO的“Mask Attention Guided One stage”文本監(jiān)視程序抛杨,稱為MANGO够委,這是一種緊湊而強大的單階段框架,可直接從圖像中同時預測所有文本怖现,而無需進行任何RoI操作茁帽。具體來說,我們引入了一個位置感知蒙版注意力(PMA)模塊以在文本區(qū)域上生成空間注意力屈嗤,該模塊包含實例級蒙版注意力(IMA)部分和字符級蒙版注意力(CMA)部分。 IMA和CMA分別負責感知圖像中文本和字符的位置恢共≌角铮可以通過位置感知注意力譜直接提取文本實例的特征,而不必進行顯式的裁剪操作讨韭,這盡可能保留了全局空間信息。
在這里癣蟋,使用動態(tài)卷積將不同文本實例的特征映射到不同的特征譜通道(Wang等人透硝,2020c),如圖1(b)所示疯搅。之后濒生,應用輕量級序列解碼器一次批量生成字符序列特征。

請注意幔欧,MANGO可以僅使用粗略的位置信息(例如罪治,矩形邊界框,甚至是文本實例的中心點)進行端到端優(yōu)化礁蔗,還可以使用序列注釋觉义。 受益于PMA,該框架可以自適應地識別各種不規(guī)則文本浴井,而無需任何糾正機制晒骇,并且還能夠了解任意形狀的文本的閱讀順序。

本文的主要貢獻如下:
(1)我們提出了一種名為MANGO的緊湊而強大的一階段文本識別框架, 該框架可以以端到端的方式進行訓練磺浙。
(2)我們開發(fā)了位置感知蒙版注意力模塊洪囤,以將文本實例特征生成為一個batch,并與最終字符序列建立一對一的映射撕氧。 只能使用粗略的文本位置信息和文本注釋來訓練該模塊瘤缩。
(3)廣泛的實驗表明,我們的方法在規(guī)則和不規(guī)則文本基準上均獲得了有競爭甚至最新的性能伦泥。

2 Related Works

早期場景文本發(fā)現方法(Liao剥啤,Shi何暮,and Bai 2018; Liao et al.2017; Wang et al.2012)通常首先使用訓練有素的檢測器來定位每個文本,例如(Liao et al.2017; Zhou et al.2017; He et al.2017; Ma et al.2018; Xu et al.2019; Baek et al.2019)铐殃,然后使用序列解碼器識別裁剪后的文本區(qū)域(Shi et al.2016; Shi海洼,Bai和Yao 2017; Cheng et al.2017; Zhan and Lu 2019; Luo,Jin and Sun 2019)富腊。為了充分利用文本檢測和文本識別之間的互補性坏逢,已經提出了一些工作以端到端的方式優(yōu)化場景文本發(fā)現框架,其中使用了模塊連接器(例如RoI Pooling(Ren等人赘被,2015a))在(Li是整,Wang,and Shen 2017; Wang民假,Li浮入,and Shen 2019)中,(He等人2018)中使用的RoI-Align和(Liu等人2018)中使用的RoI-Rotate的開發(fā)是為了文本檢測和文本識別部分羊异。請注意事秀,這些方法無法發(fā)現任意形狀的文本。
為了解決不規(guī)則問題野舶,已經提出了許多最近的工作來設計各種自適應RoI操作以發(fā)現任意形狀的文本易迹。 Sun等人(2018年)采用了透視圖RoI轉換模塊來糾正透視圖文本,但是該策略仍然難以處理彎曲度較大的文本平道。 (Liao et al.2019)提出了受兩階段Mask-RCNN啟發(fā)的mask textspotter睹欲,用于逐個字符地檢測任意形狀的文本,但是這種方法會丟失字符的上下文信息一屋,并且需要字符級位置注釋窘疮。 Qin等人(2019)直接采用Mask-RCNN和基于注意力的文本識別器,該模型使用RoI-Masking模塊在識別之前消除了背景干擾冀墨。 (Feng et al.2019)將文本實例視為一組特征塊闸衫,并采用RoI-Slide操作來重建直線特征圖。 (Qiao et al轧苫。2020)和(Wang et al楚堤。2020a)都檢測到文本周圍的關鍵點,并應用薄板樣條變換(Bookstein 1989)糾正不規(guī)則實例含懊。為了獲得彎曲文本的平滑特征(Liu et al.2020)身冬,使用Bezier曲線表示文本實例的上下邊界,并提出了Bezier-Align操作以獲取校正后的特征圖岔乔。
上述方法在兩階段框架中實現了端到端場景文本點酥筝,其中需要設計基于RoI的連接器(例如RoI-Align,RoI-Slide和Bezier-Align等)雏门,以實現以下目的:明確裁剪特征圖嘿歌。
在兩階段框架中掸掏,性能很大程度上取決于RoI操作獲得的文本邊界精度。但是宙帝,這些復雜的多邊形注釋通常很昂貴丧凤,并且并不總是適合識別部分,如前所述步脓。

2.2 One-stage End-to-end Scene Text Spotting

在一般的對象定位領域愿待,許多最新進展證明了在對象檢測中研究的一階段框架的效率和有效性(Redmon等人2016; Liu等人2016; Lin等人2017b; Tian等人2019;段等人(2019)或實例分割(Wang等人2019b; Tian,Shen和Chen 2020; Wang等人2020c; Xie等人2020; Chen等人2020)靴患。但是仍侥,場景文本發(fā)現是一項更具挑戰(zhàn)性的任務,因為它涉及序列識別問題而不是單個對象分類鸳君。這是因為場景文本具有許多特殊特征:任意形狀(例如农渊,曲線,傾斜或透視圖等)或颊,數百萬個字符組合砸紊,甚至是不受限制的閱讀順序(例如,從右到左)饭宾。最近批糟,(Xing et al.2019)提出了一種通過直接分割單個字符的一種舞臺場景文本識別方法。但是看铆,它丟失了各個字符之間的序列上下文信息,并且很難傳遞給更多的字符類盛末。據我們所知弹惦,以前沒有工作可以在一個階段的框架中處理序列級別的場景文本發(fā)現任務。

3 Methodology


圖2:MANGO的工作流程悄但。 我們以S = 6為例棠隐。 將輸入特征輸入到位置感知蒙版注意力模塊中,以將實例/字符的不同特征映射到不同通道檐嚣。 識別器最終一次全部輸出字符序列助泽。 Centerline Segmentation分支用于生成所有文本實例的粗略位置。 前綴“ R-”和“ C-”分別表示網格的行和列嚎京。

3.1 Overview

我們提出了一個名為MANGO的單階段場景文本查找器嗡贺,如圖2所示。其深層特征是通過ResNet-50(He等人鞍帝,2016)和特征金字塔網絡(FPN)(Lin等人诫睬,2017a)的主干提取的。 然后將生成的特征圖饋送到三個可學習的模塊中:
(1)用于學習單個文本實例的位置感知蒙版注意力(PMA)模塊帕涌,其中包括實例級蒙版注意力( IMA)子模塊和字符級掩碼注意力(CMA)子模塊摄凡。
(2)識別器用于將注意力實例特征解碼為字符序列续徽。
(3)全局文本中心線分割模塊,用于在推理階段提供粗略的文本位置信息亲澡。

3.2 Position-aware Mask Attention Module

單階段的文本識別問題可以視為原始圖像中的純文本識別任務钦扭。關鍵步驟是在文本實例到最終字符序列之間以固定順序建立直接的一對一映射。在這里床绪,我們開發(fā)了位置感知注意力(PMA)模塊客情,以便為接下來的序列解碼模塊一次捕獲所有表示文本的特征。受(Wang等人2019b)中使用的網格映射策略的啟發(fā)会涎,我們發(fā)現可以將不同的實例映射到不同的特定通道中裹匙,并實現實例到特征的映射。也就是說末秃,我們首先將輸入圖像劃分為S×S的網格概页。然后,通過提出的PMA模塊將網格周圍的信息映射到特征圖的特定通道中练慕。

具體來說枫甲,我們將特征提取后獲得的特征圖表示為x∈RC×H×W蛋哭,其中C,H和W分別表示為特征圖的通道數量,寬度和高度阱扬。然后我們將特征圖x送入PMA(包括IMA和CMA模塊)模塊,以生成文本實例的特征表示(如下所述)袁串。

Instance-level Mask Attention
MA負責生成實例級注意力蒙版遮罩刨沦,并將不同實例的特征分配給不同的特征圖通道。 它是通過在切片網格上操作一組動態(tài)卷積內核(Wang等人2020c)來實現的悯仙,表示為GS×S×C龄毡。卷積核大小設置為1×1。

因此可以通過將這些卷積核應用于原始特征圖來生成實例級注意力掩碼:


要學習動態(tài)卷積核G锡垄,我們需要在文本實例和網格之間進行網格匹配沦零。 與一般的對象檢測或實例分割任務不同,文本實例通常以較大的縱橫比甚至嚴重彎曲货岭。 直接使用文本邊界框的中心進行網格匹配是不合理的路操。

如果有兩個實例占用同一個網格,我們只需選擇一個占用率較大的實例千贯。

Character-level Mask Attention
正如許多工作 (Chenget等人2017; Xing等人2019)所表明的那樣屯仗,字符級位置信息可以幫助提高識別性能。 這激勵我們設計全局字符級注意力子模塊丈牢,以為后續(xù)的識別任務提供細粒度的特征祭钉。

如圖2所示,CMA首先將原始特征圖x和實例級注意力蒙版xins連接在一起己沛,然后是兩個卷積層(卷積核大小= 3×3)遵循下式來預測字符級注意力蒙版:

3.3 Sequence Decoding Module

由于將不同文本實例的注意蒙版分配給不同的特征通道慌核,因此我們可以將文本實例打包為一批距境。 一個簡單的想法是進行(Wang等人2020b)中使用的注意力融合操作,以生成批處理的連續(xù)特征xseq垮卓,即


然后垫桂,我們可以將文本識別問題轉換為純序列分類問題。 后面的序列解碼網絡負責生成一批字符序列(S2)粟按。 具體來說诬滩,我們在xseq上添加了兩層雙向長短期記憶(BiLSTM)(Hochreiter和Schmidhuber 1997)來捕獲順序關系,最后通過完全連接的(FC)層輸出字符序列灭将。

(包括26個字母疼鸟,10個數字,32個ASCII標點符號和1個EOS符號)庙曙。 具體而言空镜,如果預測的字符串的長度小于L,則其余的預測將使用EOS符號進行補充捌朴。

3.4 Text Centerline Segmentation

該模型現在能夠分別輸出S2網格的所有預測序列吴攒。 但是,如果圖像中有兩個以上的文本實例砂蔽,我們仍然需要指出哪個網格對應于那些識別結果洼怔。

由于我們的方法不依賴準確的邊界信息,因此我們可以應用任何文本檢測策略(例如RPN(Ren等人2015b)和YOLO(Redmon等人左驾。 2016))镣隶,以獲取文本實例的粗略的幾何信息。 考慮到場景文本可能是任意形狀的诡右,我們遵循大多數基于分割的文本檢測方法(Long等人2018; Wang等人2019a)來學習單個文本實例的全局文本中心線區(qū)域分割(或縮小ground truth)矾缓。

3.5 Optimization

IMA和CMA模塊都用于使網絡聚焦于特定的實例和字符位置,這在理論上只能通過最后的識別部分來學習稻爬。 但是,在復雜的場景文本場景中蜕依,如果沒有位置信息的輔助桅锄,網絡可能難以收斂。 但是样眠,我們發(fā)現友瘤,如果模型已經在合成數據集上進行了預先的字符級監(jiān)督,則可以輕松轉移模型檐束。 因此辫秧,可以分兩步對模型進行優(yōu)化。

首先被丧,我們可以將IMA和CMA的學習視為純分割任務盟戏。 結合中心線區(qū)域分割绪妹,所有分割任務都使用二進制Dice系數損失進行訓練(Milletari,Navab和Ahmadi 2016)柿究,而識別任務僅使用交叉熵損失邮旷。 全局優(yōu)化可以寫成



請注意,預訓練步驟實際上是一次性的任務蝇摸,然后將主要學習CMA和IMA以適應該識別任務婶肩。 與以前需要平衡檢測和識別權重的方法相比,MANGO的端到端結果主要由最終識別任務監(jiān)督貌夕。

3.6 Inference

在推斷階段律歼,網絡輸出一批(S×S)概率矩陣(L×M)。 根據中心線分割任務的預測啡专,我們可以確定哪些網格應視為有效险毁。 我們首先進行“廣度優(yōu)先搜索”(BFS),以找到各個相連的區(qū)域植旧。 在此過程中辱揭,可以過濾許多類似文本的紋理。 由于每個連接區(qū)域可能與多個網格相交病附,因此我們采用字符加權投票策略來生成最終的字符串问窃,如圖3所示。

具體來說完沪,我們計算連接區(qū)域i與網格j之間的連接率oi,j作為每個字符的權重域庇。 對于實例i的第k個字符,其字符加權投票結果通過


在這里覆积,占用率提供了每個網格的置信度听皿,并且多個輸出融合可以生成更可靠的結果。 具有最大占用率的網格將被視為粗糙的輸出位置宽档,可以根據特定任務將其替換為任何形式尉姨。

4 Experiments

4.1 Datasets

我們列出了本文使用的數據集如下:訓練數據。我們使用SynthText 800k(Gupta吗冤,Vedaldi和Zisserman 2016)作為預訓練數據集又厉。利用實例級注釋和字符級注釋對PMA模塊進行預訓練。在微調階段椎瘟,我們旨在獲得一個支持常規(guī)和非常規(guī)場景文本讀取的通用文本點覆致。在這里,我們構建了一個用于微調的通用數據集肺蔚,其中包括來自Curved SynthText的150k圖像(Liu等人2020)煌妈,從COCO-Text過濾的13k圖像(Veitet等人2016),從ICDAR-MLT過濾的7k圖像(Nayefet等人2019)以及ICDAR2013(Karatzas等人2013),ICDAR2015(Karatzas等人2015)和Total-Text(Ch'ng and Chan 2017)中的所有訓練圖像璧诵。請注意汰蜘,這里我們僅使用實例級別的注釋來訓練網絡。測試數據集腮猖。我們在兩個標準文本點標基準ICDAR2013(Karatzas等人2013)(IC13)和ICDAR2015(Karatzas等人2015)(IC15)中評估了我們的方法鉴扫,其中主要包含水平和透視文本,以及兩個不規(guī)則的基準Total-Text(Ch'ng和Chan 2017)和SCUT-CTW1500(Liu等人2019)(CTW1500)澈缺,其中包含許多彎曲文本坪创。車牌識別數據集CCPD中我們方法的能力(Xuet al.2018)。

4.2 Implementation Details

所有實驗均在Pytorch中使用8×32 GB-Tesla-V100 GPU進行姐赡。網絡詳細信息莱预。特征提取器使用ResNet-50(He等人2016)和FPN(Lin等人2017a)從不同的特征圖中獲取融合特征水平。這里项滑,C = 256的(4×)特征圖用于執(zhí)行后續(xù)的訓練和測試任務.Lis設置為25以覆蓋大多數場景文本單詞依沮。 BiLSTM模塊有256個隱藏單元,訓練詳細信息枪狂,所有模型均由SGDoptimizer進行訓練危喉,批處理大小= 2,動量= 0.9和重量衰減= 1×10?4州疾。在預訓練階段辜限,以10個周期的初始學習比率1×10-2訓練網絡。每3個周期將學習率除以10.在微調階段严蓖,初始學習率設置為1×10-3薄嫡。為了平衡每批中的合成圖像和真實圖像的數量,我們將Curved SynthText數據集與其他真實數據集的采樣比率保持為1:1颗胡。微調過程持續(xù)250k次迭代毫深,其中學習率在120k迭代和200k迭代時除以10.我們還對所有訓練過程進行數據擴充,包括1)將輸入圖像的較長邊隨機縮放為長度在[720,1800]范圍內毒姨,2)將圖像隨機旋轉[-15°哑蔫,15°]范圍內的角度,以及3)對輸入圖像應用隨機的亮度弧呐,抖動和對比度鸳址。在不同的數據集中,我們將IC15的評估值設置為S = 60泉懦,將IC13,Total-Text和CTW1500的評估值設置為S = 40疹瘦。我們將所有權重參數簡單地設置為λ1=λ2=λ3=λ= 1崩哩。測試細節(jié)。由于輸入圖像的尺寸是重要的重要影響性能,因此我們將報告不同輸入比例下的性能邓嘹,即保持原始比例和將圖像的較長邊調整為固定值酣栈。所有圖像都在單一尺度上進行測試。由于當前的實現方式僅提供了粗略的定位汹押,因此矿筝,我們通過考慮IoU> 0.1的所有檢測結果,修改(Wang棚贾,Babenko和Belongie 2011)的端到端評估指標窖维。在這種情況下,由于某些低等級的建議匹配而導致精度下降妙痹,先前方法的性能甚至會下降铸史。

4.3 Results on Text Spotting Benchmarks

常規(guī)文本的評估我們首先根據常規(guī)評估指標(Karatzas等,2015)對IC13和IC15的方法進行評估怯伊,然后基于三種不同的lexi-cons(強)對兩個評估項目(端到端''和單詞斑點'')進行評估琳轿,弱和通用)。表1顯示了評估結果耿芹。與使用常規(guī)詞典評估的先前方法相比崭篡,我們的方法在“通用”項目上獲得了最佳結果(除了IC15的端到端通用結果之外),并在其余評估項目上獲得了競爭結果(強”和“弱”)吧秕。與最近使用特定詞典的最新MaskMaskTextSpotter(Liao et al.2019)相比琉闪,我們的方法在所有評估項目上均明顯優(yōu)于該方法。盡管推理速度很高寇甸,但FOTS的FPS最高(幀數第二)塘偎,它無法處理不正常的情況。與基于不規(guī)則的方法相比拿霉,我們的方法獲得了最高的FPS吟秩。不規(guī)則文本的評估我們在Total-Text上測試了我們的方法,如表2所示绽淘。我們發(fā)現我們的方法比最先進的方法高出3.2%和5.3 “無”和“滿”指標中的百分比涵防。請注意,即使沒有明確的糾正機制沪铭,我們的模型也只能在識別監(jiān)督的驅動下才能很好地處理不規(guī)則文本壮池。盡管在1280的測試規(guī)模下,推理速度約為ABCNet的1/2杀怠,但我們的方法取得了顯著的性能提升椰憋。我們還在CTW1500上評估了我們的方法。報告端到端結果的作品很少赔退,因為它主要包含行級文本注釋橙依。為了適應這種情況证舟,我們在CTW1500的訓練集上對檢測分支進行了重新訓練,以學習線級中心線分割窗骑,并確定主干和其他分支的權重女责。請注意,識別不會受到影響创译,仍然會輸出單詞級序列抵知。最終結果將根據推斷的連接區(qū)域簡單地從左到右連接起來。漢字設置為NOT CARE软族。結果如表3所示刷喜。我們發(fā)現,在“無”和“滿”度量標準下互订,我們的方法明顯比以前的提升了1.9%和4.6%吱肌。因此,我們相信仰禽,如果只有行級注解的數據足夠多氮墨,我們的模型就可以很好地適應這種情況。

4.4 Visualization Analysis

圖4可視化了IC15和Total-Text上的端到端文本發(fā)現結果吐葵。 我們詳細顯示了字符投票之前每個正網格(oi规揪,j> 0.3)的預測結果。 我們看到我們的模型可以正確地專注于相應的位置并學習任意形狀(例如彎曲或垂直)文本實例的字符序列的復雜讀取順序温峭。 采取字符投票策略后猛铅,將生成具有最高置信度的單詞。我們還用可視化的CMA演示了CTW1500的一些結果凤藏,如圖5所示奸忽。請注意,我們僅根據數據集的位置微調線級分割部分 標簽揖庄,同時固定其余部分栗菜。在這里,我們通過將所有網格的注意圖覆蓋在相同的字符位置(k)上來可視化CMA的特征圖:


4.5 Ablation Studies

網格編號的消除網格編號S2是影響最終結果的關鍵參數蹄梢。如果太小疙筹,則占據相同網格的文本太多。否則禁炒,太大的S會導致更多的計算成本而咆。在這里,我們進行實驗以找到不同數據集的S的可行值幕袱。從表4中暴备,我們發(fā)現IC13和TotalText的bestS均為40。 IC15的值為60们豌。這是因為IC15包含更多密集和較小的實例馍驯「笪#總而言之,當S> = 40時汰瘫,總體性能隨沙的增加而穩(wěn)定。當然擂煞,FPS隨S的增加而略有下降混弥。信息。為了證明這一點对省,我們還進行了實驗蝗拿,以矩形邊框的形式轉移所有本地化注釋。我們僅采用RPN頭作為檢測分支蒿涎。表5顯示了IC15和Total-Text的結果哀托。即使進行嚴格的位置監(jiān)控,MANGO的性能也只能降低0%到3%劳秋,并且可以與最新技術相比仓手。請注意,粗略位置僅用于網格選擇玻淑,因此可以根據特定任務的要求盡可能簡化它嗽冒。

4.6 Challenging License Plate Recognitionwithout Position Annotations

為了證明模型的泛化能力,我們進行了實驗以評估CCPD公共數據集上的端到端車牌識別結果(Xu et al.2018)补履。為了公平起見添坊,我們遵循相同的實驗設置,并使用帶有250k圖像的數據集的初始版本箫锤。 CCPD-Base數據集分為兩個相等的部分:用于訓練的100k樣本和用于測試的100k樣本贬蛙。有6個復雜的測試集(包括DB,FN谚攒,旋轉阳准,傾斜,天氣和挑戰(zhàn))用于評估算法的魯棒性五鲫,總共有50k張圖像溺职。由于CCPD中的每個圖像僅包含一個板,因此可以通過刪除來進一步簡化我們的模型檢測分支直接預測最終字符序列位喂。因此浪耘,網格數減少為S = 1,最大序列長度設置為L =8塑崖。我們直接對模型進行微調(已通過SynthText進行了預訓練)在CCPD訓練集上僅使用序列級注釋七冲,然后評估上述七個測試數據集的最終識別準確性。測試階段是對尺寸為720×1160的原始圖像執(zhí)行的规婆。
表6顯示了端到端識別結果澜躺。盡管所提出的方法不是為車牌識別任務設計的蝉稳,但仍然可以輕松地轉移到這種情況下。我們看到掘鄙,提出的模型在7個測試集中的5個中優(yōu)于以前的方法耘戚,并達到了最高的平均精度。圖6顯示了CCPD測試集的一些可視化結果操漠。故障樣本主要來自圖像太模糊而無法識別的情況收津。該實驗表明,在許多情況下浊伙,只有一個文本實例(例如撞秋,工業(yè)印刷識別或儀表撥盤識別),可以使用良好的端到端模型無需檢測注釋即可獲得嚣鄙。

5 Conclusion

在本文中吻贿,我們提出了一種名為MANGO的新穎的單階段場景文本查找器。 該模型刪除了RoI操作哑子,并設計了位置感知注意模塊來粗略定位文本序列舅列。 之后,應用輕量級序列解碼器以將所有最終字符序列成批獲取赵抢。 實驗表明剧蹂,我們的方法可以在流行基準上獲得具有競爭力的,甚至最先進的結果烦却。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末宠叼,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子其爵,更是在濱河造成了極大的恐慌冒冬,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件摩渺,死亡現場離奇詭異简烤,居然都是意外死亡,警方通過查閱死者的電腦和手機摇幻,發(fā)現死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門横侦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人绰姻,你說我怎么就攤上這事枉侧。” “怎么了狂芋?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵榨馁,是天一觀的道長。 經常有香客問我帜矾,道長翼虫,這世上最難降的妖魔是什么屑柔? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮珍剑,結果婚禮上掸宛,老公的妹妹穿的比我還像新娘。我一直安慰自己招拙,他們只是感情好旁涤,可當我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著迫像,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瞳遍。 梳的紋絲不亂的頭發(fā)上闻妓,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天,我揣著相機與錄音掠械,去河邊找鬼由缆。 笑死,一個胖子當著我的面吹牛猾蒂,可吹牛的內容都是我干的均唉。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼肚菠,長吁一口氣:“原來是場噩夢啊……” “哼舔箭!你這毒婦竟也來了?” 一聲冷哼從身側響起蚊逢,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤层扶,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后烙荷,有當地人在樹林里發(fā)現了一具尸體镜会,經...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年终抽,在試婚紗的時候發(fā)現自己被綠了戳表。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡昼伴,死狀恐怖匾旭,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情亩码,我是刑警寧澤季率,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站描沟,受9級特大地震影響飒泻,放射性物質發(fā)生泄漏鞭光。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一泞遗、第九天 我趴在偏房一處隱蔽的房頂上張望惰许。 院中可真熱鬧,春花似錦史辙、人聲如沸汹买。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽晦毙。三九已至,卻和暖如春耙蔑,著一層夾襖步出監(jiān)牢的瞬間见妒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工甸陌, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留须揣,地道東北人。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓钱豁,卻偏偏與公主長得像耻卡,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子牲尺,可洞房花燭夜當晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內容