[CVPR2020]論文翻譯:SCATTER: Selective Context Attentional Scene Text Recognizer

幻燈片1.PNG
幻燈片2.PNG
幻燈片3.PNG
幻燈片4.PNG
幻燈片5.PNG
幻燈片6.PNG
幻燈片7.PNG

Abstract

場(chǎng)景文本識(shí)別(STR)是針對(duì)復(fù)雜圖像背景識(shí)別文本的任務(wù)纵穿,是一個(gè)活躍的研究領(lǐng)域裳涛。當(dāng)前最先進(jìn)的 (SOTA) 方法仍然難以識(shí)別以任意形狀編寫的文本沮尿。本文介紹了一種名為"選擇性上下文"文本識(shí)別器(SCATTER)的STR新架構(gòu)齐饮。SCATTER 在訓(xùn)練期間利用具有中間監(jiān)督的堆疊塊體系結(jié)構(gòu)疮薇,為成功訓(xùn)練深度 BiLSTM 編碼器鋪平了道路姿搜,從而改進(jìn)了上下文依賴的編碼寡润。使用兩步 1維注意力機(jī)制進(jìn)行解碼捆憎。第一個(gè)注意力步驟將來自 CNN 骨干的可視要素與 BiLSTM 圖層計(jì)算的上下文要素重新加權(quán)。第二個(gè)注意力步驟梭纹,類似于前面的論文躲惰,將特征視為一個(gè)序列,并關(guān)注序列內(nèi)關(guān)系栗柒。實(shí)驗(yàn)表明礁扮,該方法在不規(guī)則文本識(shí)別基準(zhǔn)上的平均性能超過SOTA性能3.7%。

1. Introduction

我們處理在自然場(chǎng)景中閱讀文本的任務(wù)瞬沦,通常稱為場(chǎng)景文本識(shí)別 (STR)太伊。盡管STR自90年代末以來一直活躍,但直到最近才達(dá)到商業(yè)應(yīng)用的水平逛钻,這主要是因?yàn)橛?jì)算機(jī)視覺任務(wù)的深度神經(jīng)網(wǎng)絡(luò)研究取得了進(jìn)步僚焦。STR 的應(yīng)用包括識(shí)別自動(dòng)駕駛中的街道標(biāo)志、公司logo曙痘、盲人輔助技術(shù)和混合現(xiàn)實(shí)中的翻譯應(yīng)用芳悲。

自然場(chǎng)景中的文本具有多種背景和任意成像條件的特點(diǎn),這些特征可能導(dǎo)致低對(duì)比度边坤、模糊名扛、失真树姨、低分辨率抚岗、不均勻的照明和其他現(xiàn)象和偽影。此外帮寻,可能的字體類型和大小的絕對(duì)數(shù)量增加了 STR 算法必須克服的另一層困難旺订。通常弄企,識(shí)別場(chǎng)景文本可分為兩個(gè)主要任務(wù) - 文本檢測(cè)和文本識(shí)別。文本檢測(cè)是識(shí)別自然圖像中包含任意文本形狀的區(qū)域的任務(wù)区拳。文本識(shí)別處理將包含一個(gè)或多個(gè)單詞的裁剪圖像解碼到其內(nèi)容的數(shù)字字符串中的任務(wù)拘领。

本文提出了一種文本識(shí)別方法;我們假設(shè)輸入是從自然圖像裁剪的文本圖像,輸出是裁剪圖像中識(shí)別的文本字符串樱调。根據(jù)以前的工作[1约素,16]分類,文本圖像可分為兩類:不規(guī)則文本 任意形狀的文本(如曲線文本)如圖1所示笆凌,以及具有幾乎水平對(duì)齊字符的文本的常規(guī)文本(補(bǔ)充材料中提供了示例)圣猎。
傳統(tǒng)的文本識(shí)別方法 [37、 38菩颖、42] 按字符檢測(cè)和識(shí)別文本字符样漆,但是为障,這些方法具有固有的局限性: 它們不利用字符之間的順序建模和上下文依賴關(guān)系晦闰。

現(xiàn)代方法將STR視為序列預(yù)測(cè)問題放祟。此技術(shù)可減輕對(duì)字符級(jí)注釋(每字符邊界框)需求,同時(shí)實(shí)現(xiàn)卓越的精度呻右。這些基于序列的方法大多數(shù)依賴于連接主義時(shí)序分類 (CTC) [31跪妥, 7] 或基于注意力的機(jī)制 [33, 16]声滥。最近眉撵,Baek等人[1] 提出了一個(gè)模塊化的四步 STR 框架,其中各個(gè)組件可互換落塑,允許使用不同的算法纽疟。圖 1 (a) 描述了此模塊化框架及其性能最佳的組件配置。在這項(xiàng)工作中憾赁,我們?cè)谶@個(gè)框架上構(gòu)建并擴(kuò)展它污朽。

雖然準(zhǔn)確識(shí)別常規(guī)場(chǎng)景文本仍然是一個(gè)開放問題,但最近不規(guī)則的STR基準(zhǔn)(例如龙考,ICD15蟆肆、SVTP)已將研究重點(diǎn)轉(zhuǎn)移到任意形狀識(shí)別文本的問題上。例如晦款,Sheng 等人 [30] 采用了用于 STR 的轉(zhuǎn)換器 [35] 模型炎功,利用轉(zhuǎn)換器捕獲長(zhǎng)程上下文依賴關(guān)系的能力。[16] 中的作者通過 2D 注意力模塊將 CNN 骨干網(wǎng)的視覺特征傳遞到解碼器缓溅。Mask TextSpotter [17] 使用共享骨干結(jié)構(gòu)統(tǒng)一了檢測(cè)和識(shí)別任務(wù)蛇损。對(duì)于識(shí)別階段,使用兩種類型的預(yù)測(cè)分支肛宋,并且根據(jù)置信度更高的分支的輸出選擇最終預(yù)測(cè)州藕。第一個(gè)分支使用字符的語義分割,并需要額外的字符級(jí)注釋酝陈。第二個(gè)分支使用 2D 空間注意力解碼器床玻。

大部分上述STR方法通常在編碼器和/或解碼器中使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)或其他序列建模層(例如,多頭注意力[30])執(zhí)行順序建模步驟沉帮。執(zhí)行此步驟以將視覺特征圖轉(zhuǎn)換為上下文特征圖锈死,從而更好地捕獲長(zhǎng)期依賴關(guān)系。在這項(xiàng)工作中穆壕,我們建議使用堆疊的塊體系結(jié)構(gòu)進(jìn)行重復(fù)的特征處理待牵,該概念類似于在其他計(jì)算機(jī)視覺任務(wù)中使用的概念,例如[40]和隨后的[27喇勋,26]缨该。以上作者表明,與中間監(jiān)督結(jié)合使用的重復(fù)處理可用于逐步完善預(yù)測(cè)川背。

在本文中贰拿,我們提出了選擇性上下文注意力文本識(shí)別器(SCATTER)體系結(jié)構(gòu)蛤袒。

如圖1所示,我們的方法利用堆疊塊結(jié)構(gòu)進(jìn)行重復(fù)處理膨更,并在訓(xùn)練中進(jìn)行中間監(jiān)督妙真,并采用了新穎的選擇性解碼器。選擇解碼器從網(wǎng)絡(luò)的兩個(gè)不同層接收特征荚守,即來自CNN骨干的視覺特征和BiLSTM層計(jì)算的上下文特征珍德,同時(shí)使用兩步一維的注意力機(jī)制。圖2示出了針對(duì)不同的堆疊布置在中間輔助解碼器處計(jì)算的精度等級(jí)矗漾,從而證明了隨著相繼添加附加塊锈候,性能的提高。有趣的是敞贡,按順序進(jìn)行附加塊訓(xùn)練可以帶來中間解碼器的準(zhǔn)確性的提高(與使用較淺的堆疊結(jié)構(gòu)進(jìn)行訓(xùn)練相比)晴及。

本文提出了兩個(gè)主要貢獻(xiàn):
  1. 我們提出了一種用于文本識(shí)別的重復(fù)處理體系結(jié)構(gòu),并在中間選擇性解碼器的監(jiān)督下進(jìn)行了訓(xùn)練嫡锌。使用這種架構(gòu)虑稼,我們訓(xùn)練了一個(gè)深層的BiLSTM編碼器,從而在不規(guī)則文本上達(dá)到SOTA結(jié)果势木。
  2. 選擇性注意力解碼器蛛倦,通過采用兩步注意力機(jī)制同時(shí)解碼視覺和上下文特征。第一注意力步要弄清楚要注意哪些視覺和上下文特征啦桌。第二步將特征視為一個(gè)序列溯壶,并處理序列內(nèi)關(guān)系。

2. Related Work

STR在過去幾年中引起了相當(dāng)大的關(guān)注[34甫男、36且改、3、20]板驳。關(guān)于場(chǎng)景文本檢測(cè)和識(shí)別的綜合調(diào)查可以在[43又跛,1,21]中找到若治。
如上所述慨蓝,STR可以分為兩類:常規(guī)文本和不規(guī)則文本(補(bǔ)充材料中提供了更多示例)。早期的論文[37,38,42]專注于常規(guī)文本端幼,并使用了自下而上的方法礼烈,該方法涉及使用滑動(dòng)窗口對(duì)單個(gè)字符進(jìn)行分割,然后使用手工制作的特征來識(shí)別字符婆跑。上述自下而上方法的一個(gè)顯著問題是此熬,它們難以使用上下文信息。相反,他們依靠準(zhǔn)確的字符分類器犀忱。 Shi等疟赊。 2015 [31]和He等。 [11]認(rèn)為單詞是不同長(zhǎng)度的序列峡碉,并采用RNN對(duì)序列進(jìn)行建模而沒有明確的字符分離。 Shi等驮审。 2016 [32]提出了一種成功的使用序列方法的端到端可訓(xùn)練架構(gòu)鲫寄,而無需依賴于字符級(jí)注釋。
他們的解決方案使用BiLSTM層從輸入特征圖中提取順序特征向量疯淫,然后將這些向量饋入關(guān)注門控循環(huán)單元(GRU)模塊進(jìn)行解碼地来。
上面提到的方法在STR準(zhǔn)確性上大大提高了公共基準(zhǔn)。因此熙掺,最近的工作將重點(diǎn)轉(zhuǎn)移到了識(shí)別形狀不規(guī)則的文本這一更具挑戰(zhàn)性的問題上未斑,從而促進(jìn)了新的研究方向。諸如輸入校正币绩,字符級(jí)分割蜡秽,2D注意特征圖和自我注意之類的話題已經(jīng)出現(xiàn),將信封推向不規(guī)則的STR缆镣。 Shi等芽突。 2018 [33]調(diào)整為定向或
基于空間變壓器網(wǎng)絡(luò)(STN)的彎曲文本。
劉等董瞻。 2018 [19]引入了字符感知神經(jīng)網(wǎng)絡(luò)(Char-Net)來檢測(cè)和糾正單個(gè)字符寞蚌。編碼器-解碼器框架中用于語音識(shí)別任務(wù)的CTC注意機(jī)制的組合用于[45]中的STR,顯示了聯(lián)合CTC注意學(xué)習(xí)的好處钠糊。 [7]中的作者提出了兩個(gè)監(jiān)督分支來處理顯式和隱式語義信息挟秤。在[4]中,門被插入到循環(huán)解碼器中抄伍,用于控制先前嵌入向量的傳輸權(quán)重艘刚,這表明解碼并不一定需要上下文。 Mask TextSpotter [17]的作者以端到端的方式統(tǒng)一了文本檢測(cè)和文本識(shí)別截珍。為了識(shí)別昔脯,他們使用了兩個(gè)單獨(dú)的分支,一個(gè)使用視覺(局部)特征的分支笛臣,另一個(gè)使用了2D注意形式的上下文信息的分支云稚。
最近的方法提出了利用各種注意力機(jī)制來改善結(jié)果的方法。 Li等沈堡。 [16]結(jié)合了視覺和上下文特征静陈,同時(shí)在編碼器-解碼器中利用了2D注意。其他研究人員借鑒了自然語言處理(NLP)領(lǐng)域的思想,并采用了基于轉(zhuǎn)換器的架構(gòu)[35]鲸拥。其中之一是Sheng等拐格。 [30],它為編碼器和解碼器都使用了一種自動(dòng)注意機(jī)制刑赶。
我們的方法與上述方法不同捏浊,因?yàn)樗堑谝粋€(gè)使用堆疊式塊體系結(jié)構(gòu)進(jìn)行文本識(shí)別的方法。即撞叨,我們表明金踪,以中間選擇性解碼器作為監(jiān)督訓(xùn)練的文本識(shí)別重復(fù)處理(與[40,27牵敷,26]相似)越來越多地完善了文本預(yù)測(cè)胡岔。

3. Methodology


如圖 3 所示,我們提出的結(jié)構(gòu)由四個(gè)主要組件組成:

  1. 變換:使用空間變換網(wǎng)絡(luò)(STN)[13]對(duì)輸入文本圖像進(jìn)行規(guī)范化枷餐。
  2. 特征提劝腥场:使用文本注意力模塊 [7] 將輸入圖像映射到特征圖表示形式。
  3. 視覺特征優(yōu)化:為視覺特征中的每一列提供直接監(jiān)督毛肋。此部分通過將每個(gè)要素列分類為單個(gè)符號(hào)來優(yōu)化每個(gè)要素列中的表示形式怨咪。
  4. 選擇性上下文優(yōu)化塊:每個(gè)塊由一個(gè)兩層 BILSTM 編碼器組成,用于輸出上下文特征润匙。上下文特征 CNN 主干網(wǎng)計(jì)算的可視特征串聯(lián)在一起惊暴。然后,將此串聯(lián)特征圖送入選擇性解碼器趁桃,該解碼器采用兩步 1維注意力機(jī)制辽话,如圖 4 所示。



    在本節(jié)中卫病,我們描述了SCATTER的訓(xùn)練結(jié)構(gòu)油啤,同時(shí)描述了訓(xùn)練和推理的區(qū)別。

3.1. Transformation

轉(zhuǎn)換步驟在裁剪的文本圖像 X 上操作蟀苛,并將其轉(zhuǎn)換為規(guī)范化圖像 X'益咬。我們使用薄板樣條 (TPS) 變換(STN 的變體),如 [1] 中使用的帜平。TPS 在一組基準(zhǔn)點(diǎn)之間采用平滑的樣條插值幽告。具體地說,它會(huì)檢測(cè)文本區(qū)域頂部和底部的預(yù)定義基準(zhǔn)點(diǎn)數(shù)裆甩,并規(guī)范化預(yù)測(cè)區(qū)域到恒定的預(yù)定義大小冗锁。

3.2. Feature Extraction

在此步驟中,卷積神經(jīng)網(wǎng)絡(luò) (CNN) 從輸入圖像中提取特征嗤栓。我們使用 29 層 ResNet 作為 CNN 的骨干冻河,如 [5] 中使用的箍邮。特征編碼器的輸出為 512 通道(按 N 列)。具體地說叨叙,特征編碼器獲取輸入圖像 X'并輸出特征圖 F =[f1锭弊、f2、...擂错、fN]味滞。在特征提取之后,我們使用類似于 [7] 的文本注意力模塊钮呀。注意力特征圖可視為長(zhǎng)度 N 的可視特征序列剑鞍,表示為 V = [v1、v2行楞、...,vN ]土匀,其中每列表示序列中的幀子房。

3.3. Visual Feature Refinement

在這里,視覺特征序列V用于中間解碼就轧。此中間監(jiān)督旨在優(yōu)化 V 的每個(gè)列中的字符嵌入(表示)证杭,并使用基于 CTC 的解碼。我們通過一個(gè)完全連接的層饋送 V妒御,該層輸出長(zhǎng)度為 N 的序列 H解愤。輸出序列被輸入 CTC [8] 解碼器以生成最終輸出。CTC 解碼器將輸出序列張量轉(zhuǎn)換為標(biāo)簽序列上的條件概率分布乎莉,然后選擇最可能的標(biāo)簽送讲。The transcription procedure

3.4. Selective-Contextual Refinement Block

3.4.1 Selective-Decoder

我們采用兩步注意力機(jī)制,如圖4所示惋啃。首先哼鬓,我們?cè)谔卣鲌D D上操作1維自注意力機(jī)制。全連接層從這些特征中計(jì)算注意力特征圖边灭。接下來异希,在注意力圖和D之間計(jì)算像素積,生成注意力特征 D'绒瘦。D'的解碼使用單獨(dú)的注意解碼器完成称簿,因此對(duì)于每個(gè)t時(shí)間步數(shù),解碼器輸出yt惰帽,類似于 [5憨降, 2]。

3.5. Training Losses

3.6. Inference

一旦訓(xùn)練完成该酗,在測(cè)試時(shí)間券册,我們將刪除所有中間解碼器,因?yàn)樗鼈儍H用于額外的監(jiān)督和中間特征的改進(jìn)。 視覺特征V由所有塊中的BiLSTM層處理烁焙,并且還通過跳過連接直接饋送到最終的選擇解碼器航邢。 最終的選擇性解碼器用于預(yù)測(cè)字符的輸出序列。 這些變化的可視化可以在圖3和圖1(b)中看到骄蝇,圖3中所有綠色操作都在推理過程中被禁用膳殷。

4. Experiment

在本節(jié)中,我們通過實(shí)驗(yàn)論證了我們提出的框架的有效性九火。首先赚窃,我們將簡(jiǎn)要討論用于訓(xùn)練和測(cè)試的數(shù)據(jù)集,然后描述我們的實(shí)現(xiàn)和評(píng)估設(shè)置岔激。接下來勒极,我們將模型與公共基準(zhǔn)數(shù)據(jù)集(包括常規(guī)文本和不規(guī)則文本)的最先進(jìn)的方法進(jìn)行比較。最后虑鼎,我們解決我們的方法的計(jì)算成本辱匿。

4.1. Dataset

在這項(xiàng)工作中,所有SCATTER模型都在三個(gè)綜合數(shù)據(jù)集上進(jìn)行訓(xùn)練炫彩。該模型在四個(gè)規(guī)則場(chǎng)景文本數(shù)據(jù)集:ICDAR2003匾七,ICDAR2013,IIIT5K江兢,SVT和三個(gè)不規(guī)則文本數(shù)據(jù)集:ICDAR2015昨忆,SVTP和CUTE上進(jìn)行了評(píng)估。

訓(xùn)練數(shù)據(jù)集是三個(gè)數(shù)據(jù)集的聯(lián)合:

MJSynth(MJ)[12]是圖像數(shù)據(jù)集中的合成文本杉允,其中包含900萬個(gè)單詞盒圖像邑贴,這些圖像是由90K個(gè)英語單詞的詞典生成的。
SynthText(ST)[10]是圖像數(shù)據(jù)集中的合成文本叔磷,旨在用于場(chǎng)景文本檢測(cè)和識(shí)別痢缎。如[1]中所使用的,我們使用由5.5M樣本組成的SynthText數(shù)據(jù)集的變體世澜。此變體不包含任何非字母數(shù)字字符独旷。
SynthAdd(SA)[16]是圖像數(shù)據(jù)集中的合成文本,包含120萬個(gè)單詞框圖像寥裂。此數(shù)據(jù)集是使用與ST中相同的合成引擎生成的嵌洼,旨在緩解其他數(shù)據(jù)集中缺少非字母數(shù)字字符(例如標(biāo)點(diǎn)符號(hào))的情況。

所有實(shí)驗(yàn)均在以下所述的七個(gè)真實(shí)單詞的STR基準(zhǔn)數(shù)據(jù)集中進(jìn)行評(píng)估封恰。與許多STR手稿(例如[33麻养,1,16])一樣诺舔,基準(zhǔn)數(shù)據(jù)集通常會(huì)根據(jù)文本布局分為規(guī)則文本和不規(guī)則文本鳖昌。

規(guī)則文本數(shù)據(jù)集包括以下內(nèi)容:

IIIT5K[25]由從Google圖像搜索中裁剪的2000幅訓(xùn)練圖像和3000幅測(cè)試圖像組成备畦。
SVT[37]是從Google街景圖像收集的數(shù)據(jù)集,包含257個(gè)訓(xùn)練圖像和647個(gè)測(cè)試單詞盒裁剪圖像许昨。
ICDAR2003[23]包含867個(gè)字盒裁剪的圖像以進(jìn)行測(cè)試懂盐。
ICDAR2013 [15]包含848個(gè)訓(xùn)練和1,015個(gè)測(cè)試字盒裁剪圖像。

不規(guī)則的文本數(shù)據(jù)集包括以下內(nèi)容:

ICDAR2015[14]包含4,468份訓(xùn)練和2,077個(gè)測(cè)試的單詞框裁剪圖像糕档,所有圖像均由Google Glass捕獲莉恼,沒有仔細(xì)定位或聚焦。
SVTP[28]是從Google街景圖像中收集的數(shù)據(jù)集速那,由645個(gè)裁剪后的文字框圖像組成俐银,用于測(cè)試。
CUTE 80[29]包含288個(gè)裁剪過的單詞盒圖像以進(jìn)行測(cè)試端仰,其中許多是彎曲的文本圖像

4.2. Implementation Detail

我們使用Baek等人的代碼https://github.com/clovaai/deep-text-recognition-benchmark[1]作為基線捶惜,我們的網(wǎng)絡(luò)結(jié)構(gòu)更改是在此基礎(chǔ)上實(shí)現(xiàn)的。所有實(shí)驗(yàn)均在帶有16GB內(nèi)存的Tesla V100 GPU上使用PyTorch框架進(jìn)行訓(xùn)練和測(cè)試荔烧。至于訓(xùn)練細(xì)節(jié)吱七,我們沒有進(jìn)行任何類型的預(yù)訓(xùn)練。我們使用AdaDelta優(yōu)化器進(jìn)行訓(xùn)練茴晋,并使用以下訓(xùn)練參數(shù):衰減率為0.95陪捷,梯度限幅為5回窘,批量大小為128(在MJ诺擅, ST和SA上采樣率分別為40%,40%啡直,20%)烁涌。我們?cè)谟?xùn)練期間使用數(shù)據(jù)增強(qiáng),并通過隨機(jī)調(diào)整它們的大小并添加額外的失真來增強(qiáng)40%的輸入圖像酒觅。每個(gè)模型在統(tǒng)一訓(xùn)練集上訓(xùn)練了6 個(gè)epoch撮执。對(duì)于我們內(nèi)部
驗(yàn)證數(shù)據(jù)集,我們使用IC13舷丹,IC15抒钱,IIIT和SVT訓(xùn)練部分的并集來選擇最佳模型,如[1]中所述颜凯。按照常規(guī)做法谋币,在訓(xùn)練和測(cè)試期間,所有圖像的大小都會(huì)調(diào)整為32×100症概。在本文中蕾额,我們使用36個(gè)符號(hào)類別:10位數(shù)字和26個(gè)不區(qū)分大小寫的字母。對(duì)于用于CTC解碼的特殊符號(hào)彼城,將附加的“ [UNK]”和“ [blank]”添加到標(biāo)簽集中诅蝶。對(duì)于選擇解碼器退个,添加了三個(gè)特殊的標(biāo)點(diǎn)符號(hào):“ [GO]”,“ [S]”和“ [UNK]”调炬,它們指示序列的開頭语盈,序列的結(jié)尾和未知字符(非字母) -numeric)。

推斷時(shí)筐眷,我們采用與[16黎烈、39、22]類似的機(jī)制匀谣,其中高度大于其寬度的圖像分別順時(shí)針和逆時(shí)針旋轉(zhuǎn)90度照棋。旋轉(zhuǎn)的版本與原始圖像一起被識(shí)別。預(yù)測(cè)置信度得分將計(jì)算為直到“ [S]”之前的平均解碼器概率武翎。然后烈炭,我們選擇置信度得分最高的預(yù)測(cè)作為最終預(yù)測(cè)。與[33宝恶、16符隙、30]不同,我們不使用波束搜索進(jìn)行解碼垫毙,盡管[16]中的作者報(bào)告稱霹疫,由于它增加了等待時(shí)間,因此將準(zhǔn)確性提高了約0.5%综芥。

4.3. Comparison to State-of-the-art

在本節(jié)中丽蝎,我們將結(jié)果與最新的SOTA識(shí)別方法進(jìn)行比較,然后在幾種規(guī)則和不規(guī)則場(chǎng)景文本基準(zhǔn)上測(cè)量所提出框架的準(zhǔn)確性膀藐。如表1所示屠阻,在不規(guī)則場(chǎng)景文本基準(zhǔn)(即IC15,SVTP额各,CUTE)上国觉,我們的具有5個(gè)塊的SCATTER體系結(jié)構(gòu)優(yōu)于當(dāng)前的SOTA,即Mask TextSpotter [17]算法虾啦,平均絕對(duì)差值為3.7%麻诀。我們的方法在IC15上的精度提高了+4.0 pp(78.2%對(duì)82.2%),在SVTP上提高了+3.3 pp(83.6%對(duì)86.9%)傲醉,是在CUTE上屏蔽TextSpotter [17]的第二好的方法( 88.5%與87.5%)的數(shù)據(jù)集蝇闭。另外,所提出的方法在SVT和IC03常規(guī)場(chǎng)景文本數(shù)據(jù)集上均優(yōu)于其他方法需频,并且在其他常規(guī)場(chǎng)景文本數(shù)據(jù)集(即IIIT5K和IC13)上實(shí)現(xiàn)了可比的SOTA性能丁眼。

總而言之,我們的模型在7個(gè)基準(zhǔn)中的4個(gè)中獲得最高的識(shí)別分?jǐn)?shù)昭殉,在另外2個(gè)基準(zhǔn)中獲得次優(yōu)的分?jǐn)?shù)苞七。與其他在常規(guī)或不規(guī)則場(chǎng)景文本基準(zhǔn)測(cè)試中表現(xiàn)良好的方法不同藐守,我們的方法在所有基準(zhǔn)測(cè)試中均表現(xiàn)最佳。

我們想簡(jiǎn)要討論Mask TextSpotter [17]與這項(xiàng)工作之間的主要區(qū)別蹂风。 [17]中的算法依賴于包含字符級(jí)的注釋卢厂,這是我們算法不需要的信息。如原始論文中所述惠啄,這些注釋對(duì)常規(guī)和不規(guī)則文本數(shù)據(jù)集的平均貢獻(xiàn)分別為0.9 pp和0.6 pp慎恒。因此,在沒有字符級(jí)別注釋的情況下撵渡,我們的模型在常規(guī)文本上的效果略好(93.9%比94%)融柬,并且效果明顯更好
不規(guī)則文字(分別為79.4%和83.7%)。另一方面趋距,我們的方法不需要這些注釋粒氧,這些注釋既昂貴又難以注釋,特別是對(duì)于真實(shí)數(shù)據(jù)节腐。



在圖5中外盯,我們顯示了我們方法的失敗案例。失敗案例主要由模糊圖像翼雀,部分字符遮擋饱苟,困難的光照條件和標(biāo)點(diǎn)符號(hào)的誤識(shí)別組成。

4.4. Computational Costs

如圖1所示狼渊,在推理過程中箱熬,只有最后一塊的選擇性解碼器保持活動(dòng)狀態(tài)。我們提出的具有單個(gè)塊的結(jié)構(gòu)的總計(jì)算成本為20.1 ms囤锉。推理期間每個(gè)中間上下文細(xì)化塊的額外計(jì)算成本轉(zhuǎn)換為每個(gè)塊3.2毫秒坦弟。對(duì)于5塊體系結(jié)構(gòu)(我們的最佳設(shè)置)护锤,這意味著總共增加了12.8毫秒官地,總前向傳播耗時(shí)32.9毫秒。

此外烙懦,給定推理時(shí)間的計(jì)算預(yù)算驱入,可以通過訓(xùn)練帶有大量塊的系統(tǒng)并將其修剪以進(jìn)行推理來提高性能。例如氯析,用五個(gè)塊訓(xùn)練的體系結(jié)構(gòu)然后被修剪為單個(gè)塊亏较,就能夠勝過僅用單個(gè)塊訓(xùn)練的結(jié)構(gòu)。圖2(2c)展示了一個(gè)訓(xùn)練有五個(gè)塊的網(wǎng)絡(luò)以及中間解碼器的平均測(cè)試精度掩缓。這表明在常規(guī)的不規(guī)則數(shù)據(jù)集上(在相同的計(jì)算預(yù)算下)雪情,修剪分別導(dǎo)致+0.4 pp和+1.3 pp的增加。 SCATTER的這一新穎功能允許在需要時(shí)進(jìn)行更快的推斷你辣,在某些情況下尘执,修剪甚至可以提高結(jié)果宴凉。

5. Ablation Experiments

在本節(jié)中,我們將進(jìn)行一系列實(shí)驗(yàn)弥锄,以更好地理解性能改進(jìn)并分析關(guān)鍵貢獻(xiàn)的影響丧靡。 在本節(jié)中,我們使用規(guī)則和不規(guī)則測(cè)試數(shù)據(jù)集的結(jié)果的加權(quán)平均值(按樣本數(shù))温治。 為了完整起見戒悠,表2中的第一行和第二行顯示了[1]中的報(bào)告結(jié)果罐盔,以及我們的自定義訓(xùn)練設(shè)置對(duì)[1]的重新訓(xùn)練模型的改進(jìn)結(jié)果。

5.1. Intermediate Supervision & Selective Decoding

表2(a)部分顯示了通過添加中間CTC監(jiān)督和提出的選擇性解碼器而提高的準(zhǔn)確性救崔。 在(a)節(jié)的第二行和第三行之間,我們添加了一個(gè)CTC解碼器纬黎,用于中間監(jiān)督劫窒,可將規(guī)則文本和不規(guī)則文本的基線結(jié)果分別提高+0.2 pp和+0.4 pp。 第四行通過用提出的選擇性解碼器替換標(biāo)準(zhǔn)注意力解碼器(分別對(duì)常規(guī)文本和不規(guī)則文本分別為+0.4 pp和+2.7 pp)展示了與基線結(jié)果相比的改進(jìn)冠息。
表2(b)部分顯示了通過更改中間監(jiān)督的數(shù)量(從1到3),使用具有4個(gè)BiLSTM層的SCATTER體系結(jié)構(gòu)逛艰,精度的單調(diào)提高搞旭。 對(duì)于規(guī)則文本和不規(guī)則文本肄渗,(b)節(jié)的準(zhǔn)確性的相對(duì)提高分別為+0.7 pp和+2.9 pp。

5.2. Stable Training of a Deep BiLSTM Encoder

如介紹部分所述欠动,以前的論文僅使用2層BiLSTM編碼器惑申。 [45]中的作者報(bào)告說铆遭,當(dāng)BiLSTM編碼器中的層數(shù)增加時(shí)沿猜,精度會(huì)下降。我們重現(xiàn)[45]中報(bào)告的實(shí)驗(yàn)啼肩,該實(shí)驗(yàn)是在編碼器中增加BiLSTM層數(shù)的基礎(chǔ)架構(gòu)上訓(xùn)練基線架構(gòu)(結(jié)果在補(bǔ)充材料中)。我們觀察到與[45]中類似的現(xiàn)象害碾,即使用兩個(gè)以上BiLSTM層時(shí)精度降低赦拘。與該發(fā)現(xiàn)相反躺同,表2表明,在SCATTER中增加BiLSTM層數(shù)的總體趨勢(shì)是剃袍,在增加中間監(jiān)督數(shù)的同時(shí)捎谨,提高了準(zhǔn)確性。對(duì)于規(guī)則和非規(guī)則文本數(shù)據(jù)集畏邢,識(shí)別精度最多可單調(diào)提高10個(gè)BiLSTM層检吆。

從表2(c)可以明顯看出咧栗,當(dāng)在編碼器中使用10個(gè)以上的BiLSTM層進(jìn)行訓(xùn)練時(shí)虱肄,規(guī)則和不規(guī)則文本的準(zhǔn)確度結(jié)果略有下降(分別為-0.4 pp和-0.5 pp),而規(guī)則和不規(guī)則文本均下降(相似現(xiàn)象是在驗(yàn)證集上觀察到)斟或。預(yù)計(jì)增加網(wǎng)絡(luò)容量將導(dǎo)致更具挑戰(zhàn)性的訓(xùn)練程序集嵌。其他訓(xùn)練方法可能需要考慮成功地訓(xùn)練以融合非常深的編碼器。這樣的方法可能包括增量訓(xùn)練怜珍,在這種訓(xùn)練中酥泛,我們首先使用少量塊在較淺的網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,然后在訓(xùn)練過程中逐漸堆疊更多的塊呆躲。

中間預(yù)測(cè)的示例在表3中可見捶索,顯示了SCATTER逐漸完善文本預(yù)測(cè)的能力。

5.3. Oracle Decoder Voting

在表4中辅甥,顯示了在經(jīng)過5個(gè)塊訓(xùn)練的SCATTER體系結(jié)構(gòu)上中間解碼器的測(cè)試精度燎竖。 最后一行總結(jié)了甲骨文的潛在結(jié)果底瓣,即對(duì)于每個(gè)測(cè)試圖像,如果任何一個(gè)解碼器中都存在一個(gè)正確的預(yù)測(cè)拨扶,它都會(huì)選擇正確的預(yù)測(cè)茁肠。 如果存在在不同解碼器預(yù)測(cè)之間進(jìn)行選擇的最佳策略,則所有數(shù)據(jù)集上的結(jié)果將達(dá)到新的最新水平匹颤。 通過這樣的預(yù)言托猩,可能會(huì)提高準(zhǔn)確性京腥,整個(gè)數(shù)據(jù)集的精度在+0.8 pp至最高+5 pp之間。 可能的預(yù)測(cè)選擇策略可能基于集成技術(shù)或預(yù)測(cè)每個(gè)特定圖像使用哪個(gè)解碼器的元模型他宛。

6. Conclusions and Future Work

在這項(xiàng)工作中,我們提出了一個(gè)名為SCATTER的堆疊塊網(wǎng)絡(luò)結(jié)構(gòu)镜撩,該結(jié)構(gòu)可實(shí)現(xiàn)SOTA識(shí)別精度队塘,并為使用深層BiLSTM編碼器的STR網(wǎng)絡(luò)提供穩(wěn)定人灼,更強(qiáng)大的訓(xùn)練。這是通過在網(wǎng)絡(luò)層上添加中間監(jiān)督并依靠新穎的選擇性解碼器來實(shí)現(xiàn)的奈泪。

我們還證明灸芳,使用中間選擇性解碼器作為監(jiān)督訓(xùn)練的烙样,用于文本識(shí)別的重復(fù)處理結(jié)構(gòu),日益完善了文本預(yù)測(cè)蛤肌。另外批狱,由于我們提出的新穎性不限于我們的注意力公式,所以其他注意力方法也可以受益于堆疊注意解碼器炒俱。

我們考慮了未來工作的兩個(gè)有希望的方向爪膊。首先推盛,在圖2中,我們顯示訓(xùn)練較深的網(wǎng)絡(luò)拇派,然后修剪最后的解碼器(和層)比訓(xùn)練較淺的網(wǎng)絡(luò)更可取凿跳】厥龋考慮到計(jì)算預(yù)算的限制,這可能導(dǎo)致性能提高曾掂。最后壁顶,我們看到了在針對(duì)每個(gè)圖像的不同解碼器的預(yù)測(cè)之間開發(fā)最佳選擇策略的潛力若专。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末调衰,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子嚎莉,更是在濱河造成了極大的恐慌趋箩,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件爬早,死亡現(xiàn)場(chǎng)離奇詭異筛严,居然都是意外死亡饶米,警方通過查閱死者的電腦和手機(jī)檬输,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來析命,“玉大人,你說我怎么就攤上這事簇搅。” “怎么了啥寇?”我有些...
    開封第一講書人閱讀 158,207評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我备典,道長(zhǎng)意述,這世上最難降的妖魔是什么欲险? 我笑而不...
    開封第一講書人閱讀 56,755評(píng)論 1 284
  • 正文 為了忘掉前任天试,我火速辦了婚禮,結(jié)果婚禮上务唐,老公的妹妹穿的比我還像新娘带兜。我一直安慰自己,他們只是感情好刑巧,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評(píng)論 6 386
  • 文/花漫 我一把揭開白布啊楚。 她就那樣靜靜地躺著恭理,像睡著了一般郭变。 火紅的嫁衣襯著肌膚如雪涯保。 梳的紋絲不亂的頭發(fā)上夕春,一...
    開封第一講書人閱讀 50,050評(píng)論 1 291
  • 那天横辆,我揣著相機(jī)與錄音狈蚤,去河邊找鬼划纽。 笑死勇劣,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的幻捏。 我是一名探鬼主播命咐,決...
    沈念sama閱讀 39,136評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼醋奠,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了沛善?” 一聲冷哼從身側(cè)響起塞祈,我...
    開封第一講書人閱讀 37,882評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤议薪,失蹤者是張志新(化名)和其女友劉穎笙蒙,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體轧葛,經(jīng)...
    沈念sama閱讀 44,330評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡尿扯,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評(píng)論 2 327
  • 正文 我和宋清朗相戀三年衷笋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片爵赵。...
    茶點(diǎn)故事閱讀 38,789評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡空幻,死狀恐怖容客,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情但两,我是刑警寧澤供置,帶...
    沈念sama閱讀 34,477評(píng)論 4 333
  • 正文 年R本政府宣布士袄,位于F島的核電站娄柳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏秫筏。R本人自食惡果不足惜挎挖,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評(píng)論 3 317
  • 文/蒙蒙 一蕉朵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧冷蚂,春花似錦、人聲如沸艺骂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宦芦。三九已至轴脐,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間恬涧,已是汗流浹背碴巾。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評(píng)論 1 267
  • 我被黑心中介騙來泰國打工厦瓢, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人劳跃。 一個(gè)月前我還...
    沈念sama閱讀 46,598評(píng)論 2 362
  • 正文 我出身青樓刨仑,卻偏偏與公主長(zhǎng)得像夹姥,于是被迫代替她去往敵國和親辙售。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評(píng)論 2 351