文獻(xiàn)編號:3
文獻(xiàn)著作信息:
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis.pdf
研究主題:
研究STR場景文本識別模型的對比的問題
研究問題:
Scene Text Recognition
STR dataset
STR model evaluate
研究原因:
每個研究STR的都說自己進(jìn)步了首启,但是訓(xùn)練和評估數(shù)據(jù)集不一致,該領(lǐng)域缺乏全面和公正的比較
【真實(shí)數(shù)據(jù)集很貴】:所以作者訓(xùn)練用的合成的數(shù)據(jù)集
研究設(shè)計:
1撤摸、檢查訓(xùn)練集和評估數(shù)據(jù)集的不一致毅桃,以及不一致導(dǎo)致的性能差距
2栽惶、引入一個統(tǒng)一的四階段框架,大多數(shù)的STR模型都適用于該框架疾嗅,這個框架可以評估以前的STR框架,發(fā)現(xiàn)以前沒探索的組合【學(xué)術(shù)裁縫狂喜】
3冕象、控制外部變量代承,分析模型準(zhǔn)確度、速度渐扮、內(nèi)存需求论悴,外部變量就是一組一致的訓(xùn)練和評估數(shù)據(jù)集
研究發(fā)現(xiàn)(收獲):
STN在對于不規(guī)則圖像十分的重要
Resnet比VGG好但是更慢消耗的內(nèi)存更多,模型參數(shù)大了30多倍
BiLSTM有用墓律,但會整體減速
attn添加顯著減慢了整體 STR 模型膀估,相對于CTC來說
低分辨率圖像依然很難利用本文模型來解決
研究結(jié)論:
在關(guān)鍵STR方法中引入通用框架
也引入了一致性數(shù)據(jù)集,7個通用benchmark數(shù)據(jù)集和2個訓(xùn)練數(shù)據(jù)集(MJSynth和SynthText)
MJSynth.pdf (arxiv.org)
SynthText.pdf (arxiv.org)
提供了在關(guān)鍵STR方法中的公平對比
數(shù)據(jù)集介紹
STR規(guī)則數(shù)據(jù)集
IIIT5K-Words (IIIT)[DOI: 10.5244/c.26.127]是從谷歌圖像搜索中抓取的數(shù)據(jù)集耻讽,其中查詢詞可能返回文本圖像察纯,如“廣告牌”、“招牌”针肥、“門牌號”饼记、“門牌號”和“電影海報”。IIIT包含2000張用于訓(xùn)練的圖像和3000張用于評估的圖像
街景文本(SVT)[DOI: 10.1109/iccv.2011.6126402]包含從谷歌街景中收集的戶外街道圖像慰枕。其中一些圖像有噪聲具则、模糊或分辨率低。SVT由257張用于訓(xùn)練的圖像和647張用于評估的圖像組成
ICDAR2003 (IC03)[DOI: 10.1109/icdar.2003.1227749]是為ICDAR2003健壯閱讀比賽創(chuàng)建的具帮,用于閱讀相機(jī)捕捉的場景文本博肋。它包含1156張用于訓(xùn)練的圖像和1110張用于評估的圖像。忽略所有太短(少于3個字符)或包含非字母數(shù)字字符的單詞蜂厅,可以將1,110張圖像減少到867張匪凡。然而,研究人員使用了兩個不同版本的數(shù)據(jù)集進(jìn)行評估:擁有860張和867張圖像的版本葛峻。與867數(shù)據(jù)集相比锹雏,860圖像數(shù)據(jù)集缺少7個字框、
ICDAR2013 (IC13)[DOI: 10.1109/icdar.2003.1227749]繼承了IC03的大部分圖像术奖,也是為ICDAR2013健壯閱讀比賽而創(chuàng)建的礁遵。它包含848張用于訓(xùn)練的圖像和1095張用于評估的圖像,其中剔除帶有非字母數(shù)字字符的單詞會得到1015張圖像采记。研究人員再次使用了兩種不同的版本進(jìn)行評估:857張和1015張圖像佣耐。857個圖像集是1015個圖像集的子集,其中短于3個字符的單詞被修剪唧龄。
其次兼砖,不規(guī)則數(shù)據(jù)集通常包含STR更困難的極端情況,例如彎曲和任意旋轉(zhuǎn)或扭曲的文本
STR不規(guī)則數(shù)據(jù)集
ICDAR2015 (IC15)[DOI: 10.1109/icdar.2015.7333942]是為ICDAR2015健壯閱讀比賽創(chuàng)建的,包含4,468張用于訓(xùn)練的圖像和2,077張用于評估的圖像讽挟。這些圖像是由谷歌眼鏡在佩戴者的自然運(yùn)動下拍攝的懒叛。因此,許多是嘈雜的耽梅,模糊的薛窥,旋轉(zhuǎn)的,一些也是低分辨率的眼姐。研究人員再次使用了兩個不同的版本進(jìn)行評估:1811張和2077張圖像诅迷。之前的論文[4,2]只使用了1811張圖像,丟棄了非字母數(shù)字字符圖像和一些極度旋轉(zhuǎn)众旗、透視移位和彎曲的圖像進(jìn)行評估罢杉。
SVT透視(SP)[DOI: 10.1109/iccv.2013.76]從谷歌街景中收集,包含645張用于評估的圖像贡歧。由于非正面視點(diǎn)的流行滩租,許多圖像包含透視投影
CUTE80 (CT)[DOI: 10.1016/j.eswa.2014.07.008]采集自自然場景,包含288張裁剪圖像用于評估艘款。其中許多是彎曲的文本圖像
現(xiàn)有STR模型在訓(xùn)練和評估設(shè)置不一致的情況下的性能持际。這種不一致性妨礙了這些方法之間的公平比較。我們展示了原始論文報道的結(jié)果哗咆,也展示了我們在統(tǒng)一一致的設(shè)置下重新實(shí)現(xiàn)的結(jié)果蜘欲。在最后一行,我們還展示了我們找到的最佳模型晌柬,它顯示了與最先進(jìn)的方法相比具有競爭力的性能姥份。
表1為我們提供了一個關(guān)鍵問題,先前的工作在不同的基準(zhǔn)數(shù)據(jù)集上評估了他們的模型年碘。具體而言澈歉,對IC03、IC13和IC15中不同版本的基準(zhǔn)進(jìn)行了評估屿衅。在IC03中埃难,7個例子可以導(dǎo)致0.8%的性能差距,這與之前的性能相比是一個巨大的差距涤久。IC13和IC15的樣例數(shù)差距甚至比IC03的更大
STR框架分析
由于 STR 與計算機(jī)視覺任務(wù)(例如對象檢測)和序列預(yù)測任務(wù)的相似性涡尘,STR 受益于高性能卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)。CNN 和 RNN 在 STR响迂、卷積循環(huán)神經(jīng)網(wǎng)絡(luò) (CRNN) [24] 中的第一個組合應(yīng)用考抄,從輸入圖像中提取 CNN 特征,并將它們與 RNN 重新配置以進(jìn)行穩(wěn)健的序列預(yù)測蔗彤。在 CRNN 之后川梅,已經(jīng)提出了多種變體 [25, 16, 18, 17, 28, 4, 3] 來提高性能
例如疯兼,為了校正任意文本幾何圖形,已經(jīng)提出了轉(zhuǎn)換模塊來規(guī)范化文本圖像[25,18,17]贫途。為了處理具有高內(nèi)在維度和潛在因素(例如字體樣式和雜亂的背景)的復(fù)雜文本圖像吧彪,已經(jīng)結(jié)合了改進(jìn)的 CNN 特征提取器 [16, 28, 4]。此外丢早,隨著人們越來越關(guān)注推理時間来氧,一些方法甚至省略了 RNN 階段 [3]。為了提高字符序列預(yù)測香拉,已經(jīng)提出了基于注意力的解碼器 [16, 25]。從現(xiàn)有STR模型導(dǎo)出的四個階段如下:
轉(zhuǎn)換 (Trans.)
轉(zhuǎn)換 使用空間變壓器網(wǎng)絡(luò) STN 對輸入文本圖像進(jìn)行規(guī)范化中狂,以簡化下游階段凫碌。
薄板鍵 (TPS) 變換是空間變換網(wǎng)絡(luò) (STN) 的一種變體,已應(yīng)用于文本行的不同方面比率 胃榕。TPS 在一組基準(zhǔn)點(diǎn)之間采用平滑線性插值盛险。更準(zhǔn)確地說,TPS 在上和下開發(fā)點(diǎn)找到多個基準(zhǔn)點(diǎn)(圖 3 中的綠色“+”標(biāo)記勋又,并將字符區(qū)域歸一化為預(yù)定義的矩形苦掘。我們的框架允許選擇或選擇 TPS
特征提取(Feat.)
2.特征提取(Feat.)將輸入圖像映射到關(guān)注字符識別相關(guān)的屬性的表示,同時抑制字體楔壤、顏色鹤啡、大小和背景等不相關(guān)特征。
我們研究了 VGG [26]蹲嚣、RCNN [16] 和 ResNet [10] 的三種架構(gòu)递瑰,以前用作 STR 的特征提取器。原始形式的 VGG 由多個卷積層組成隙畜,然后是幾個全連接層 [26]抖部。RCNN 是 CNN 的一種變體,可以根據(jù)字符形狀遞歸地應(yīng)用它來調(diào)整其感受野 [16, 28]议惰。ResNet 是一個具有殘差連接的 CNN慎颗,它簡化了相對更深的 CNN 的訓(xùn)練。
序列建模(Seq.)
3.序列建模(Seq.)捕獲下一階段字符序列內(nèi)的上下文信息言询,以更穩(wěn)健地預(yù)測每個字符俯萎,而不是獨(dú)立執(zhí)行它。
階段被重新整形為一系列特征 V倍试。也就是說讯屈,特征圖 vi ∈ V 中的每一列都用作序列的幀。然而县习,這個序列可能會受到上下文信息缺乏的影響涮母。因此谆趾,之前的一些工作使用雙向 LSTM (BiLSTM) 在特征提取階段 [24, 25, 4] 之后做出更好的序列 H = Seq.(V)。另一方面叛本,Rosetta [3] 刪除了 BiLSTM 以降低計算復(fù)雜度和內(nèi)存消耗沪蓬。我們的框架允許 BiLSTM 的選擇或去選擇
預(yù)測(Pred.)
- 預(yù)測(Pred.)從圖像中識別的特征估計輸出字符序列
CTC 允許預(yù)測非固定數(shù)量的序列,即使給出了固定數(shù)量的特征来候。CTC 的關(guān)鍵方法是預(yù)測每一列的字符 (hi ∈ H)跷叉,并通過刪除重復(fù)的字符和空白將完整的字符序列修改為非固定的字符序列 [6, 24]。另一方面营搅,Attn 自動捕獲輸入序列中的信息流以預(yù)測輸出序列[1]云挟。它使模型能夠?qū)W習(xí)表示輸出類依賴關(guān)系的字符級語言模型。
實(shí)施的部分
一些細(xì)節(jié)
驗(yàn)證集不包含 IC03 訓(xùn)練數(shù)據(jù)转质,因?yàn)樗鼈冎械囊恍┰?IC13 的評估數(shù)據(jù)集中重復(fù)
https://cloud.google.com/vision?hl=zh-cn
作者用這個平臺做的
模型分析
STR 模塊組合表現(xiàn)出的兩種類型的權(quán)衡园欣。Stars 表示先前提出的模型,圓形點(diǎn)代表我們的框架評估的新模塊組合休蟹。紅色實(shí)線表示組合中發(fā)現(xiàn)的權(quán)衡邊界沸枯。每個圖中的表格描述了模塊組合以及它們在權(quán)衡領(lǐng)域的性能。粗體模塊表示在組合之前直接更改的那些赂弓;這些模塊在最小化添加的時間或內(nèi)存成本的同時提高了先前組合的性能绑榴。
表 4a 所示,T1 通過不包括任何轉(zhuǎn)換或順序模塊來取最小時間盈魁。從 T1 到 T5 移動翔怎,按順序引入以下模塊(用粗體表示):ResNet、BiLSTM杨耙、TPS 和 Attn姓惑。請注意,從 T1 到 T5按脚,單個模塊一次更改于毙。我們的框架提供了平滑移動的方法,這些方法根據(jù)應(yīng)用場景給出了最少的性能權(quán)衡辅搬。它們依次增加了整體STR模型的復(fù)雜性唯沮,從而提高了性能,但代價是計算效率堪遂。ResNet介蛉、BiLSTM 和 TPS 引入了相對適中的整體減速(1.3ms→10.9ms),同時大大提高了準(zhǔn)確性(69.5%→82.9%)溶褪。另一方面币旧,最終的變化 Attn 在效率 (27.6 ms) 上以巨大的成本僅將準(zhǔn)確度提高了 1.1%。
至于表 4b 所示的準(zhǔn)確度內(nèi)存權(quán)衡猿妈,P1 是內(nèi)存消耗最少的模型吹菱,從 P1 到 P5巍虫,內(nèi)存和準(zhǔn)確性之間的權(quán)衡發(fā)生。與精度-速度權(quán)衡一樣鳍刷,我們觀察到每一步的單個模塊移位到 P5占遥,其中更改模塊為:Attn、TPS输瓜、BiLSTM 和 ResNet瓦胎。他們以內(nèi)存為代價依次提高準(zhǔn)確性。與 T1 中使用的 VGG 相比尤揣,我們觀察到 P1-P4 中的 RCNN 較輕搔啊,并且提供了良好的準(zhǔn)確性-內(nèi)存權(quán)衡。RCNN 需要少量重復(fù)應(yīng)用的獨(dú)特 CNN 層北戏。我們觀察到轉(zhuǎn)換坯癣、順序和預(yù)測模塊對內(nèi)存消耗沒有顯著影響(1.9M→7.2M 參數(shù))。雖然總體上是輕量級的最欠,但這些模塊提供了準(zhǔn)確性改進(jìn)(75.4%→82.3%)。另一方面惩猫,最終的變化 ResNet 以從 7.2M 增加到 49.6M 浮點(diǎn)參數(shù)為代價提高了 1.7% 的準(zhǔn)確率芝硬。因此,可以保證關(guān)注內(nèi)存消耗的從業(yè)者相對自由地選擇專門的轉(zhuǎn)換轧房、順序和預(yù)測模塊拌阴,但應(yīng)該避免使用 ResNet 等繁重的特征提取器。
【resnet占內(nèi)存奶镶,且減速迟赃,如果對精度沒有太大的工業(yè)需求可以考慮適當(dāng)trade-off】
速度和內(nèi)存最重要的模塊捺信。我們根據(jù)模塊選擇對圖 4 中的散點(diǎn)圖進(jìn)行顏色編碼酌媒,確定了模塊對速度和內(nèi)存的影響。全套顏色編碼圖在補(bǔ)充材料中迄靠。在這里秒咨,我們展示了具有最速度和內(nèi)存關(guān)鍵模塊的散點(diǎn)圖,即預(yù)測和特征提取模塊掌挚,如圖5所示雨席。根據(jù)預(yù)測和特征模塊,有清晰的組合集群吠式。在精度和速度的權(quán)衡中陡厘,我們確定了 CTC 和 Attn 集群(Attn 的添加顯著減慢了整體 STR 模型)抽米。另一方面,對于準(zhǔn)確性記憶權(quán)衡雏亚,我們觀察到特征提取器對記憶的貢獻(xiàn)最為顯著缨硝。重要的是要認(rèn)識到,每個標(biāo)準(zhǔn)的最重要模塊是不同的罢低,因此查辩,不同應(yīng)用場景和約束的從業(yè)者應(yīng)該根據(jù)其需求查看不同的模塊組合以獲得最佳權(quán)衡。
ResNet功舀、BiLSTM萍倡、TPS 和 Attn 的序列是來自 None-VGG-None-CTC 基礎(chǔ)組合的模塊最有效的升級順序。這個順序是相同的順序
準(zhǔn)確性記憶視角發(fā)現(xiàn) RCNN辟汰、Attn列敲、TPS、BiLSTM 和 ResNet 作為模塊最有效的升級順序帖汞,例如準(zhǔn)確性記憶邊界的順序 (P1→P5)戴而。有趣的是,時間模塊的有效順序與內(nèi)存模塊相反翩蘸。模塊的不同屬性在實(shí)際應(yīng)用中提供了不同的選擇所意。此外,該模塊在兩個角度的排名與邊界模塊更改的順序相同催首,這表明每個模塊在所有組合下都具有相似的性能
TPS 轉(zhuǎn)換將彎曲文本和透視文本標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)化視圖扶踊。從存儲前符號的角度來看,預(yù)測結(jié)果顯示出顯著的改進(jìn)郎任,特別是對于圈品牌標(biāo)志中的“POLICE”和“AIRWAYS”秧耗。高級特征提取器 ResNet 產(chǎn)生更好的表示能力,改進(jìn)背景混亂“YMCA”舶治、“CITYARTS”)和看不見的字體(“NEUMOS”)的情況绣版。BiLSTM 通過調(diào)整感受野帶來更好的上下文建模;它可以在“G20”結(jié)束時忽略不相關(guān)的裁剪字符(“I”歼疮,“EXIT”杂抽,“C”)。包括隱式字符級語言建模的注意力在“Hard”韩脏、“t”中的“a”和“HOUSE”中的“S”中找到缺失或遮擋的字符缩麸。這些示例提供了對模塊在實(shí)際應(yīng)用中的貢獻(xiàn)點(diǎn)的一瞥。
【這些段的陳述就是在精度和時間和內(nèi)存上的trade-off】
缺陷赡矢,待改進(jìn)
其中低分辨率是無法識別的杭朱,契合textzoom研究方向
沒有特定模塊的 STR 組合的挑戰(zhàn)性示例阅仔。沒有未標(biāo)記模塊的所有 STR 組合都無法識別示例中的文本,但升級模塊解決了這個問題【表達(dá)STN和其他如resnet對不規(guī)則圖像準(zhǔn)確度的提高的重要性】
書法字體:品牌的字體樣式弧械,例如“可樂”或街道上的商店名稱八酒,例如“咖啡”,仍然面臨剩余的挑戰(zhàn)刃唐。這種多樣化的字符表達(dá)需要一個新的特征提取器來提供廣義視覺特征羞迷。另一種可能的方法是正則化,因?yàn)槟P涂赡軙^度擬合訓(xùn)練數(shù)據(jù)集中的字體樣式画饥。
垂直文本:目前大多數(shù) STR 模型都假設(shè)水平文本圖像衔瓮,因此在結(jié)構(gòu)上無法處理垂直文本。一些 STR 模型 [30, 5] 也利用垂直信息抖甘,然而倦挂,垂直文本尚未明確覆蓋孝治。需要進(jìn)一步研究以涵蓋垂直文本
特殊字符:由于當(dāng)前的基準(zhǔn)不評估特殊字符胞谈,現(xiàn)有的工作在訓(xùn)練期間排除了它們填具。這導(dǎo)致故障預(yù)測。誤導(dǎo)模型將它們視為字母數(shù)字字符艰额。我們建議用特殊字符進(jìn)行訓(xùn)練澄港。這導(dǎo)致 IIIT 的準(zhǔn)確度從 87.9% 提高到 90.3%
嚴(yán)重遮擋:目前的方法沒有廣泛地利用上下文信息來克服遮擋。未來的研究可能會考慮優(yōu)越的語言模型來最大限度地利用上下文悴晰。
低分辨率:現(xiàn)有模型沒有明確處理低分辨率情況;圖像金字塔或超分辨率模塊可以提高性能逐工。
標(biāo)簽噪聲:我們在失敗示例中發(fā)現(xiàn)了一些嘈雜(不正確)的標(biāo)簽铡溪。我們檢查了基準(zhǔn)中的所有示例,以確定噪聲標(biāo)簽的比率泪喊。所有基準(zhǔn)數(shù)據(jù)集都包含噪聲標(biāo)簽棕硫,不考慮特殊字符的情況下錯誤標(biāo)簽的比例為 1.3%,考慮特殊字符的錯誤標(biāo)簽為 6.1%袒啼,考慮案例敏感性的錯誤標(biāo)簽為 24.1%哈扮。