2023-02-05【綜述】Real-Time Scene Text Localization and Recognition

介紹了早期文本識別方法

總結(jié)

早期的STR工作對文本的特征提取是通過手工的方法【24,38】:
性能較差摊鸡,而基于像素來定位圖像中的文本,用集合的方法會帶來大量的冗余子集
Sci-Hub | [IEEE 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Providence, RI (2012.06.16-2012.06.21)] 2012 IEEE Conference on Computer Vision and Pattern Recognition - Real-time scene text localization and recognition | 10.1109/CVPR.2012.6248097

有文本本地化的方法來解決定位問題:
1.通過滑動窗口搜索【6蚕冬,7】免猾,缺點(diǎn)是算法復(fù)雜度取決于文本的范圍
2.通過連通分量分析將像素分成區(qū)域查找單個字符【5】的方法不受文本范圍、方向囤热、字體的影響猎提,缺點(diǎn)是對改變連接組件結(jié)構(gòu)的雜波和遮擋敏感。

Wang等人的方法[21]使用滑動窗口方法找到單個字符作為視覺單詞旁蔼,然后使用詞典將字符分組為單詞锨苏。該方法能夠處理有噪聲的數(shù)據(jù),但其通用性受到限制棺聊,因?yàn)楸仨殲槊總€單獨(dú)的圖像提供單詞詞典(在他們的實(shí)驗(yàn)中最多包含500個單詞)
Epstein等人在[5]中的方法將輸入圖像轉(zhuǎn)換為灰度空間伞租,并使用Canny檢測器[1]來查找邊緣。然后使用成對的平行邊來計(jì)算每個像素的筆劃寬度限佩,具有相似筆劃寬度的像素被分組為字符葵诈。該方法對噪聲和模糊圖像敏感,因?yàn)樗蕾囉诔晒Φ倪吘墮z測祟同,并且它僅為每個字符提供單個分割作喘,這不一定是OCR模塊的最佳分割。[24]中提出了具有不同連通分量算法的類似基于邊緣的方法
[14晕城,15]中提出的方法將字符檢測為最大穩(wěn)定極值區(qū)域(MSER)[11]泞坦,并使用MSER檢測器獲得的分割來執(zhí)行文本識別。MSER是極值區(qū)域的一種特殊情況砖顷,其大小在閾值范圍內(nèi)幾乎保持不變贰锁。這些方法表現(xiàn)良好主之,但在模糊圖像或?qū)Ρ榷鹊偷淖址洗嬖趩栴}。

相關(guān)工作

2012
端到端實(shí)時場景文本定位和識別方法李根。通過將字符檢測問題作為從極值區(qū)域集合(ER)中的有效順序選擇來實(shí)現(xiàn)實(shí)時性能槽奕。ER檢測器對模糊、照明房轿、顏色和紋理變化具有魯棒性粤攒,并處理低對比度文本
在第一分類階段,使用以每個測試區(qū)域的O(1)復(fù)雜度計(jì)算的新特征來估計(jì)每個ER是字符的概率囱持。第二階段僅選擇具有局部最大概率的ER夯接,其中使用更昂貴的計(jì)算特征來改進(jìn)分類。然后纷妆,使用反饋循環(huán)的高效窮舉搜索將ER分組為單詞盔几,并選擇最可能的字符分割。最后掩幢,在使用合成字體訓(xùn)練的OCR階段中識別文本逊拍。

Wang等人的方法[21]使用滑動窗口方法找到單個字符作為視覺單詞,然后使用詞典將字符分組為單詞际邻。該方法能夠處理有噪聲的數(shù)據(jù)芯丧,但其通用性受到限制,因?yàn)楸仨殲槊總€單獨(dú)的圖像提供單詞詞典(在他們的實(shí)驗(yàn)中最多包含500個單詞)

介紹

字符串以正確的順序標(biāo)識圖像中文本的每個字符世曾。與通常只有一類對象的對象識別不同缨恒,對于給定的文本圖像,可以有零個或多個字符轮听。因此骗露,STR模型更加復(fù)雜。與許多視覺問題類似血巍,早期的方法[24萧锉,38]使用手工制作的特征,導(dǎo)致性能較差.

定位圖像中的文本可能是一項(xiàng)計(jì)算上非常昂貴的任務(wù)藻茂,因?yàn)橥ǔ?^N個子集中的任何一個子集都可以對應(yīng)于文本(其中N是像素?cái)?shù))驹暑。文本本地化方法以兩種不同的方式處理這個問題。

基于滑動窗口[6辨赐,7]的方法將搜索限制為圖像矩形的子集优俘。這將檢查文本是否存在的子集的數(shù)量減少到cN,其中c是一個常數(shù)掀序,在非常小的值(<1)(對于單比例單旋轉(zhuǎn)方法)和相對大的值(>1)(用于處理具有不同比例帆焕、方向、旋轉(zhuǎn)、傾斜等的文本的方法)之間變化叶雹。

第二組[5]中的方法通過使用連接成分分析將像素分組為區(qū)域來查找單個字符财饥,假設(shè)屬于相同字符的像素具有相似的財(cái)產(chǎn)。連接組件方法在使用的財(cái)產(chǎn)(顏色折晦、筆劃寬度等)上有所不同钥星。連接組件方法的優(yōu)點(diǎn)是,其復(fù)雜性通常不取決于文本的財(cái)產(chǎn)(縮放范圍满着、方向谦炒、字體),并且它們還提供分段這可以在OCR步驟中利用风喇。它們的缺點(diǎn)是對改變連接組件結(jié)構(gòu)的雜波和遮擋敏感宁改。

相關(guān)工作

Epstein等人在[5]中的方法將輸入圖像轉(zhuǎn)換為灰度空間,并使用Canny檢測器[1]來查找邊緣魂莫。然后使用成對的平行邊來計(jì)算每個像素的筆劃寬度还蹲,具有相似筆劃寬度的像素被分組為字符。該方法對噪聲和模糊圖像敏感耙考,因?yàn)樗蕾囉诔晒Φ倪吘墮z測谜喊,并且它僅為每個字符提供單個分割,這不一定是OCR模塊的最佳分割琳骡。[24]中提出了具有不同連通分量算法的類似基于邊緣的方法锅论。ICDAR Robust Reading競賽結(jié)果[10,9楣号,20]也對這些方法及其性能進(jìn)行了很好的概述。

Wang等人的方法[21]使用滑動窗口方法找到單個字符作為視覺單詞怒坯,然后使用詞典將字符分組為單詞炫狱。該方法能夠處理有噪聲的數(shù)據(jù),但其通用性受到限制剔猿,因?yàn)楸仨殲槊總€單獨(dú)的圖像提供單詞詞典(在他們的實(shí)驗(yàn)中最多包含500個單詞)

[14视译,15]中提出的方法將字符檢測為最大穩(wěn)定極值區(qū)域(MSER)[11],并使用MSER檢測器獲得的分割來執(zhí)行文本識別归敬。MSER是極值區(qū)域的一種特殊情況酷含,其大小在閾值范圍內(nèi)幾乎保持不變。這些方法表現(xiàn)良好汪茧,但在模糊圖像或?qū)Ρ榷鹊偷淖址洗嬖趩栴}椅亚。根據(jù)ICDAR 2011穩(wěn)健閱讀比賽組織者[20]提供的描述,獲勝方法基于MSER檢測舱污,但該方法它本身尚未發(fā)布,也不執(zhí)行文本識別媚赖。

所提出的方法與基于MSER的方法[14,15]的不同之處在于,它測試了所有ER(不僅是MSER的子集)训堆,同時減少了內(nèi)存占用并保持了相同的計(jì)算復(fù)雜性和實(shí)時性能。Zimmermann和Matas[12]首先提出了放棄MSER的穩(wěn)定性要求并選擇特定于類別(不一定穩(wěn)定)的極值區(qū)域的想法,他們使用圖像矩作為單片神經(jīng)網(wǎng)絡(luò)的特征画恰,該網(wǎng)絡(luò)針對給定的一組形狀(例如紋理则奥、特定字符)進(jìn)行了訓(xùn)練。在我們的方法中井辜,基于特定于字符檢測的新特征渐北,通過序列分類器實(shí)時選擇合適的ER搀菩。此外土砂,分類器被訓(xùn)練為輸出概率,從而提取字符的若干分段蚌卤。

作者工作

本文提出了一種端到端實(shí)時文本定位和識別方法。在分類的第一階段构订,使用以O(shè)(1)復(fù)雜度計(jì)算的新特征來估計(jì)每個ER是字符的概率侮叮,并且僅選擇具有局部最大概率的ER用于第二階段,其中使用更昂貴的計(jì)算特征來改進(jìn)分類悼瘾。結(jié)果表明囊榜,包括新的梯度幅度投影ER覆蓋了94.8%的字符。在標(biāo)準(zhǔn)PC上亥宿,該方法在800×600圖像上的平均運(yùn)行時間為0.3s锦聊。該方法在兩個公共數(shù)據(jù)集上進(jìn)行了評估。在ICDAR 2011數(shù)據(jù)集上箩绍,該方法在已發(fā)布的方法中實(shí)現(xiàn)了最先進(jìn)的文本定位結(jié)果(召回率64.7%,精度73.1%尺上,f-measure 68.7%)材蛛,我們是第一個在ICDAR2011穩(wěn)健閱讀競賽數(shù)據(jù)集上報告端到端文本識別結(jié)果的公司(召回率37.2%,精度37.1%怎抛,f-measure 36.5%)卑吭。在更具挑戰(zhàn)性的街景文本數(shù)據(jù)集上,文本本地化的召回率(32.9%)

只能與Wang等人[21](29.0%)先前發(fā)表的方法進(jìn)行比較马绝,但由于Wang等人的方法使用了不同的任務(wù)公式和不同的評估協(xié)議豆赏,因此無法進(jìn)行直接比較。通過在數(shù)據(jù)集中檢測到的水印文本導(dǎo)致的“假陽性”,證明了所提出的方法對噪聲和低對比度字符的魯棒性掷邦。

SVT數(shù)據(jù)集中的文本檢測白胀。圖像中的所有“假陽性”都是由嵌入數(shù)據(jù)集中的水印引起的。這證明了所提出的方法對噪聲和低對比度字符的魯棒性(右下角的感興趣區(qū)域被放大抚岗,對比度被人為增加或杠,“c?2007 Google”可讀)

作者提出的方式對數(shù)據(jù)集中的水印都能檢測,說明SVT有水印宣蔚,作者模型對低對比度有很好的性能

可遞增計(jì)算的描述符向抢。閾值θ?1處已經(jīng)存在的區(qū)域標(biāo)記為灰色,閾值θ處的新像素標(biāo)記為紅色胚委,閾值θ的結(jié)果區(qū)域用虛線勾勒

略看挟鸠,覺得作者的方法應(yīng)該是基于計(jì)算機(jī)圖形學(xué)的類似碰撞方法

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市亩冬,隨后出現(xiàn)的幾起案子艘希,更是在濱河造成了極大的恐慌,老刑警劉巖鉴未,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件枢冤,死亡現(xiàn)場離奇詭異,居然都是意外死亡铜秆,警方通過查閱死者的電腦和手機(jī)淹真,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來连茧,“玉大人核蘸,你說我怎么就攤上這事⌒パ保” “怎么了客扎?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長罚斗。 經(jīng)常有香客問我徙鱼,道長,這世上最難降的妖魔是什么针姿? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任袱吆,我火速辦了婚禮,結(jié)果婚禮上距淫,老公的妹妹穿的比我還像新娘绞绒。我一直安慰自己,他們只是感情好榕暇,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布蓬衡。 她就那樣靜靜地躺著喻杈,像睡著了一般。 火紅的嫁衣襯著肌膚如雪狰晚。 梳的紋絲不亂的頭發(fā)上筒饰,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天,我揣著相機(jī)與錄音家肯,去河邊找鬼龄砰。 笑死,一個胖子當(dāng)著我的面吹牛讨衣,可吹牛的內(nèi)容都是我干的换棚。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼反镇,長吁一口氣:“原來是場噩夢啊……” “哼固蚤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起歹茶,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤夕玩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后惊豺,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體燎孟,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年尸昧,在試婚紗的時候發(fā)現(xiàn)自己被綠了揩页。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡烹俗,死狀恐怖爆侣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情幢妄,我是刑警寧澤兔仰,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站蕉鸳,受9級特大地震影響乎赴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜潮尝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一无虚、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧衍锚,春花似錦、人聲如沸嗤堰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至告匠,卻和暖如春戈抄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背后专。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工划鸽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人戚哎。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓裸诽,卻偏偏與公主長得像,于是被迫代替她去往敵國和親型凳。 傳聞我的和親對象是個殘疾皇子丈冬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容