介紹了早期文本識別方法
總結(jié)
早期的STR工作對文本的特征提取是通過手工的方法【24,38】:
性能較差摊鸡,而基于像素來定位圖像中的文本,用集合的方法會帶來大量的冗余子集
Sci-Hub | [IEEE 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Providence, RI (2012.06.16-2012.06.21)] 2012 IEEE Conference on Computer Vision and Pattern Recognition - Real-time scene text localization and recognition | 10.1109/CVPR.2012.6248097
有文本本地化的方法來解決定位問題:
1.通過滑動窗口搜索【6蚕冬,7】免猾,缺點(diǎn)是算法復(fù)雜度取決于文本的范圍
2.通過連通分量分析將像素分成區(qū)域查找單個字符【5】的方法不受文本范圍、方向囤热、字體的影響猎提,缺點(diǎn)是對改變連接組件結(jié)構(gòu)的雜波和遮擋敏感。
Wang等人的方法[21]使用滑動窗口方法找到單個字符作為視覺單詞旁蔼,然后使用詞典將字符分組為單詞锨苏。該方法能夠處理有噪聲的數(shù)據(jù),但其通用性受到限制棺聊,因?yàn)楸仨殲槊總€單獨(dú)的圖像提供單詞詞典(在他們的實(shí)驗(yàn)中最多包含500個單詞)
Epstein等人在[5]中的方法將輸入圖像轉(zhuǎn)換為灰度空間伞租,并使用Canny檢測器[1]來查找邊緣。然后使用成對的平行邊來計(jì)算每個像素的筆劃寬度限佩,具有相似筆劃寬度的像素被分組為字符葵诈。該方法對噪聲和模糊圖像敏感,因?yàn)樗蕾囉诔晒Φ倪吘墮z測祟同,并且它僅為每個字符提供單個分割作喘,這不一定是OCR模塊的最佳分割。[24]中提出了具有不同連通分量算法的類似基于邊緣的方法
[14晕城,15]中提出的方法將字符檢測為最大穩(wěn)定極值區(qū)域(MSER)[11]泞坦,并使用MSER檢測器獲得的分割來執(zhí)行文本識別。MSER是極值區(qū)域的一種特殊情況砖顷,其大小在閾值范圍內(nèi)幾乎保持不變贰锁。這些方法表現(xiàn)良好主之,但在模糊圖像或?qū)Ρ榷鹊偷淖址洗嬖趩栴}。
相關(guān)工作
2012
端到端實(shí)時場景文本定位和識別方法李根。通過將字符檢測問題作為從極值區(qū)域集合(ER)中的有效順序選擇來實(shí)現(xiàn)實(shí)時性能槽奕。ER檢測器對模糊、照明房轿、顏色和紋理變化具有魯棒性粤攒,并處理低對比度文本
在第一分類階段,使用以每個測試區(qū)域的O(1)復(fù)雜度計(jì)算的新特征來估計(jì)每個ER是字符的概率囱持。第二階段僅選擇具有局部最大概率的ER夯接,其中使用更昂貴的計(jì)算特征來改進(jìn)分類。然后纷妆,使用反饋循環(huán)的高效窮舉搜索將ER分組為單詞盔几,并選擇最可能的字符分割。最后掩幢,在使用合成字體訓(xùn)練的OCR階段中識別文本逊拍。
Wang等人的方法[21]使用滑動窗口方法找到單個字符作為視覺單詞,然后使用詞典將字符分組為單詞际邻。該方法能夠處理有噪聲的數(shù)據(jù)芯丧,但其通用性受到限制,因?yàn)楸仨殲槊總€單獨(dú)的圖像提供單詞詞典(在他們的實(shí)驗(yàn)中最多包含500個單詞)
介紹
字符串以正確的順序標(biāo)識圖像中文本的每個字符世曾。與通常只有一類對象的對象識別不同缨恒,對于給定的文本圖像,可以有零個或多個字符轮听。因此骗露,STR模型更加復(fù)雜。與許多視覺問題類似血巍,早期的方法[24萧锉,38]使用手工制作的特征,導(dǎo)致性能較差.
定位圖像中的文本可能是一項(xiàng)計(jì)算上非常昂貴的任務(wù)藻茂,因?yàn)橥ǔ?^N個子集中的任何一個子集都可以對應(yīng)于文本(其中N是像素?cái)?shù))驹暑。文本本地化方法以兩種不同的方式處理這個問題。
基于滑動窗口[6辨赐,7]的方法將搜索限制為圖像矩形的子集优俘。這將檢查文本是否存在的子集的數(shù)量減少到cN,其中c是一個常數(shù)掀序,在非常小的值(<1)(對于單比例單旋轉(zhuǎn)方法)和相對大的值(>1)(用于處理具有不同比例帆焕、方向、旋轉(zhuǎn)、傾斜等的文本的方法)之間變化叶雹。
第二組[5]中的方法通過使用連接成分分析將像素分組為區(qū)域來查找單個字符财饥,假設(shè)屬于相同字符的像素具有相似的財(cái)產(chǎn)。連接組件方法在使用的財(cái)產(chǎn)(顏色折晦、筆劃寬度等)上有所不同钥星。連接組件方法的優(yōu)點(diǎn)是,其復(fù)雜性通常不取決于文本的財(cái)產(chǎn)(縮放范圍满着、方向谦炒、字體),并且它們還提供分段這可以在OCR步驟中利用风喇。它們的缺點(diǎn)是對改變連接組件結(jié)構(gòu)的雜波和遮擋敏感宁改。
相關(guān)工作
Epstein等人在[5]中的方法將輸入圖像轉(zhuǎn)換為灰度空間,并使用Canny檢測器[1]來查找邊緣魂莫。然后使用成對的平行邊來計(jì)算每個像素的筆劃寬度还蹲,具有相似筆劃寬度的像素被分組為字符。該方法對噪聲和模糊圖像敏感耙考,因?yàn)樗蕾囉诔晒Φ倪吘墮z測谜喊,并且它僅為每個字符提供單個分割,這不一定是OCR模塊的最佳分割琳骡。[24]中提出了具有不同連通分量算法的類似基于邊緣的方法锅论。ICDAR Robust Reading競賽結(jié)果[10,9楣号,20]也對這些方法及其性能進(jìn)行了很好的概述。
Wang等人的方法[21]使用滑動窗口方法找到單個字符作為視覺單詞怒坯,然后使用詞典將字符分組為單詞炫狱。該方法能夠處理有噪聲的數(shù)據(jù),但其通用性受到限制剔猿,因?yàn)楸仨殲槊總€單獨(dú)的圖像提供單詞詞典(在他們的實(shí)驗(yàn)中最多包含500個單詞)
[14视译,15]中提出的方法將字符檢測為最大穩(wěn)定極值區(qū)域(MSER)[11],并使用MSER檢測器獲得的分割來執(zhí)行文本識別归敬。MSER是極值區(qū)域的一種特殊情況酷含,其大小在閾值范圍內(nèi)幾乎保持不變。這些方法表現(xiàn)良好汪茧,但在模糊圖像或?qū)Ρ榷鹊偷淖址洗嬖趩栴}椅亚。根據(jù)ICDAR 2011穩(wěn)健閱讀比賽組織者[20]提供的描述,獲勝方法基于MSER檢測舱污,但該方法它本身尚未發(fā)布,也不執(zhí)行文本識別媚赖。
所提出的方法與基于MSER的方法[14,15]的不同之處在于,它測試了所有ER(不僅是MSER的子集)训堆,同時減少了內(nèi)存占用并保持了相同的計(jì)算復(fù)雜性和實(shí)時性能。Zimmermann和Matas[12]首先提出了放棄MSER的穩(wěn)定性要求并選擇特定于類別(不一定穩(wěn)定)的極值區(qū)域的想法,他們使用圖像矩作為單片神經(jīng)網(wǎng)絡(luò)的特征画恰,該網(wǎng)絡(luò)針對給定的一組形狀(例如紋理则奥、特定字符)進(jìn)行了訓(xùn)練。在我們的方法中井辜,基于特定于字符檢測的新特征渐北,通過序列分類器實(shí)時選擇合適的ER搀菩。此外土砂,分類器被訓(xùn)練為輸出概率,從而提取字符的若干分段蚌卤。
作者工作
本文提出了一種端到端實(shí)時文本定位和識別方法。在分類的第一階段构订,使用以O(shè)(1)復(fù)雜度計(jì)算的新特征來估計(jì)每個ER是字符的概率侮叮,并且僅選擇具有局部最大概率的ER用于第二階段,其中使用更昂貴的計(jì)算特征來改進(jìn)分類悼瘾。結(jié)果表明囊榜,包括新的梯度幅度投影ER覆蓋了94.8%的字符。在標(biāo)準(zhǔn)PC上亥宿,該方法在800×600圖像上的平均運(yùn)行時間為0.3s锦聊。該方法在兩個公共數(shù)據(jù)集上進(jìn)行了評估。在ICDAR 2011數(shù)據(jù)集上箩绍,該方法在已發(fā)布的方法中實(shí)現(xiàn)了最先進(jìn)的文本定位結(jié)果(召回率64.7%,精度73.1%尺上,f-measure 68.7%)材蛛,我們是第一個在ICDAR2011穩(wěn)健閱讀競賽數(shù)據(jù)集上報告端到端文本識別結(jié)果的公司(召回率37.2%,精度37.1%怎抛,f-measure 36.5%)卑吭。在更具挑戰(zhàn)性的街景文本數(shù)據(jù)集上,文本本地化的召回率(32.9%)
只能與Wang等人[21](29.0%)先前發(fā)表的方法進(jìn)行比較马绝,但由于Wang等人的方法使用了不同的任務(wù)公式和不同的評估協(xié)議豆赏,因此無法進(jìn)行直接比較。通過在數(shù)據(jù)集中檢測到的水印文本導(dǎo)致的“假陽性”,證明了所提出的方法對噪聲和低對比度字符的魯棒性掷邦。
作者提出的方式對數(shù)據(jù)集中的水印都能檢測,說明SVT有水印宣蔚,作者模型對低對比度有很好的性能
略看挟鸠,覺得作者的方法應(yīng)該是基于計(jì)算機(jī)圖形學(xué)的類似碰撞方法