文獻編號:1
文獻著作信息:
CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
原文 2301.07464.pdf (arxiv.org)
https://github.com/baudm/parseq
GitHub - amazon-science/semimtr-text-recognition: Multimodal Semi-Supervised Learning for Text Recognition (SemiMTR)
研究主題:
Scene Text Recognition【STR】
拓展閱讀:
文字識別方法整理(2015~2019) - 知乎 (zhihu.com)
OCR論文綜述(含文字識別、文本檢測簸喂、端到端和數據集合)_poppyty的博客-CSDN博客_srn east
研究問題:
更大圖片下的場景文本識別难菌、目標識別、文本檢測
研究原因:
想要理解文本柜去,場景也能提供上下文信息灰嫉,然而現有的STR操作是從場景剪下,失去了原有的場景語義信息
研究設計:
1嗓奢、用基于裁剪的識別器去識別場景讼撒,類似CLIP,提供圖片的背景信息
2股耽、利用門機制根盒,這個門機制可以逐漸轉向上下文豐富的特征,微調文本識別器
研究發(fā)現:
提供了模型無關的算法
研究結論:
作者提出了CLIPTER框架物蝙,這個框架通過視覺語言模型炎滞,用場景信息來輔助豐富文本識別器的信息,這種文本識別器是基于裁剪的
CLIPTER提供了模型無關的算法
場景文本識別器高度受益于場景上下文诬乞,尤其是在不好的圖片質量下册赛,或者要是別的詞是詞匯之外的詞
帶問題看論文:
1模型無關是指钠导?
2門機制是什么?
是結合場景信息和識別信息击奶,融合特征辈双,把文本識別器轉化為上下文感知特征的工具
注:CLIP只提供給交叉注意力池化后的圖片特征
啟發(fā):
門控交叉注意力機制可以用在任何有兩個特征輸入的網絡中嗎?
細讀論文:
論文圖片
PARSeq是裁剪的文本識別器,無法識別場景下的困難信息柜砾,而CLIPTER可以湃望,因為場景場下文信息可以輔助閱讀真實世界場景
CLIPTER用了CLIP,是通過對比學習得到的痰驱,使得圖片和文本有對應關系的非常大的模型证芭,用預訓練的CLIP,也可以用別的視覺-語言模型替代担映。作者這里用了CLIP來獲得整個場景豐富的信息废士,與裁剪后的文本識別器的特征融合。結合這兩個信息蝇完,作者提出了“門控-交叉注意力機制”,這個機制可以把預訓練的文本識別器轉化為上下文感知特征官硝。
CUTE80 Benchmark (Scene Text Recognition) | Papers With Code
進一步闡述了增加上下文信息后得到的提升(是模態(tài)維度上的,并非是網絡能力上的)
作者也客觀展示了自己模型的不足短蜕,和PARSeq和CLIPER同樣的不足
CLIPER使用的訓練數據和PARSeq相同的情況下氢架,錯誤率要顯著低于后者
數據集介紹
Scene Text Recognition | Papers With Code
SVT
Scene Text Recognition on SVT
349張高分辨率圖片,平均尺寸1260*860像素朋魔,來源于谷歌街景岖研,訓練集100張,測試機249張警检,單詞級邊框提供了不區(qū)分大小寫的標簽孙援,有很多單詞未注釋,有很多噪音扇雕,大部分文本都于商店招牌相關拓售,有各式各樣的字體和圖片樣式,數據集中的每幅圖片還提供了50個單詞詞典SVT-50
SVT Benchmark (Scene Text Recognition) | Papers With Code
ICDAR
分為
國際文件分析與識別會議引入的標準數據集镶奉,都是場景文本的數據集础淤,包含高分辨率圖片,平均值為940*770像素腮鞍,包含數量可變的文本,攝像機在城市的不同地區(qū)拍攝的莹菱,帶有不同程度的注釋移国,許多圖片在不同年份的ICDAR數據集之間共享显晶,包括跨訓練和測試分割核偿,因此在一年的訓練數據集上進行訓練時必須小心
IC03包含181訓練和251張測試圖片,有單詞級邊界框种远,區(qū)分大小寫的轉錄
IC03 Full表示IC03數據集中的563個測試單詞的所有圖像共享一個詞庫,當用于評估時祝懂,詞典約束數據集(IC03-50或IC03 Full)票摇,將識別問題簡化為從詞典定義的短名單中選擇正確的基準單詞,而在沒有詞典(如IC03)的情況下砚蓬,則沒有短名單可供選擇
ICDAR 2005(IC05) 包含1001張訓練圖像和489張測試圖像矢门,單詞和字符級別的邊界框,區(qū)分大小寫的標簽
ICDAR 2011 (IC11)包含229張訓練圖像和255張測試圖像灰蛙,單詞和字符級別的邊界框祟剔,區(qū)分大小寫的標簽
ICDAR 2013 (IC13)BAOHAN 229張訓練和233張測試圖像,單詞和字符級別的邊界框摩梧,區(qū)分大小寫的標簽
ICDAR 2013 數據集給每張圖片提供了單詞的邊界框標注物延,每張圖片都有屬于自己的txt文件:
標注文件每一行代表一個文本目標,前4個數字為坐標信息(x1仅父,y1叛薯,x2,y2)笙纤,兩組(x耗溜,y)分別代表文本框的左上和右下,目標框為舉行粪糙,最后一列是文本內容强霎,如果字體模糊則用###表示
Detection examples of the proposed method on the ICDAR 2013 dataset [17]. (figshare.com)
ICDAR2013 Benchmark (Scene Text Recognition) | Papers With Code
ICDAR 2015 和ICDAR 2013 數據集類似,知識文本框的格式由矩形變?yōu)樗倪呅稳馗裕詫懹衪xt文本的前四個數字變?yōu)榘藗€數字城舞,代表文本框的四個點,其他規(guī)則一樣寞酿。包含大量偶然的場景文本圖像家夺,從數據集中裁剪2077個文本圖像塊用于文本識別任務,其中大量裁剪的場景文本由透視和曲率失真
ICDAR2015數據集_月半小丸子的博客-CSDN博客_icdar2015
COCO
coco數據庫有八十個類別
一般是物體檢測居多伐弹,文本識別有專門的coco-text
COCO - Common Objects in Context (cocodataset.org)
coco-text
COCO-Text論文地址
COCO-Text數據集下載地址
RCTW-17
自然場景下的中文閱讀
RCTW-17論文地址
RCTW-17數據集下載地址
ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17) | Papers With Code
Uber
ArT
ArT論文地址