2023-01-30【CLIPTER】用clip提供背景信息节值,在更大的場景下學習

文獻編號:1

文獻著作信息:

CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
原文 2301.07464.pdf (arxiv.org)

https://github.com/baudm/parseq
GitHub - amazon-science/semimtr-text-recognition: Multimodal Semi-Supervised Learning for Text Recognition (SemiMTR)

研究主題:

Scene Text Recognition【STR】
拓展閱讀:
文字識別方法整理(2015~2019) - 知乎 (zhihu.com)
OCR論文綜述(含文字識別、文本檢測簸喂、端到端和數據集合)_poppyty的博客-CSDN博客_srn east

研究問題:

更大圖片下的場景文本識別难菌、目標識別、文本檢測

研究原因:

想要理解文本柜去,場景也能提供上下文信息灰嫉,然而現有的STR操作是從場景剪下,失去了原有的場景語義信息

研究設計:

1嗓奢、用基于裁剪的識別器去識別場景讼撒,類似CLIP,提供圖片的背景信息
2股耽、利用門機制根盒,這個門機制可以逐漸轉向上下文豐富的特征,微調文本識別器

研究發(fā)現:

提供了模型無關的算法

研究結論:

作者提出了CLIPTER框架物蝙,這個框架通過視覺語言模型炎滞,用場景信息來輔助豐富文本識別器的信息,這種文本識別器是基于裁剪的
CLIPTER提供了模型無關的算法
場景文本識別器高度受益于場景上下文诬乞,尤其是在不好的圖片質量下册赛,或者要是別的詞是詞匯之外的詞

帶問題看論文:

1模型無關是指钠导?

2門機制是什么?

是結合場景信息和識別信息击奶,融合特征辈双,把文本識別器轉化為上下文感知特征的工具
注:CLIP只提供給交叉注意力池化后的圖片特征

啟發(fā):

門控交叉注意力機制可以用在任何有兩個特征輸入的網絡中嗎?

細讀論文:

論文圖片

1

PARSeq是裁剪的文本識別器,無法識別場景下的困難信息柜砾,而CLIPTER可以湃望,因為場景場下文信息可以輔助閱讀真實世界場景

2

CLIPTER用了CLIP,是通過對比學習得到的痰驱,使得圖片和文本有對應關系的非常大的模型证芭,用預訓練的CLIP,也可以用別的視覺-語言模型替代担映。作者這里用了CLIP來獲得整個場景豐富的信息废士,與裁剪后的文本識別器的特征融合。結合這兩個信息蝇完,作者提出了“門控-交叉注意力機制”,這個機制可以把預訓練的文本識別器轉化為上下文感知特征官硝。

3

PARseq目前的地位

CUTE80 Benchmark (Scene Text Recognition) | Papers With Code

4

進一步闡述了增加上下文信息后得到的提升(是模態(tài)維度上的,并非是網絡能力上的)
作者也客觀展示了自己模型的不足短蜕,和PARSeq和CLIPER同樣的不足

5

CLIPER使用的訓練數據和PARSeq相同的情況下氢架,錯誤率要顯著低于后者

數據集介紹

Scene Text Recognition | Papers With Code

SVT

SWT

Scene Text Recognition on SVT
349張高分辨率圖片,平均尺寸1260*860像素朋魔,來源于谷歌街景岖研,訓練集100張,測試機249張警检,單詞級邊框提供了不區(qū)分大小寫的標簽孙援,有很多單詞未注釋,有很多噪音扇雕,大部分文本都于商店招牌相關拓售,有各式各樣的字體和圖片樣式,數據集中的每幅圖片還提供了50個單詞詞典SVT-50
SVT Benchmark (Scene Text Recognition) | Papers With Code
image.png

ICDAR

分為


IC03
IC13

國際文件分析與識別會議引入的標準數據集镶奉,都是場景文本的數據集础淤,包含高分辨率圖片,平均值為940*770像素腮鞍,包含數量可變的文本,攝像機在城市的不同地區(qū)拍攝的莹菱,帶有不同程度的注釋移国,許多圖片在不同年份的ICDAR數據集之間共享显晶,包括跨訓練和測試分割核偿,因此在一年的訓練數據集上進行訓練時必須小心

IC03包含181訓練和251張測試圖片,有單詞級邊界框种远,區(qū)分大小寫的轉錄

IC03 Full表示IC03數據集中的563個測試單詞的所有圖像共享一個詞庫,當用于評估時祝懂,詞典約束數據集(IC03-50或IC03 Full)票摇,將識別問題簡化為從詞典定義的短名單中選擇正確的基準單詞,而在沒有詞典(如IC03)的情況下砚蓬,則沒有短名單可供選擇

ICDAR 2005(IC05) 包含1001張訓練圖像和489張測試圖像矢门,單詞和字符級別的邊界框,區(qū)分大小寫的標簽
ICDAR 2011 (IC11)包含229張訓練圖像和255張測試圖像灰蛙,單詞和字符級別的邊界框祟剔,區(qū)分大小寫的標簽
ICDAR 2013 (IC13)BAOHAN 229張訓練和233張測試圖像,單詞和字符級別的邊界框摩梧,區(qū)分大小寫的標簽
ICDAR 2013 數據集給每張圖片提供了單詞的邊界框標注物延,每張圖片都有屬于自己的txt文件:
標注文件每一行代表一個文本目標,前4個數字為坐標信息(x1仅父,y1叛薯,x2,y2)笙纤,兩組(x耗溜,y)分別代表文本框的左上和右下,目標框為舉行粪糙,最后一列是文本內容强霎,如果字體模糊則用###表示
Detection examples of the proposed method on the ICDAR 2013 dataset [17]. (figshare.com)

ICDAR2013

ICDAR2013 Benchmark (Scene Text Recognition) | Papers With Code

ICDAR 2015 和ICDAR 2013 數據集類似,知識文本框的格式由矩形變?yōu)樗倪呅稳馗裕詫懹衪xt文本的前四個數字變?yōu)榘藗€數字城舞,代表文本框的四個點,其他規(guī)則一樣寞酿。包含大量偶然的場景文本圖像家夺,從數據集中裁剪2077個文本圖像塊用于文本識別任務,其中大量裁剪的場景文本由透視和曲率失真

ICDAR2015數據集_月半小丸子的博客-CSDN博客_icdar2015

COCO

image.png

coco數據庫有八十個類別
一般是物體檢測居多伐弹,文本識別有專門的coco-text
COCO - Common Objects in Context (cocodataset.org)

coco-text
image.png

COCO-Text論文地址
COCO-Text數據集下載地址

RCTW-17


自然場景下的中文閱讀
RCTW-17論文地址
RCTW-17數據集下載地址

ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17) | Papers With Code

Uber
image.png

Uber-Text: A Large-Scale Dataset for Optical Character Recognition from Street-Level Imagery | Uber Blog

Uber-Text論文
數據集下載

ArT

image.png

ArT論文地址

論文表格

1
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末拉馋,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子惨好,更是在濱河造成了極大的恐慌煌茴,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件日川,死亡現場離奇詭異蔓腐,居然都是意外死亡,警方通過查閱死者的電腦和手機龄句,發(fā)現死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進店門回论,熙熙樓的掌柜王于貴愁眉苦臉地迎上來散罕,“玉大人,你說我怎么就攤上這事傀蓉∨肥” “怎么了?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵葬燎,是天一觀的道長误甚。 經常有香客問我,道長萨蚕,這世上最難降的妖魔是什么靶草? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮岳遥,結果婚禮上奕翔,老公的妹妹穿的比我還像新娘。我一直安慰自己浩蓉,他們只是感情好派继,可當我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著捻艳,像睡著了一般驾窟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上认轨,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天绅络,我揣著相機與錄音,去河邊找鬼嘁字。 笑死恩急,一個胖子當著我的面吹牛,可吹牛的內容都是我干的纪蜒。 我是一名探鬼主播衷恭,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼纯续!你這毒婦竟也來了随珠?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤猬错,失蹤者是張志新(化名)和其女友劉穎窗看,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體倦炒,經...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡显沈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了析校。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片构罗。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖智玻,靈堂內的尸體忽然破棺而出遂唧,到底是詐尸還是另有隱情,我是刑警寧澤吊奢,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布盖彭,位于F島的核電站,受9級特大地震影響页滚,放射性物質發(fā)生泄漏召边。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一裹驰、第九天 我趴在偏房一處隱蔽的房頂上張望隧熙。 院中可真熱鬧,春花似錦幻林、人聲如沸贞盯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽躏敢。三九已至,卻和暖如春整葡,著一層夾襖步出監(jiān)牢的瞬間件余,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工遭居, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留啼器,地道東北人。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓魏滚,卻偏偏與公主長得像镀首,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子鼠次,可洞房花燭夜當晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內容