OCR入門(附數(shù)據(jù)集鏈接)

原創(chuàng):PinkFeet

近日,“大學(xué)生用OCR+正則表達(dá)式快速核查學(xué)生核酸報(bào)告”的新聞火了,細(xì)心觀察我們就能發(fā)現(xiàn)菲盾,生活里OCR的身影到處都是:文檔掃描、車牌識(shí)別各淀、證件識(shí)別等等懒鉴。在這個(gè)信息技術(shù)高速發(fā)展的時(shí)代,越來越多的小事可以“智能化”碎浇、“信息化”临谱,曾經(jīng)需要浪費(fèi)諸多人力物力才能完成的事,可以通過新的技術(shù)輕松地解決奴璃。


OCR是解決什么問題的技術(shù)

文章開頭提到的新聞里悉默,OCR技術(shù)到底解決了什么問題?上圖是一張上海市健康云截圖苟穆,復(fù)旦大學(xué)博士生使用OCR技術(shù)監(jiān)測到文本抄课,再提取其中的文字信息,每次核查數(shù)百人的截圖僅需幾分鐘雳旅。抽象的字符讓人感覺技術(shù)深不可測跟磨,但是等讀者們稍作了解之后,會(huì)發(fā)現(xiàn)高科技是非常親切實(shí)用的攒盈。OCR中文名叫做“光學(xué)字符識(shí)別”抵拘,它可以將名片、票據(jù)型豁、身份證僵蛛、駕照等文檔資料中的文字和數(shù)字信息轉(zhuǎn)換成文本信息尚蝌,以電子形式保存,實(shí)現(xiàn)信息采集的快速錄入《胀現(xiàn)在有非常多實(shí)現(xiàn)OCR功能的免費(fèi)接口驼壶,傳入圖片路徑,就可以調(diào)用接口函數(shù)喉酌,識(shí)別圖片中的文字信息。

OCR的常見流程

常見OCR方法的具體過程通常分為以下四個(gè)步驟:

預(yù)處理:是對(duì)圖像進(jìn)行初步的處理泵喘,目的是減少圖像中的無用信息泪电,方便提取特征。常用的步驟有:灰度化纪铺、降噪相速、二值化、字符切分鲜锚、歸一化等突诬。

特征提取和降維:是識(shí)別文字、數(shù)字的關(guān)鍵步驟之一芜繁。特征是識(shí)別文字的關(guān)鍵信息旺隙,每個(gè)不同的文字通過特征來和其他文字進(jìn)行區(qū)分。數(shù)字和英文字符相對(duì)中文字符來說更容易區(qū)分骏令。為了提高后續(xù)分類器的效果和效率蔬捷,往往還要進(jìn)行降維,進(jìn)一步減少特征中的無用信息榔袋,同時(shí)把有用信息盡可能多地保留下來周拐。

分類器設(shè)計(jì):對(duì)特征進(jìn)行識(shí)別,是進(jìn)行文字凰兑、數(shù)字識(shí)別的關(guān)鍵步驟之一妥粟。在這一步中,分類器對(duì)特征進(jìn)行分類吏够,將其識(shí)別成對(duì)應(yīng)的字符勾给。分類器一般需要提前訓(xùn)練,常見的分類器有:支持向量機(jī)稿饰、神經(jīng)網(wǎng)絡(luò)等锦秒。

后處理:是對(duì)分類結(jié)果進(jìn)行優(yōu)化處理的步驟。經(jīng)過分類器分類得到的結(jié)果是不完全準(zhǔn)確的喉镰,比如對(duì)形近字的識(shí)別錯(cuò)誤率比較高旅择、識(shí)別結(jié)果存在排版錯(cuò)誤,后處理就可以有針對(duì)性地解決這些問題侣姆。例如生真,通過語言模型校正將“存哪里”校正為“在哪里”沉噩,并對(duì)識(shí)別結(jié)果進(jìn)行格式化。

正則表達(dá)式是什么

正則表達(dá)式在人物場景中承擔(dān)的是什么責(zé)任呢柱蟀?經(jīng)過前面敘述的流程川蒙,從圖片中提取出來的文字信息,需要進(jìn)一步整理提取长已,實(shí)現(xiàn)自動(dòng)化核查畜眨。正則表達(dá)式通常被用來檢索、替換符合特定模式的文本术瓮。正則表達(dá)式可以提取出文本中的特定文本康聂,即:姓名、證件號(hào)碼胞四、采樣時(shí)間恬汁、檢測結(jié)果等,再輸出到Excel中辜伟。

OCR數(shù)據(jù)集

目前主流的OCR任務(wù)會(huì)使用深度學(xué)習(xí)方法氓侧,這意味著數(shù)據(jù)集是其中的關(guān)鍵。

文本檢測數(shù)據(jù)集SynthText:https://www.robots.ox.ac.uk/~vgg/data/scenetext/

ICDAR是競賽數(shù)據(jù)集导狡,2003年约巷、2013年、2015年烘豌、2017年分別開放了以下數(shù)據(jù)集:?

http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2003_Robust_Reading_Competitions

https://rrc.cvc.uab.es/?ch=2

https://rrc.cvc.uab.es/?ch=4

https://rrc.cvc.uab.es/?ch=5&com=introduction

谷歌圖像中收集整理得到的IIIT 5K words數(shù)據(jù)集:http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html

還有一些公開數(shù)據(jù)集载庭,如:SVT、CUTE等廊佩。Github上有一個(gè)OCR數(shù)據(jù)匯總可以查看:https://github.com/WenmuZhou/OCR_DataSet

大多數(shù)OCR數(shù)據(jù)集包含的圖像數(shù)量比較少囚聚,并不足以訓(xùn)練出一個(gè)模型,需要合成新的數(shù)據(jù)集使用标锄。

小結(jié)

OCR技術(shù)不算是最新的技術(shù)顽铸,早在十年前它就火過,隨著近年深度學(xué)習(xí)的迅速發(fā)展料皇,基于深度學(xué)習(xí)的OCR技術(shù)也逐漸成熟谓松,能夠更好更靈活地應(yīng)對(duì)不同場景,已經(jīng)成為科技公司的能力標(biāo)配践剂。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鬼譬,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子逊脯,更是在濱河造成了極大的恐慌优质,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異巩螃,居然都是意外死亡演怎,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門避乏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來爷耀,“玉大人,你說我怎么就攤上這事拍皮〈醵#” “怎么了?”我有些...
    開封第一講書人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵春缕,是天一觀的道長盗胀。 經(jīng)常有香客問我,道長锄贼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任女阀,我火速辦了婚禮宅荤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘浸策。我一直安慰自己冯键,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開白布庸汗。 她就那樣靜靜地躺著惫确,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蚯舱。 梳的紋絲不亂的頭發(fā)上改化,一...
    開封第一講書人閱讀 52,268評(píng)論 1 309
  • 那天,我揣著相機(jī)與錄音枉昏,去河邊找鬼陈肛。 笑死,一個(gè)胖子當(dāng)著我的面吹牛兄裂,可吹牛的內(nèi)容都是我干的句旱。 我是一名探鬼主播,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼晰奖,長吁一口氣:“原來是場噩夢啊……” “哼谈撒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起匾南,我...
    開封第一講書人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤啃匿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后午衰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體立宜,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡冒萄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了橙数。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尊流。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖灯帮,靈堂內(nèi)的尸體忽然破棺而出崖技,到底是詐尸還是另有隱情,我是刑警寧澤钟哥,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布迎献,位于F島的核電站,受9級(jí)特大地震影響腻贰,放射性物質(zhì)發(fā)生泄漏吁恍。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一播演、第九天 我趴在偏房一處隱蔽的房頂上張望冀瓦。 院中可真熱鬧,春花似錦写烤、人聲如沸翼闽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽感局。三九已至,卻和暖如春暂衡,著一層夾襖步出監(jiān)牢的瞬間询微,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來泰國打工古徒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拓提,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓隧膘,卻偏偏與公主長得像代态,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子疹吃,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359