Python圖像處理之圖片文字識別(OCR)

OCR與Tesseract介紹

??將圖片翻譯成文字一般被稱為光學(xué)文字識別(Optical Character Recognition,OCR)【ⅲ可以實現(xiàn)OCR 的底層庫并不多漫雕,目前很多庫都是使用共同的幾個底層OCR 庫,或者是在上面進行定制拉庵。
??Tesseract 是一個OCR 庫灿椅,目前由Google 贊助(Google 也是一家以O(shè)CR 和機器學(xué)習(xí)技術(shù)聞名于世的公司)。Tesseract 是目前公認最優(yōu)秀钞支、最精確的開源OCR 系統(tǒng)茫蛹。
??除了極高的精確度,Tesseract 也具有很高的靈活性伸辟。它可以通過訓(xùn)練識別出任何字體(只要這些字體的風(fēng)格保持不變就可以)麻惶,也可以識別出任何Unicode 字符。

Tesseract的安裝與使用

??Tesseract的Windows安裝包下載地址為: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe 信夫,下載后雙擊直接安裝即可窃蹋。安裝完后,需要將Tesseract添加到系統(tǒng)變量中静稻。在CMD中輸入tesseract -v, 如顯示以下界面警没,則表示Tesseract安裝完成且添加到系統(tǒng)變量中。

image

??Linux 用戶可以通過apt-get 安裝:

$sudo apt-get tesseract-ocr

??用Tesseract可以識別格式規(guī)范的文字振湾,主要具有以下特點:

? 使用一個標準字體(不包含手寫體杀迹、草書,或者十分“花哨的”字體)
? 雖然被復(fù)印或拍照押搪,字體還是很清晰树酪,沒有多余的痕跡或污點
? 排列整齊,沒有歪歪斜斜的字
? 沒有超出圖片范圍大州,也沒有殘缺不全续语,或緊緊貼在圖片的邊緣
??下面將給出幾個tesseract識別圖片中文字的例子。
??首先是E://figures/other/poems.jpg, 輸入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt厦画, 則會將poems.jpg中的識別文字寫入到poems.txt中疮茄,如下圖:

poems.jpg

image

image

??接著是稍微有點傾斜的文字圖片th.jpg,識別情況如下:
image

image

可以看到識別的情況不如剛才規(guī)范字體的好,但是也能識別圖片中的大部分字母根暑。
??最后是識別簡體中文力试,需要事先安裝簡體中文語言包,下載地址為:https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata ,再講chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目錄下排嫌。我們以圖片timg.jpg為例:
image

輸入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

識別結(jié)果如下:


image

只識別錯了一個字畸裳,識別率還是不錯的。
??最后加一句躏率,Tesseract對于彩色圖片的識別效果沒有黑白圖片的效果好躯畴。

pytesseract

??pytesseract是Tesseract關(guān)于Python的接口民鼓,可以使用pip install pytesseract安裝。安裝完后蓬抄,就可以使用Python調(diào)用Tesseract了丰嘉,不過,你還需要一個Python的圖片處理模塊嚷缭,可以安裝pillow.
??輸入以下代碼饮亏,可以實現(xiàn)同上述Tesseract命令一樣的效果:

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))

print(text)

運行結(jié)果如下:


image

參考文獻

  1. Python網(wǎng)絡(luò)數(shù)據(jù)采集 【美】 Ryan Mitchell 人民郵電出版社
  2. https://blog.csdn.net/dcrmg/article/details/78233459?locationNum=7&fps=1
  3. http://www.inimei.cn/archives/297.html

注意:本人現(xiàn)已開通兩個微信公眾號: 因為Python(微信號為:python_math)以及輕松學(xué)會Python爬蟲(微信號為:easy_web_scrape), 歡迎大家關(guān)注哦~~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末阅爽,一起剝皮案震驚了整個濱河市路幸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌付翁,老刑警劉巖简肴,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異百侧,居然都是意外死亡砰识,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門佣渴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來辫狼,“玉大人,你說我怎么就攤上這事辛润∨虼Γ” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵砂竖,是天一觀的道長真椿。 經(jīng)常有香客問我,道長乎澄,這世上最難降的妖魔是什么瀑粥? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮三圆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘避咆。我一直安慰自己舟肉,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布查库。 她就那樣靜靜地躺著路媚,像睡著了一般。 火紅的嫁衣襯著肌膚如雪樊销。 梳的紋絲不亂的頭發(fā)上整慎,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天脏款,我揣著相機與錄音,去河邊找鬼裤园。 笑死撤师,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的拧揽。 我是一名探鬼主播剃盾,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼淤袜!你這毒婦竟也來了痒谴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤铡羡,失蹤者是張志新(化名)和其女友劉穎积蔚,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體烦周,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡尽爆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了论矾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片教翩。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖贪壳,靈堂內(nèi)的尸體忽然破棺而出饱亿,到底是詐尸還是另有隱情,我是刑警寧澤闰靴,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布彪笼,位于F島的核電站,受9級特大地震影響蚂且,放射性物質(zhì)發(fā)生泄漏配猫。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一杏死、第九天 我趴在偏房一處隱蔽的房頂上張望泵肄。 院中可真熱鬧,春花似錦淑翼、人聲如沸腐巢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冯丙。三九已至,卻和暖如春遭京,著一層夾襖步出監(jiān)牢的瞬間胃惜,已是汗流浹背泞莉。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留船殉,地道東北人鲫趁。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像捺弦,于是被迫代替她去往敵國和親饮寞。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容

  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個 Awesome - XXX 系列...
    aimaile閱讀 26,449評論 6 428
  • 昨天上海下了2018年的第一場雪列吼,今早起床幽崩,到處都是白茫茫的一片了。突然問自己寞钥,去年下雪了嗎慌申?搜索記憶,答案是:不...
    葉公好貓閱讀 156評論 0 0
  • 這兩章的交流學(xué)習(xí)讓我收獲很大理郑,說到對學(xué)生的“無條件接納”蹄溉,我自認為我做得還可以。 在學(xué)習(xí)上您炉,我相信每一個學(xué)...
    心林閱讀 176評論 0 1