python 技術(shù)篇-3行代碼搞定圖像文字識別,pytesseract庫實現(xiàn)

python 技術(shù)篇-3行代碼搞定圖像文字識別原在,pytesseract庫實現(xiàn)

我們需要?pillow?和?pytesseract?這兩個庫,pip install?安裝就好彤叉。還需要安裝?Tesseract-OCR.exe?然后配置下就好了庶柿。具體的環(huán)境配置方法請看python 技術(shù)篇-使用pytesseract庫進(jìn)行圖像識別之環(huán)境配置https://www.cnblogs.com/chenshengkai/p/11318272.html英文字母圖像識別演示這個是我保存名為?English.png?的圖片,下面我來提取文字秽浇。

pytesseract?庫的?image_to_string()?方法就能把圖片中的英文字母提取出來浮庐。from PIL import Imageimport pytesseract image = Image.open('English.png')content = pytesseract.image_to_string(image,) ? # 解析圖片print(content) 運行效果圖:注:有些字體可能會識別出現(xiàn)問題,盡量用比較標(biāo)準(zhǔn)的字體柬焕。

中文漢字圖像識別演示這個是我保存名為?chinese.png?的圖片审残,下面我來提取文字。首先需要安裝對應(yīng)的語言包:Tesseract各個版本語言包獲取方式和安裝方法要在pytesseract?庫的?image_to_string()?方法里加個參數(shù)lang='chi_sim'斑举,這個就是引用對應(yīng)的中文語言包搅轿,中文語言包的全名是?chi_sim.traineddata。from PIL import Image import pytesseract ? image = Image.open('English.png') content = pytesseract.image_to_string(image, lang='chi_sim') # 解析圖片 print(content)

注:有些字體可能會識別出現(xiàn)問題富玷,盡量用比較標(biāo)準(zhǔn)的字體璧坟。

tesseract OCR識別工具及pytesseract

python測試開發(fā)_AI命理2018.08.22 17:46:22字?jǐn)?shù) 616閱讀 3,958簡介

python測試開發(fā)項目實戰(zhàn)-目錄

python工具書籍下載-持續(xù)更新

可以使用pytesseract庫從圖像中提取文本。Tesseract是一款由Google贊助的開源OCR赎懦。 pytesseract是python包裝器雀鹃,它為可執(zhí)行文件提供了pythonic API。Tesseract(/'tes?r?kt/) 這個詞的意思是"超立方體"励两,指的是幾何學(xué)里的四維標(biāo)準(zhǔn)方體黎茎,又稱"正八胞體"。下圖是一個正八胞體繞著兩個四維空間中互相正交的平面進(jìn)行雙旋轉(zhuǎn)時的透視投影当悔。不過這里要講的傅瞻,是一款以其命名的開源 OCR(Optical Character Recognition, 光學(xué)字符識別) 軟件迁酸。所謂 OCR 是圖像識別領(lǐng)域中的一個子領(lǐng)域,該領(lǐng)域?qū)W⒂趯D片中的文字信息進(jìn)行識別并轉(zhuǎn)換成能被常規(guī)文本編輯器編輯的文本俭正。Tesseract 已經(jīng)有 30 年歷史奸鬓,開始它是惠普實驗室的一款專利軟件,然后在 2005 年開源掸读,自 2006 年后由 Google 贊助進(jìn)行后續(xù)的開發(fā)和維護(hù)串远。在 1995 年 Tesseract 曾是世界前三的 OCR 引擎,而且在現(xiàn)在的免費 OCR 引擎中儿惫,其識別精度也仍然是出類拔萃的澡罚。因為其免費與較好的效果,許多的個人開發(fā)者以及一些較小的團(tuán)隊在使用著 Tesseract 肾请,諸如驗證碼識別留搔、車牌號識別等應(yīng)用中,不難見到 Tesseract 的身影铛铁。

python_lib_ocr_tesseract.gif安裝以ubuntu 16.04為例?# pip3 install pytesseract?# apt install tesseract-ocr tesseract-ocr-chi-sim?快速入門?#!/usr/bin/python?# -*- coding: utf-8 -*-?# Author: ? ?china-testing@126.com wechat:pythontesting qq群:144081101?# CreateDate: 2018-04-25?import?pytesseract?as?pt?import?requests?from?PIL?import?Image?#img = Image.open("textinimage.png")?print("英文:") url?=?"https://china-testing.github.io/images/python_lib_ocr_en.png"?img?=?Image.open(requests.get(url, stream=True).raw) text?=?pt.image_to_string(img)?print(text)?#img = Image.open("textinimage.png")?print("中文:") url?=?"https://china-testing.github.io/images/python_lib_ocr.PNG"?img?=?Image.open(requests.get(url, stream=True).raw) text?=?pt.image_to_string(img,lang='chi_sim')?print(text)

Alt Text

Alt Text執(zhí)行結(jié)果?$ python3 04_10_perform_ocr.py ?英文: This?is?an image containing text. And some numbers?123456789?And also special characters: !@#$%"&*(_+?中文: pyth0"自動化測試人工智能?可見中文識別的效果并不太好隔显,為此很多公司進(jìn)行機(jī)器學(xué)習(xí)來改進(jìn)。另外網(wǎng)易的有道云筆記的OCR效果做得很不錯饵逐,白描的湊合能用括眠,qq的掃二維碼也可以識別文字,但是做得比較爛倍权。ocr可以做python項目對初學(xué)者進(jìn)行實踐掷豺,請聯(lián)系微信:pythontesting本文最新代碼地址,后續(xù)相關(guān)ocr的資料也會放在這里薄声。另外tesseract也可以命令行執(zhí)行:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末当船,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子默辨,更是在濱河造成了極大的恐慌德频,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件廓奕,死亡現(xiàn)場離奇詭異抱婉,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)桌粉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門蒸绩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人铃肯,你說我怎么就攤上這事患亿。” “怎么了?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵步藕,是天一觀的道長惦界。 經(jīng)常有香客問我,道長咙冗,這世上最難降的妖魔是什么沾歪? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮雾消,結(jié)果婚禮上灾搏,老公的妹妹穿的比我還像新娘。我一直安慰自己立润,他們只是感情好狂窑,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著桑腮,像睡著了一般泉哈。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上破讨,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天丛晦,我揣著相機(jī)與錄音,去河邊找鬼添忘。 笑死采呐,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的搁骑。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼又固,長吁一口氣:“原來是場噩夢啊……” “哼仲器!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起仰冠,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤乏冀,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后洋只,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辆沦,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年识虚,在試婚紗的時候發(fā)現(xiàn)自己被綠了肢扯。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡担锤,死狀恐怖蔚晨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肛循,我是刑警寧澤铭腕,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布银择,位于F島的核電站,受9級特大地震影響累舷,放射性物質(zhì)發(fā)生泄漏浩考。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一被盈、第九天 我趴在偏房一處隱蔽的房頂上張望析孽。 院中可真熱鬧,春花似錦害捕、人聲如沸绿淋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽吞滞。三九已至,卻和暖如春盾沫,著一層夾襖步出監(jiān)牢的瞬間裁赠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工赴精, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留佩捞,地道東北人。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓蕾哟,卻偏偏與公主長得像一忱,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子谭确,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348