一虚汛、安裝pytesseract和PIL
PIL全稱:Python Imaging Library,python圖像處理庫寂嘉,這個庫支持多種文件格式遏暴,并提供了強大的圖像處理和圖形處理能力贡耽。
由于PIL僅支持到Python 2.7衷模,所以在PIL的基礎(chǔ)上創(chuàng)建了Pillow庫,支持最新Python 3.x蒲赂。
1阱冶、pip命令安裝
pip install pytesseract
pip install Pillow
安裝成功
二、安裝識別引擎tesseract-ocr
1.Tesseract是開源的OCR引擎滥嘴。Tesseract最初設(shè)計用于英文識別木蹬,經(jīng)過改進引擎和訓(xùn)練系統(tǒng),它能夠處理其它語言和UTF-8字符若皱。Tesseract 3.0能夠處理任何Unicode字符镊叁,但并非在所有語言上都工作得很好。Tesseract在龐大字符集語言(比如中文)上較慢是尖,但是工作良好意系。
鏈接: https://pan.baidu.com/s/1CtcVh9pzhdi5GGgxnIM4yw 提取碼: jaba
image.png
雙擊安裝tesseract-ocr-setup.exe
esseract-ocr默認不支持中文識別
將下載好的文件:chi_sim.traineddata 放到Tesseract-OCR安裝目錄
D:\Program Files (x86)\Tesseract-OCR\tessdata 下,如圖:
image.png
此處我多添加了幾個語言包饺汹,已經(jīng)測試過了,需要的可以留言找我我可以發(fā)你
2痰催,安裝完成tesseract-ocr后兜辞,需要做一下配置 。
在Python安裝目錄(如:D:\Python\Python36\Lib\site-packages\pytesseract) 中修改 pytesseract.py文件夸溶。
image.png
新增tesseract的安裝路徑逸吵,注釋掉原來的代碼
image.png
3.嘗試運行,
1.png
2.jpg
源碼如下:
from PIL import Image
import pytesseract
Image = Image.open('2.jpg') # 打開圖片
text = pytesseract.image_to_string(Image,lang='chi_sim') #使用簡體中文解析圖片
print(text)
結(jié)果是
image.png