這里會用到
安裝
安裝pytesseract? 和 ?Pillow
pip install pytesseract
pip install Pillow
這里只說winsows系統(tǒng)下的安裝linux,在利用pytesseract調(diào)用tesseract時遇到以下錯誤:
FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件酷勺。
于是我看了下pytesseract源碼窟感,發(fā)現(xiàn)有這樣的一行
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'
估計windows系統(tǒng)要手工添加環(huán)境變量昵骤,所以才產(chǎn)生的問題,于是又將tesseract添加到環(huán)境變量Path中,但還是會報錯:
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\eng.traineddata')
這個是eng.traineddata文件路徑有誤才會出現(xiàn)的錯誤。
解決辦法:
先查看tesseract有沒有這個語言包,有CMD中輸入命令:
tesseract --list-langs
結(jié)果:
List of available languages (2):
eng
osd
然后再查看然后再google下的饺饭,發(fā)現(xiàn)還是tesseract的環(huán)境變量的問題,找到了下面這一句話
Please make sure the TESSDATA_PREFIX environment variableisset to the parent directory of your"tessdata"directory.
于是新建的一個TESSDATA_PREFIX指定"tessdata"的上級目錄也就是"C:\Program Files (x86)\Tesseract-OCR"
windows的安裝也完成职车。
先用一個簡單的驗證碼測試一下:
from PIL import Image
import pytesseract
result = pytesseract.image_to_string(Image.open(r'F:\pachong\PIN\PIN_ws\692.jpg',"r"), lang='eng')
print(result)