Tesseract-OCR入門使用1
Tesseract-OCR入門使用2
Tesseract-OCR入門使用3
Tesseract API Example
環(huán)境:
- Python3.6
- Pycharm
- Win10
- tesseract-ocr-setup-3.05.00dev.exe
安裝:
- 安裝tesseract-orc的時(shí)候需要自行選擇安裝的語(yǔ)言冠摄,一些其他國(guó)家的語(yǔ)言可以不選擇安裝译秦,我之按安裝了中文碉考,英文福侈。安裝過(guò)程和其他軟件一樣耸黑。
- pip install PIL
- pip install pytesseract
配置環(huán)境
1.設(shè)置 tesseract-orc路徑
默認(rèn)情況下tesseract-orc是不被添加到系統(tǒng)的path路徑的吁系,這樣在使用的時(shí)候發(fā)生FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件
錯(cuò)誤煤惩。
解決方法:
- 方法1:將
C:\Program Files (x86)\Tesseract-OCR
添加到系統(tǒng)路徑(路徑因安裝過(guò)程而異) - 方法2:修改pytesseract.py文件戈稿,修改方法如下
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
- 設(shè)置訓(xùn)練集的位置
下載的默認(rèn)訓(xùn)練集也沒(méi)有添加到系統(tǒng)路徑,會(huì)報(bào)錯(cuò)pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')
解決方法:
設(shè)置環(huán)境變量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
實(shí)例程序
from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('seven.png', lang='chi_sim') # 識(shí)別中文
print(text)
其他版本
Ubuntu版本:
1.tesseract-ocr安裝
- sudo apt-get install tesseract-ocr
2.pytesseract安裝
- sudo pip install pytesseract
3.Pillow 安裝
- sudo pip install pillow
其他linux版本(如centos):
1.tesseract-ocr安裝
沒(méi)找到直接命令安裝笛质,所以需要手動(dòng)下載安裝包泉沾。
https://github.com/tesseract-ocr/tesseract
在上述地址中下載最新的tesseract-ocr的安裝包,并解壓妇押。
通過(guò)以下命令安裝:
(1)cd tesseract-3.04.01
(2)./autogen.sh
(3)./configure
注意跷究,如果出現(xiàn)error: leptonica not found,需要下載安裝leptonica
http://www.leptonica.org/download.html
(4)make
(5)make install
(6)ldconfig
2.pytesseract安裝
sudo pip install pytesseract
3.Pillow 安裝
sudo pip install pillow