自動識別驗證碼
剛看完 《Python編程快速上手 讓繁瑣工作自動化》山析,受益匪淺,順手做了一個小工具,能自動從遠程服務器上下載文件到U盤勾笆,現(xiàn)在看《Python 3網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)》咪啡,給大家分享一下使用tesserocr自動識別驗證碼
安裝
- windows下載安裝tesseract驼抹,注意版本問題宾巍,tesseract要和稍后安裝的tesserocr 版本匹配闻伶,我的版本是tesserocr v2.4.0 (tesseract 4.0.0)
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w32-setup-v4.0.0.20181030.exe
安裝注意勾選 Additional language data來安裝OCR識別支持的語言包
- 安裝 tesserocr v2.4.0
tesserocr v2.4.0 - Python 3.7 - 64bit 下載地址
命令行 $ pip install tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
驗證安裝結(jié)果
- 為了方便,我把 路徑 C:\Program Files (x86)\Tesseract-OCR 加入環(huán)境變量
- 在命令行輸入 tesseract img.PNG result -l eng && cat result.txt喳整,可以看到測試圖片的識別結(jié)果生成了
代碼實現(xiàn)
-
由于我使用的是Anaconda的Jupyter谆构,報錯找不到tessdata,我特意把 C:\Program Files (x86)\Tesseract-OCR\tessdata 文件夾拷貝到C:\ProgramData\Anaconda3