背景
前幾天想用Python模擬登錄教務(wù)系統(tǒng)瓷马,但是我們學(xué)校的教務(wù)系統(tǒng)做了驗證碼識別,既然如此捕仔,剛好學(xué)習(xí)一下識別簡單驗證碼
Tesseract
簡介
Tesseract(/'tes?r?kt/) 這個詞的意思是"超立方體"呜袁,指的是幾何學(xué)里的四維標(biāo)準(zhǔn)方體,又稱"正八胞體"肝劲。不過這里要講的梁沧,是一款以其命名的開源 OCR(Optical Character Recognition, 光學(xué)字符識別) 軟件。
所謂 OCR 是圖像識別領(lǐng)域中的一個子領(lǐng)域重虑,該領(lǐng)域?qū)W⒂趯D片中的文字信息進(jìn)行識別并轉(zhuǎn)換成能被常規(guī)文本編輯器編輯的文本践付。
在 1995 年 Tesseract 曾是世界前三的 OCR 引擎,而且在現(xiàn)在的免費 OCR 引擎中嚎尤,其識別精度也仍然是出類拔萃的荔仁。因為其免費與較好的效果伍宦,許多的個人開發(fā)者以及一些較小的團(tuán)隊在使用著 Tesseract 芽死,諸如驗證碼識別、車牌號識別等應(yīng)用中次洼,不難見到 Tesseract 的身影关贵。
MacPorts安裝
MacPorts是mac上的一個包管理軟件,他使得mac用戶安裝編譯軟件十分方便卖毁,我們打算用MacPorts來安裝Tesseract揖曾。
在官網(wǎng)上下載MacPorts的pkg,雙擊即可安裝亥啦。查看port是否安裝成功
~:port version
為了防止出現(xiàn)'commond not found'炭剪,要把port指令加入環(huán)境變量PATH之中
~:where port
/opt/local/bin/port
~:export PATH=/opt/local/bin:/opt/local/sbin:$PATH
在正式使用之前,一定要對MacPorts進(jìn)行升級翔脱,不然找不到很多軟件
包
~:sudo port selfupdate
這個過程可能很慢奴拦,甚至?xí)驗榫W(wǎng)路狀況失敗,多試幾次就好
Tesseract安裝
Tesseract 的編譯需要 automake, autoconf, libtool 支持
~:sudo port install autoconf
~:sudo port install automake
~:sudo port install libtool
當(dāng)然了, Tesseract 還依賴一些圖像庫:
~:sudo port install jpeg tiff libpng
Leptonica是Tesseract 的一個比較重要的依賴届吁,而且不同版本的 Tesseract 對 Leptonica 的版本要求也不一樣错妖,需要留意包管理器所安裝的 Leptonica 版本是否滿足要求
~:sudo port install leptonica
最后,安裝
sudo port install tesseract
安裝完成之后就可以正常運行tesseract了疚沐。
一個小插曲暂氯,我今天到公司后運行tesseract,輸出 commond not found亮蛔,再輸入運行Port痴施,也是commond not found,嚇我一跳,以為中了病毒辣吃。最后發(fā)現(xiàn)原來是他們的運行文件的路徑都不在環(huán)境變量$PATH中了锉矢,趕緊加了進(jìn)去。
之后我從學(xué)校教務(wù)處下載了一些驗證碼
使用tesseract識別
tesseract 1.jpeg ouput
vi output.txt
準(zhǔn)備工作已經(jīng)做好齿尽,接下來可以寫Python程序了
ok,先上代碼
__author__='fanyiting'
#coding=utf-8
import requests
from PIL import Image
import os
vcode_path='http://202.118.31.197/ACTIONVALIDATERANDOMPICTURE.APPPROCESS?id=72.8565560350367'
url='http://202.118.31.197/ACTIONLOGON.APPPROCESS?mode='
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'}
my_session=requests.Session()
def down_png(req,img_path):
with open('check.png','wb') as f:
img_stream=req.get(img_path,stream=True)
# print tuple(img_stream.cookies)
for chunk in img_stream.iter_content(chunk_size=1024):
if chunk:
f.write(chunk)
f.flush
f.close()
def get_vcode(req,vcode_path):
down_png(req,vcode_path)
os.popen('tesseract check.png check')
vcode=file('check.txt').read().strip()
return vcode
def login(req,code):
payload={'WebUserNO':'20124964','Password':'*****','Agnomen':code,'applicant':'ACTIONQUERYBASESTUDENTINFO','submit7':'%B5%C7%C2%BC'}
r=req.post(url,headers=headers,data=payload)
return r
page=my_session.get(url)
vcode=get_vcode(my_session,vcode_path)
page=login(my_session,vcode)
print page.text