利用pytesser進行簡單的驗證碼識別

最近在爬取一個網(wǎng)站的時候,當爬取到一定數(shù)量的時候會遇到服務器的驗證碼驗證英古,經(jīng)過對驗證碼的識別,發(fā)現(xiàn)驗證碼比較規(guī)范昙读,沒有旋轉(zhuǎn)和扭曲召调。可以使用谷歌開源的驗證碼識別蛮浑。我這里使用的是anacada2的集成環(huán)境唠叛。下面是步驟:

  1. 因為anacada2集成了Pillow所以不用再進行額外的安裝,如果你使用的是官方安裝包的話可以使用下面的命令進行安裝:
pip install Pillow
  1. 下載pytesser安裝包(傳送門 密碼:DPHE)
  2. 把下載下來的pytesser包解壓到python目錄的Lib/site_packages里面沮稚,名字取為pytesser,然后再在這個目錄下面新建一個pytesser.pth文件艺沼,內(nèi)容為pytesser,然后修改pytesser.py,把第一句的import Image修改為from PIL import Image,這一步的原因是這里我們用的是pillow而不是用的原生PIL。這樣做好以后記得把pytesser這個目錄放入到系統(tǒng)環(huán)境變量壮虫,因為程序會調(diào)用這個目錄里面的tesseract.exe,如果不放到環(huán)境變量會因為找不到這個文件而拋出異常澳厢。
    4.寫段測試代碼來測試
# encoding=utf-8
from PIL import Image
from pytesser import *

img = Image.open('./2.jpg')
img_grey = img.convert('L')

threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
img_out = img_grey.point(table, '1')

text = image_to_string(img_out)  # 將圖片轉(zhuǎn)成字符串
print text.replace(' ', '').replace('\n', '') #這里因為識別出來的文字可能會有空格和回車

識別的圖片


2.jpg

識別結(jié)果


2.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市囚似,隨后出現(xiàn)的幾起案子剩拢,更是在濱河造成了極大的恐慌,老刑警劉巖饶唤,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件徐伐,死亡現(xiàn)場離奇詭異,居然都是意外死亡募狂,警方通過查閱死者的電腦和手機办素,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來祸穷,“玉大人性穿,你說我怎么就攤上這事±坠觯” “怎么了需曾?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長祈远。 經(jīng)常有香客問我呆万,道長,這世上最難降的妖魔是什么车份? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任谋减,我火速辦了婚禮,結(jié)果婚禮上扫沼,老公的妹妹穿的比我還像新娘出爹。我一直安慰自己庄吼,他們只是感情好,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布以政。 她就那樣靜靜地躺著霸褒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪盈蛮。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天技矮,我揣著相機與錄音抖誉,去河邊找鬼。 笑死衰倦,一個胖子當著我的面吹牛袒炉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播樊零,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼我磁,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了驻襟?” 一聲冷哼從身側(cè)響起夺艰,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎沉衣,沒想到半個月后郁副,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡豌习,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年存谎,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肥隆。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡既荚,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出栋艳,到底是詐尸還是另有隱情恰聘,我是刑警寧澤,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布嘱巾,位于F島的核電站憨琳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏旬昭。R本人自食惡果不足惜篙螟,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望问拘。 院中可真熱鬧遍略,春花似錦惧所、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蕾久,卻和暖如春势似,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背僧著。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工履因, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人盹愚。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓栅迄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親皆怕。 傳聞我的和親對象是個殘疾皇子毅舆,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 經(jīng)過對django的初步學習,我們已經(jīng)對后臺的基本流程以及django的運作有了一定的了解愈腾,但是這還不足夠憋活,dja...
    coder_ben閱讀 3,835評論 8 34
  • Python 2.7IDE Pycharm 5.0.3 Selenium:Selenium的介紹及使用,強烈推薦@...
    mrlevo520閱讀 13,069評論 16 56
  • 一顶滩、實驗說明 1.1 實驗內(nèi)容 生活中余掖,我們在登錄微博,郵箱的時候礁鲁,常常會碰到驗證碼盐欺。在工作時,如果想要爬取一些數(shù)...
    海人為記閱讀 5,427評論 1 4
  • 這幾天陽光很好仅醇,8點半冗美,有一絲風,走在路上感覺有點熱析二。轉(zhuǎn)過一個街口粉洼,楊樹挺直地站在一排,白色的楊絮填滿整個街道叶摄。滿...
    良辰孤往閱讀 304評論 0 0
  • 昨天上午我很輕松的參與了群里的聊天属韧,這是之前沒有的狀態(tài)。 因為之前我總覺得大家聊的都很幽默自在蛤吓,很想努力的參與宵喂,但...
    liangye閱讀 186評論 2 1