Python處理驗證碼：基于PIL和Tesseract的數(shù)字計算識別處理思路

image

如圖卜壕，我們在使用python自動化的時候經(jīng)常會遇到很多各式各樣的驗證碼。這個是一個數(shù)字加法的驗證碼蛔六。
干擾項里包含完整的數(shù)字荆永、字母信息，普通的OCR識別可能不是很準確国章。
但是不管怎么樣具钥，咱們先把必要的環(huán)境搭建起來，試一下Tesseract的識別結(jié)果吧液兽。

很多人學習python骂删，不知道從何學起。
很多人學習python四啰，掌握了基本語法過后宁玫，不知道在哪里尋找案例上手。
很多已經(jīng)做案例的人柑晒，卻不知道如何去學習更加高深的知識欧瘪。
那么針對這三類人，我給大家提供一個好的學習平臺敦迄，免費領(lǐng)取視頻教程恋追，電子書籍，以及課程的源代碼罚屋！
QQ群：701698587
歡迎加入苦囱，一起討論 一起學習！

1脾猛、安裝Tesseract：

首先需要下載Tesseract的安裝包官方網(wǎng)址：
https://digi.bib.uni-mannheim.de/tesseract/撕彤，網(wǎng)上的教程很多推薦安裝名稱里不帶dev的正式版，據(jù)說更穩(wěn)定

配置Tesseract：

安裝完畢之后需要配置一下環(huán)境變量猛拴，分為兩步：
1羹铅、在path里加入安裝路徑，及安裝路徑內(nèi)的tessdata文件夾路徑愉昆。

image

2职员、新建系統(tǒng)變量{TESSDATA_PREFIX：E:\Program Files (x86)\Tesseract-OCR\tessdata} 這里變量名是固定的TESSDATA_PREFIX，值是剛剛提到的安裝路徑內(nèi)下一級tessdata文件夾的完整路徑

image

[圖片上傳失敗...(image-8ec71a-1631336567614)]

然后命令行里安裝pytesseract：

pip install pytesseract

完成以上步驟之后跛溉，請重新啟動電腦焊切。

圖片無法處理識別：

直接調(diào)用ocr識別出結(jié)果的話，只需要3行代碼：

import pytesseract
text = pytesseract.image_to_string('圖片路徑或者內(nèi)存的圖片對象')
print(text)

但是對于這個驗證碼的效果不是非常好芳室，比如：

image

要么是沒有結(jié)果专肪，要么就是一堆亂七八糟的東西。
這樣肯定是用不了的
那么只能先處理一下圖片了

圖片處理識別：

我下載了20張這個網(wǎng)站的二維碼堪侯，發(fā)現(xiàn)了以下規(guī)律：
1嚎尤、驗證碼內(nèi)容一定包含“ = 2位數(shù)字+2位數(shù)字”的
2、驗證碼內(nèi)容的顏色是隨機的伍宦。
3芽死、驗證碼內(nèi)容的位置應(yīng)該是固定的（20張圖片的加號都在同一位置）
4乏梁、驗證碼圖片的干擾內(nèi)容包含字母、數(shù)字收奔、符號
5掌呜、驗證碼圖片的干擾內(nèi)容顏色沒有跟主要內(nèi)容一模一樣滓玖，但是每張圖的干擾項一定包含主要內(nèi)容顏色相近的部分坪哄。

image

可以看到，根據(jù)字體的不同势篡，顯示的時候翩肌，主干是棕色的，但是構(gòu)成這個字的邊緣顏色是稍微淡一些的禁悠。不過20張圖里都沒有發(fā)現(xiàn)有干擾項的顏色跟主要內(nèi)容顏色一模一樣念祭。
所以我的想法是因為存在主干的近似色，所以主要的濾波手段可能導(dǎo)致把圖片變得更難處理的可能性碍侦，所以不如直接獲取主干顏色粱坤，其他像素不是主干顏色的全部以白色替代，刪除干擾項之后再進行識別瓷产。
主干顏色可以使用固定的加號的正中間那一點的坐標獲取站玄。（80，23）（80濒旦，24）

[圖片上傳失敗...(image-7a4a97-1631336567614)]

Python代碼如下：

# -*- coding: utf-8 -*-
"""
Created on Wed Apr 14 16:23:47 2021

@author: roshinntou
"""

from PIL import Image
import pytesseract

def images_to_string(index):
    #導(dǎo)入圖片株旷，抓取的時候可以直接獲取io流
    img1= Image.open('index ('+str(index)+').png')

    #獲取圖片的長寬
    w,h = img1.size
    print('Original image size: %sx%s' % (w, h))

    '''
    因為是PNG圖片，像素不是直接以RGB保存的尔邓，PNG的每個像素里還有透明度
    我們不需要處理透明度晾剖，tesseract對于白色和不透明的識別是一樣的，這里就轉(zhuǎn)成RGB
    如果圖片是jpg的梯嗽，可以直接使用齿尽，不需要 convert
    '''
    img1rbg = img1.convert('RGB')

    #讀取全部的像素數(shù)據(jù)
    src_strlist = img1rbg.load()

    #獲取主干顏色
    data = src_strlist[80,23]
    print(data)

    #雙層循環(huán)開始替換全部的像素點顏色
    for x in range(0,w):
        for y in range(0,h):
            #判斷當前點顏色是否等于主干顏色
            co = src_strlist[x,y]
            if co !=data:
                src_strlist[x,y] = (245, 245, 255)

    #直接調(diào)用內(nèi)存里的PIL image對象進行圖片識別
    text = pytesseract.image_to_string(img1rbg)
    text = text.replace(" ","").replace("\r\n","").replace(" ","").replace("\r","").replace("\n","")
    #打印結(jié)果
    print(text)

    #保存圖片
    img1rbg.save(text+'.png')

if __name__ == '__main__':
    for i in range(1,21):
        images_to_string(i)

image

文件如下：

QQ圖片20210911130556.png

結(jié)語：
準確率我大概看了一下，應(yīng)該是100%的灯节。以上算是成功破解了對方網(wǎng)站的驗證碼循头。
驗證碼的識別整體思路應(yīng)該就是這樣子了，當然我舉得例子是比較簡單的驗證碼显晶。還有各種麻煩的驗證碼贷岸，未來可能需要用到截取、卷積磷雇、濾波偿警、清洗等等方法，需要根據(jù)實際的情況靈活地使用唯笙，但是整體的思路就是：找到驗證碼規(guī)律螟蒸，根據(jù)規(guī)律清洗干擾噪點盒使，然后識別。希望可以啟發(fā)到大家七嫌。
最后的最后少办，現(xiàn)在已經(jīng)可以獲取驗證碼的字符串了，計算結(jié)果非常簡單我就不做了诵原。有興趣的可以試試英妓，我會把所有圖片、源代碼打包绍赛，大家可以下載試一下蔓纠。 Tesseract安裝的時候，系統(tǒng)變量哪里2步都不能少吗蚌，少一個程序執(zhí)行就會報錯腿倚，切記

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市蚯妇，隨后出現(xiàn)的幾起案子敷燎，更是在濱河造成了極大的恐慌，老刑警劉巖箩言，帶你破解...
沈念sama閱讀 219,039評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件硬贯，死亡現(xiàn)場離奇詭異，居然都是意外死亡分扎，警方通過查閱死者的電腦和手機澄成，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來畏吓，“玉大人墨状，你說我怎么就攤上這事》票” “怎么了肾砂？”我有些...
開封第一講書人閱讀 165,417評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長宏悦。經(jīng)常有香客問我镐确，道長，這世上最難降的妖魔是什么饼煞？我笑而不...
開封第一講書人閱讀 58,868評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任源葫，我火速辦了婚禮，結(jié)果婚禮上砖瞧，老公的妹妹穿的比我還像新娘息堂。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 67,892評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布荣堰。她就那樣靜靜地躺著床未，像睡著了一般。火紅的嫁衣襯著肌膚如雪振坚。梳的紋絲不亂的頭發(fā)上薇搁，一...
開封第一講書人閱讀 51,692評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音渡八，去河邊找鬼啃洋。笑死，一個胖子當著我的面吹牛呀狼，可吹牛的內(nèi)容都是我干的裂允。我是一名探鬼主播，決...
沈念sama閱讀 40,416評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼哥艇，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了僻澎？” 一聲冷哼從身側(cè)響起貌踏，我...
開封第一講書人閱讀 39,326評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎窟勃，沒想到半個月后祖乳，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,782評論 1贊 316
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡秉氧，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,957評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年眷昆，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片汁咏。...
茶點故事閱讀 40,102評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡亚斋，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出攘滩，到底是詐尸還是另有隱情帅刊，我是刑警寧澤，帶...
沈念sama閱讀 35,790評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布漂问，位于F島的核電站赖瞒，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏蚤假。R本人自食惡果不足惜栏饮，卻給世界環(huán)境...
茶點故事閱讀 41,442評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望磷仰。院中可真熱鬧袍嬉，春花似錦、人聲如沸芒划。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,996評論 0贊 22
一樁弒父案欧穴，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至泵殴，卻和暖如春涮帘，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背笑诅。一陣腳步聲響...
開封第一講書人閱讀 33,113評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工调缨，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人吆你。一個月前我還...
沈念sama閱讀 48,332評論 3贊 373
代替公主和親
正文我出身青樓弦叶，卻偏偏與公主長得像，于是被迫代替她去往敵國和親妇多。傳聞我的和親對象是個殘疾皇子伤哺，可洞房花燭夜當晚...
茶點故事閱讀 45,044評論 2贊 355

Python處理驗證碼：基于PIL和Tesseract的數(shù)字計算識別處理思路

推薦閱讀更多精彩內(nèi)容