Python處理驗證碼:基于PIL和Tesseract的數(shù)字計算識別處理思路

image

如圖卜壕,我們在使用python自動化的時候經(jīng)常會遇到很多各式各樣的驗證碼。這個是一個數(shù)字加法的驗證碼蛔六。
干擾項里包含完整的數(shù)字荆永、字母信息,普通的OCR識別可能不是很準確国章。
但是不管怎么樣具钥,咱們先把必要的環(huán)境搭建起來,試一下Tesseract的識別結(jié)果吧液兽。

很多人學習python骂删,不知道從何學起。
很多人學習python四啰,掌握了基本語法過后宁玫,不知道在哪里尋找案例上手。
很多已經(jīng)做案例的人柑晒,卻不知道如何去學習更加高深的知識欧瘪。
那么針對這三類人,我給大家提供一個好的學習平臺敦迄,免費領(lǐng)取視頻教程恋追,電子書籍,以及課程的源代碼罚屋!
QQ群:701698587
歡迎加入苦囱,一起討論 一起學習!
  • 1脾猛、安裝Tesseract:

首先需要下載Tesseract的安裝包 官方網(wǎng)址:
https://digi.bib.uni-mannheim.de/tesseract/撕彤,網(wǎng)上的教程很多推薦安裝名稱里不帶dev的正式版,據(jù)說更穩(wěn)定

  • 配置Tesseract:

安裝完畢之后需要配置一下環(huán)境變量猛拴,分為兩步:
1羹铅、在path里加入安裝路徑,及安裝路徑內(nèi)的tessdata文件夾路徑愉昆。

image

2职员、新建系統(tǒng)變量{TESSDATA_PREFIX:E:\Program Files (x86)\Tesseract-OCR\tessdata} 這里變量名是固定的TESSDATA_PREFIX,值是剛剛提到的安裝路徑內(nèi)下一級tessdata文件夾的完整路徑

image

[圖片上傳失敗...(image-8ec71a-1631336567614)]

然后命令行里 安裝pytesseract:

pip install pytesseract

完成以上步驟之后跛溉,請重新啟動電腦焊切。

  • 圖片無法處理識別:

直接調(diào)用ocr識別出結(jié)果的話,只需要3行代碼:

import pytesseract
text = pytesseract.image_to_string('圖片路徑或者內(nèi)存的圖片對象')
print(text)

但是對于這個驗證碼的效果不是非常好芳室,比如:

image
image
image

要么是沒有結(jié)果专肪,要么就是一堆亂七八糟的東西。
這樣肯定是用不了的
那么只能先處理一下圖片了

  • 圖片處理識別:

我下載了20張這個網(wǎng)站的二維碼堪侯,發(fā)現(xiàn)了以下規(guī)律:
1嚎尤、驗證碼內(nèi)容一定包含“ = 2位數(shù)字+2位數(shù)字”的
2、驗證碼內(nèi)容的顏色是隨機的伍宦。
3芽死、驗證碼內(nèi)容的位置應(yīng)該是固定的(20張圖片的加號都在同一位置)
4乏梁、驗證碼圖片的干擾內(nèi)容包含字母、數(shù)字收奔、符號
5掌呜、驗證碼圖片的干擾內(nèi)容顏色沒有跟主要內(nèi)容一模一樣滓玖,但是每張圖的干擾項一定包含主要內(nèi)容顏色相近的部分坪哄。

image

可以看到,根據(jù)字體的不同势篡,顯示的時候翩肌,主干是棕色的,但是構(gòu)成這個字的邊緣顏色是稍微淡一些的禁悠。不過20張圖里都沒有發(fā)現(xiàn)有干擾項的顏色跟主要內(nèi)容顏色一模一樣念祭。
所以我的想法是因為存在主干的近似色,所以主要的濾波手段可能導(dǎo)致把圖片變得更難處理的可能性碍侦,所以不如直接獲取主干顏色粱坤,其他像素不是主干顏色的全部以白色替代,刪除干擾項之后再進行識別瓷产。
主干顏色可以使用固定的加號的正中間那一點的坐標獲取站玄。(80,23)(80濒旦,24)

[圖片上傳失敗...(image-7a4a97-1631336567614)]

Python代碼如下:

# -*- coding: utf-8 -*-
"""
Created on Wed Apr 14 16:23:47 2021

@author: roshinntou
"""

from PIL import Image
import pytesseract

def images_to_string(index):
    #導(dǎo)入圖片株旷,抓取的時候可以直接獲取io流
    img1= Image.open('index ('+str(index)+').png')

    #獲取圖片的長寬
    w,h = img1.size
    print('Original image size: %sx%s' % (w, h))

    '''
    因為是PNG圖片,像素不是直接以RGB保存的尔邓,PNG的每個像素里還有透明度
    我們不需要處理透明度晾剖,tesseract對于白色和不透明的識別是一樣的,這里就轉(zhuǎn)成RGB
    如果圖片是jpg的梯嗽,可以直接使用齿尽,不需要 convert
    '''
    img1rbg = img1.convert('RGB')

    #讀取全部的像素數(shù)據(jù)
    src_strlist = img1rbg.load()

    #獲取主干顏色
    data = src_strlist[80,23]
    print(data)

    #雙層循環(huán)開始替換全部的像素點顏色
    for x in range(0,w):
        for y in range(0,h):
            #判斷當前點顏色是否等于主干顏色
            co = src_strlist[x,y]
            if co !=data:
                src_strlist[x,y] = (245, 245, 255)

    #直接調(diào)用內(nèi)存里的PIL image對象進行圖片識別
    text = pytesseract.image_to_string(img1rbg)
    text = text.replace(" ","").replace("\r\n","").replace(" ","").replace("\r","").replace("\n","")
    #打印結(jié)果
    print(text)

    #保存圖片
    img1rbg.save(text+'.png')

if __name__ == '__main__':
    for i in range(1,21):
        images_to_string(i)

image

文件如下:

QQ圖片20210911130556.png

結(jié)語:
準確率我大概看了一下,應(yīng)該是100%的灯节。以上算是成功破解了對方網(wǎng)站的驗證碼循头。
驗證碼的識別整體思路應(yīng)該就是這樣子了,當然我舉得例子是比較簡單的驗證碼显晶。還有各種麻煩的驗證碼贷岸,未來可能需要用到截取、卷積磷雇、濾波偿警、清洗等等方法,需要根據(jù)實際的情況靈活地使用唯笙,但是整體的思路就是: 找到驗證碼規(guī)律螟蒸,根據(jù)規(guī)律清洗干擾噪點盒使,然后識別。希望可以啟發(fā)到大家七嫌。
最后的最后少办,現(xiàn)在已經(jīng)可以獲取驗證碼的字符串了,計算結(jié)果非常簡單我就不做了诵原。有興趣的可以試試英妓,我會把所有圖片、源代碼打包绍赛,大家可以下載試一下蔓纠。 Tesseract安裝的時候,系統(tǒng)變量哪里2步都不能少吗蚌,少一個程序執(zhí)行就會報錯腿倚,切記

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蚯妇,隨后出現(xiàn)的幾起案子敷燎,更是在濱河造成了極大的恐慌,老刑警劉巖箩言,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件硬贯,死亡現(xiàn)場離奇詭異,居然都是意外死亡分扎,警方通過查閱死者的電腦和手機澄成,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來畏吓,“玉大人墨状,你說我怎么就攤上這事》票” “怎么了肾砂?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長宏悦。 經(jīng)常有香客問我镐确,道長,這世上最難降的妖魔是什么饼煞? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任源葫,我火速辦了婚禮,結(jié)果婚禮上砖瞧,老公的妹妹穿的比我還像新娘息堂。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布荣堰。 她就那樣靜靜地躺著床未,像睡著了一般。 火紅的嫁衣襯著肌膚如雪振坚。 梳的紋絲不亂的頭發(fā)上薇搁,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天,我揣著相機與錄音渡八,去河邊找鬼啃洋。 笑死,一個胖子當著我的面吹牛呀狼,可吹牛的內(nèi)容都是我干的裂允。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼哥艇,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了僻澎?” 一聲冷哼從身側(cè)響起貌踏,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎窟勃,沒想到半個月后祖乳,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡秉氧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年眷昆,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片汁咏。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡亚斋,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出攘滩,到底是詐尸還是另有隱情帅刊,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布漂问,位于F島的核電站赖瞒,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蚤假。R本人自食惡果不足惜栏饮,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望磷仰。 院中可真熱鬧袍嬉,春花似錦、人聲如沸芒划。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至泵殴,卻和暖如春涮帘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背笑诅。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工调缨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吆你。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓弦叶,卻偏偏與公主長得像,于是被迫代替她去往敵國和親妇多。 傳聞我的和親對象是個殘疾皇子伤哺,可洞房花燭夜當晚...
    茶點故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容