使用機器學(xué)習(xí)建模進行圖片驗證碼識別

什么是機器學(xué)習(xí)蠢正?

聽到機器學(xué)習(xí)的名頭時曙咽,人們往往會一臉錯愕的聯(lián)想到類似《終結(jié)者》拉讯、《我涤浇,機器人》里的場景,但實際上的機器學(xué)習(xí)卻與之相差甚遠遂唧。

機器學(xué)習(xí)實際上更像是統(tǒng)計模型訓(xùn)練或者算法模型訓(xùn)練芙代,通過訓(xùn)練模型和擬合數(shù)據(jù),讓模型去猜出結(jié)果盖彭。也就是說,機器學(xué)習(xí)的目標便是讓算法模擬智能页滚。

案例概述

驗證碼識別實際上難點并不在算法模型上召边,畢竟驗證碼千奇百怪,極難找到分布規(guī)律裹驰。這些分布規(guī)律也就是算法模型的維度隧熙,當一個模型的維度出現(xiàn)各式各樣的偏差時,模型本身一定是會受到影響的幻林。所以說本文的難點問題便是驗證碼的字符的清洗與分割贞盯。

依賴庫

import os
import time
import random
import threading
import joblib
import numpy as np
from PIL import Image, ImageFilter
from concurrent.futures import ThreadPoolExecutor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from captcha.image import ImageCaptcha
  • os模塊主要用于文件夾操作
  • time模塊用于計算時間戳等操作
  • random隨機數(shù)模塊
  • threading線程模塊
  • joblib模塊用于打包模型
  • numpy主要用于數(shù)值化圖片
  • PTL圖像處理模塊
  • ThreadPoolExecutor線程池
  • KNeighborsClassifier即knn算法模型
  • train_test_split用于分割數(shù)據(jù)集
  • ImageCaptcha用于生成驗證碼圖片

清洗圖片

關(guān)于驗證碼的生成部分,由于并非本文核心沪饺,在此處不做多余贅述躏敢,詳情請看下方的代碼鏈接:

https://github.com/macxin123/verification_code_identification/blob/master/make_code.py

關(guān)于圖片的請洗,一般都要經(jīng)歷這么幾個過程:灰度圖處理整葡、黑白圖像處理件余、中值濾波處理。

  • 灰度圖處理

    原圖

    由于驗證碼大部分都是顏色不統(tǒng)一的遭居,所有說第1步便是將其顏色歸一啼器。

    from PIL import Image
    
    # 讀取圖片
    img = Image.open('./img.jpg')
    # 將圖片轉(zhuǎn)換為灰度圖
    img_l = img.convert('L')
    

    convert方法即可將圖像調(diào)整為灰度圖。

    可調(diào)用img_l.show()查看俱萍。

    灰度圖
  • 黑白圖像處理

    當圖片被轉(zhuǎn)換成數(shù)組時端壳,數(shù)組中的每個數(shù)值都是一個像素,當這個數(shù)值越大時枪蘑,代表這個像素顏色越深损谦。

    # 將灰度圖轉(zhuǎn)換為數(shù)組形式
    img_arr = np.array(img_l)
    # 求出該數(shù)組的平均值
    means = img_arr.mean() 
    # 調(diào)整平均值,作為清洗參數(shù)
    if means > 227:
        means = means + 30
    # 清洗灰度圖中的“雀斑”
    img_clean = img_l.point(lambda i: i>means-40, mode='1')
    

    將圖像數(shù)組化后腥寇,取數(shù)組的平均值作為黑白化的閾值成翩,通過point方法進行調(diào)整,這個閾值最好是根據(jù)實際情況進行調(diào)整赦役,不必死磕麻敌。

    調(diào)整后的圖片
  • 中值濾波處理

    MedianFilter為PIL庫的中值濾波器,該方法會以size為像素點中心掂摔,選擇中值像素作為新值术羔。

    # 使用中值濾波再次清洗
    img_end = img_clean.filter(ImageFilter.MedianFilter(size=3))
    

    因為要照顧到所有樣本圖片赢赊,導(dǎo)致中值濾波對部分圖片只能起到“雀斑”優(yōu)化的作用,而不能完全剔除级历。

    中值濾波

    也可選用最大值濾波器MaxFilter释移,效果如下:

    最大值濾波

    關(guān)于使用何種濾波器,需要根據(jù)實際情況權(quán)衡使用寥殖。

分割圖片

完成了圖像請洗的階段后玩讳,我們需要將圖片中的字符分割出來,即后續(xù)的識別是進行單個字符的識別嚼贡。如果使用整張驗證碼進行訓(xùn)練熏纯,那么可能需要十分龐大的數(shù)據(jù)集,這其中的算法復(fù)雜度也會大幅度提升粤策。

本案例的數(shù)據(jù)集最麻煩的一點在于樟澜,驗證碼直接的間隔基本上是隨機的,甚至還有撞在一起的叮盘,這就令人十分頭痛秩贰,甚至勸退,畢竟柔吼,就是用來惡心爬蟲工程師的毒费。不過辦法總比困難多,畢竟Google嚷堡、stackoverflow上的大神們還是蠻多的蝗罗。

# 是否為開始位置
inletter = False
# 是否為結(jié)束位置
foundletter = False
# 開始位置的x坐標
start = 0
# 結(jié)束位置的x坐標
end = 0
# 存儲分割位置的列表
letters = list()
# 遍歷圖片中的像素點,進行切割位置識別
for x in range(img.size[0]):
    for y in range(img.size[1]):
        pix = img.getpixel((x, y))
        if pix != 1:
            inletter = True
    if foundletter == False and inletter == True:
        foundletter = True
        start = x
    if foundletter == True and inletter == False:
        foundletter = False
        end = x
        letters.append((start, end))
    inletter = False

上述代碼中蝌戒,內(nèi)層的for循環(huán)相當于是遍歷圖片中的列像素串塑,如果此列存在不為1的像素,也就是非白色北苟,則判定為起點切割位置桩匪,直到遇見整列為白色像素的列,判定為終點位置友鼻。

# 存儲篩選后分割位置的列表
real_letters = list()
# 切割后的圖片寬度小于15傻昙,大概率為沒有清洗好的像素點,所以直接舍棄
for n in letters:
    if abs(n[0] - n[1]) > 15:
        real_letters.append(n)

由于圖片中只有4個字符彩扔,但因為“雀斑”的存在妆档,可能會多劃分出好幾塊,所有需要上述代碼進行判定舍棄虫碉。

不過心細的小伙伴會發(fā)現(xiàn)贾惦,此處還存在一個bug:如果兩個字符連在一起,那是不是就區(qū)分不出來了?

確實须板,上述算法無法判定出已連接的兩個字符碰镜,所有還需要下列代碼去進行判定。

def max_pro(x):
    """
    返回兩點間的絕對值距離
    """
    return abs(x[0] - x[1])
# 如果real_letters為3习瑰,代碼有2個字符被分割到了一起
if len(real_letters) == 3:
    res = max(real_letters, key=max_pro)
    res_index = real_letters.index(res)
    le = list()
    for i in range(4):
        if len(le) == 4:
            break
        if i == res_index:
            # 再次分割圖片
            ca = round(abs(real_letters[i][1] - real_letters[i][0]) / 2)
            le.append((real_letters[i][0], real_letters[i][0] + ca))
            le.append((real_letters[i][0] + ca +1, real_letters[i][1]))
        else:
            le.append(real_letters[i])     
    real_letters = le
# 如果real_letters為2绪颖,代碼有3個字符被分割到了一起
elif len(real_letters) == 2:
    res = max(real_letters, key=max_pro)
    res_index = real_letters.index(res)
    le = list()
    for i in range(4):
        if len(le) == 4:
            break
        if i == res_index:
            # 再次分割圖片
            ca = round(abs(real_letters[i][1] - real_letters[i][0]) / 3)
            le.append((real_letters[i][0], real_letters[i][0] + ca))
            le.append((real_letters[i][0] + ca + 1, real_letters[i][0] + ca + ca))
            le.append((real_letters[i][0] + ca + ca +1, real_letters[i][1]))
        else:
            le.append(real_letters[i])     
    real_letters = le
# 4為正確分割,此時什么都不用做
elif len(real_letters) == 4:
    pass
# 出現(xiàn)其他情況甜奄,則放棄該驗證碼
else:
    return None

上述代碼的核心即柠横,根據(jù)列表中的數(shù)量的不同,選擇最寬的那段進行平均切割贺嫂。(缺幾塊滓鸠,分幾份)

有了分割位置的列表,就可以開始切圖了第喳。

# 文件名(驗證碼內(nèi)容)
filename = img.filename.rsplit('.')[1].rsplit('/')[-1]

for i, v in enumerate(real_letters):
    # 切割的起始橫坐標,起始縱坐標踱稍,切割的寬度曲饱,切割的高度
    img_split = img.crop((v[0], 0, v[1], img.size[1]))
    # 將圖片size進行統(tǒng)一
    i_m_g = img_split.resize((40, 60), Image.ANTIALIAS)
    # windows文件夾名不區(qū)分大小寫,所以文件夾名需要更改
    if filename[i].isupper():
        dir_name = filename[i] + '_Upper'
        i_m_g.save(f'./chars/{dir_name}/{filename[i] + str(random.randint(1, 999)) + str(time.time())[:8]}.jpg')
    else:
        i_m_g.save(f'./chars/{filename[i]}/{filename[i] + str(random.randint(1, 999)) + str(time.time())[-6:]}.jpg')

保存圖片的時候有一個坑需要注意一下珠月,那就是關(guān)于文件夾的命名問題扩淀,a文件夾和A文件夾是一個文件夾
,即windows文件夾名稱是不區(qū)分大小寫的啤挎,這點需要特別注意一下驻谆。

還有就是圖片大小的問題,需要通過resize方法進行size的統(tǒng)一庆聘,否則會導(dǎo)致數(shù)據(jù)集的偏差過大胜臊。

分割好的圖片數(shù)據(jù)

KNN分類算法

KNN最近鄰算法是一種非常簡單易懂的算法,使用“距離”進行度量伙判,通過“多數(shù)表決”進行分類象对。可以解決有監(jiān)督學(xué)習(xí)的分類問題宴抚、回歸問題勒魔、以及無監(jiān)督學(xué)習(xí)等多個領(lǐng)域的問題,適用范圍較廣菇曲。本文的算法模型將使用KNN進行驗證碼識別模型訓(xùn)練冠绢。

訓(xùn)練模型

訓(xùn)練模型前,我們需要先將圖片數(shù)值化常潮,以便進行運算弟胀,之后再劃分訓(xùn)練集和測試集。

# 數(shù)據(jù)
data = list()
# 標簽
label = list()
# 圖片路徑
path = './chars/'
dir_list = os.listdir(path)

for p in dir_list:
    dir_path = path + p + '/'
    lst = os.listdir(dir_path)
    for jpg in lst:
        img = Image.open(dir_path + jpg)
        filename = img.filename.rsplit('/')[-1].split('.')[0][0]
        label.append(list(filename))
        img_arr = np.array(img).tolist()
        xx = list()
        for arr in img_arr:
            for a in arr:
                xx.append(a)
        data.append(xx)

使用sklearn自帶的train_test_split方法自動劃分訓(xùn)練集和測試集。

# 測試集占比30%
x_train, x_test, y_train, y_test = train_test_split(x_list, y_list, test_size=0.3, random_state=12)

接下來邮利,便是直接開始訓(xùn)練模型了弥雹。

# 實例化knn算法模型
knn = KNeighborsClassifier()
# 訓(xùn)練數(shù)據(jù)
knn.fit(x_train, y_train)
# 測試準確率
score = knn.score(x_test, y_test)

此時,我們最好通過更換K值測試最優(yōu)的算法模型延届,當然剪勿,此處使用KNN也并不是最優(yōu)解,作者測試準確率時方庭,僅有70%左右的準確率厕吉。

最后一步,便是保存我們的算法模型了械念。

joblib.dump(knn, './knn_model.pkl')

結(jié)語

寫到最后的一刻我是有些崩潰的头朱,因為處理了很多意料之外的麻煩,再加上最后的準確率只有7成龄减,實在讓人勸退项钮。

一直到最后我都在問自己,難道是CNN不香了嘛希停?烁巫??即便是CNN不香宠能,那打碼平臺也不香嘛亚隙??违崇?

沒辦法阿弃,自己挖的坑還是得自己填。不過呢羞延,在實際工作中渣淳,尤其是爬蟲程序中遇見圖片驗證碼時,還是建議使用打碼平臺或者使用深度學(xué)習(xí)算法去建模肴楷。

關(guān)于這個驗證碼識別腳本的全部代碼水由,請參考下面的GitHub鏈接:

https://github.com/macxin123/verification_code_identification

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市赛蔫,隨后出現(xiàn)的幾起案子砂客,更是在濱河造成了極大的恐慌,老刑警劉巖呵恢,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鞠值,死亡現(xiàn)場離奇詭異,居然都是意外死亡渗钉,警方通過查閱死者的電腦和手機彤恶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進店門钞钙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人声离,你說我怎么就攤上這事芒炼。” “怎么了术徊?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵本刽,是天一觀的道長。 經(jīng)常有香客問我赠涮,道長子寓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任笋除,我火速辦了婚禮斜友,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘垃它。我一直安慰自己鲜屏,他們只是感情好,可當我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布国拇。 她就那樣靜靜地躺著墙歪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪贝奇。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天靠胜,我揣著相機與錄音掉瞳,去河邊找鬼。 笑死浪漠,一個胖子當著我的面吹牛陕习,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播址愿,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼该镣,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了响谓?” 一聲冷哼從身側(cè)響起损合,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎娘纷,沒想到半個月后嫁审,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡赖晶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年律适,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡捂贿,死狀恐怖纠修,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情厂僧,我是刑警寧澤扣草,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站吁系,受9級特大地震影響德召,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜汽纤,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一上岗、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蕴坪,春花似錦肴掷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至径玖,卻和暖如春痴脾,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背梳星。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工赞赖, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人冤灾。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓前域,卻偏偏與公主長得像,于是被迫代替她去往敵國和親韵吨。 傳聞我的和親對象是個殘疾皇子匿垄,可洞房花燭夜當晚...
    茶點故事閱讀 43,728評論 2 351