什么是機器學(xué)習(xí)蠢正?
聽到機器學(xué)習(xí)的名頭時曙咽,人們往往會一臉錯愕的聯(lián)想到類似《終結(jié)者》拉讯、《我涤浇,機器人》里的場景,但實際上的機器學(xué)習(xí)卻與之相差甚遠遂唧。
機器學(xué)習(xí)實際上更像是統(tǒng)計模型訓(xùn)練或者算法模型訓(xùn)練芙代,通過訓(xùn)練模型和擬合數(shù)據(jù),讓模型去猜出結(jié)果盖彭。也就是說,機器學(xué)習(xí)的目標便是讓算法模擬智能页滚。
案例概述
驗證碼識別實際上難點并不在算法模型上召边,畢竟驗證碼千奇百怪,極難找到分布規(guī)律裹驰。這些分布規(guī)律也就是算法模型的維度隧熙,當一個模型的維度出現(xiàn)各式各樣的偏差時,模型本身一定是會受到影響的幻林。所以說本文的難點問題便是驗證碼的字符的清洗與分割贞盯。
依賴庫
import os
import time
import random
import threading
import joblib
import numpy as np
from PIL import Image, ImageFilter
from concurrent.futures import ThreadPoolExecutor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from captcha.image import ImageCaptcha
-
os
模塊主要用于文件夾操作 -
time
模塊用于計算時間戳等操作 -
random
隨機數(shù)模塊 -
threading
線程模塊 -
joblib
模塊用于打包模型 -
numpy
主要用于數(shù)值化圖片 -
PTL
圖像處理模塊 -
ThreadPoolExecutor
線程池 -
KNeighborsClassifier
即knn算法模型 -
train_test_split
用于分割數(shù)據(jù)集 -
ImageCaptcha
用于生成驗證碼圖片
清洗圖片
關(guān)于驗證碼的生成部分,由于并非本文核心沪饺,在此處不做多余贅述躏敢,詳情請看下方的代碼鏈接:
https://github.com/macxin123/verification_code_identification/blob/master/make_code.py
關(guān)于圖片的請洗,一般都要經(jīng)歷這么幾個過程:灰度圖處理整葡、黑白圖像處理件余、中值濾波處理。
-
灰度圖處理
由于驗證碼大部分都是顏色不統(tǒng)一的遭居,所有說第1步便是將其顏色歸一啼器。
from PIL import Image # 讀取圖片 img = Image.open('./img.jpg') # 將圖片轉(zhuǎn)換為灰度圖 img_l = img.convert('L')
convert
方法即可將圖像調(diào)整為灰度圖。可調(diào)用
img_l.show()
查看俱萍。
-
黑白圖像處理
當圖片被轉(zhuǎn)換成數(shù)組時端壳,數(shù)組中的每個數(shù)值都是一個像素,當這個數(shù)值越大時枪蘑,代表這個像素顏色越深损谦。
# 將灰度圖轉(zhuǎn)換為數(shù)組形式 img_arr = np.array(img_l) # 求出該數(shù)組的平均值 means = img_arr.mean() # 調(diào)整平均值,作為清洗參數(shù) if means > 227: means = means + 30 # 清洗灰度圖中的“雀斑” img_clean = img_l.point(lambda i: i>means-40, mode='1')
將圖像數(shù)組化后腥寇,取數(shù)組的平均值作為黑白化的閾值成翩,通過point方法進行調(diào)整,這個閾值最好是根據(jù)實際情況進行調(diào)整赦役,不必死磕麻敌。
-
中值濾波處理
MedianFilter
為PIL庫的中值濾波器,該方法會以size為像素點中心掂摔,選擇中值像素作為新值术羔。# 使用中值濾波再次清洗 img_end = img_clean.filter(ImageFilter.MedianFilter(size=3))
因為要照顧到所有樣本圖片赢赊,導(dǎo)致中值濾波對部分圖片只能起到“雀斑”優(yōu)化的作用,而不能完全剔除级历。
也可選用最大值濾波器
MaxFilter
释移,效果如下:關(guān)于使用何種濾波器,需要根據(jù)實際情況權(quán)衡使用寥殖。
分割圖片
完成了圖像請洗的階段后玩讳,我們需要將圖片中的字符分割出來,即后續(xù)的識別是進行單個字符的識別嚼贡。如果使用整張驗證碼進行訓(xùn)練熏纯,那么可能需要十分龐大的數(shù)據(jù)集,這其中的算法復(fù)雜度也會大幅度提升粤策。
本案例的數(shù)據(jù)集最麻煩的一點在于樟澜,驗證碼直接的間隔基本上是隨機的,甚至還有撞在一起的叮盘,這就令人十分頭痛秩贰,甚至勸退,畢竟柔吼,就是用來惡心爬蟲工程師的毒费。不過辦法總比困難多,畢竟Google嚷堡、stackoverflow上的大神們還是蠻多的蝗罗。
# 是否為開始位置
inletter = False
# 是否為結(jié)束位置
foundletter = False
# 開始位置的x坐標
start = 0
# 結(jié)束位置的x坐標
end = 0
# 存儲分割位置的列表
letters = list()
# 遍歷圖片中的像素點,進行切割位置識別
for x in range(img.size[0]):
for y in range(img.size[1]):
pix = img.getpixel((x, y))
if pix != 1:
inletter = True
if foundletter == False and inletter == True:
foundletter = True
start = x
if foundletter == True and inletter == False:
foundletter = False
end = x
letters.append((start, end))
inletter = False
上述代碼中蝌戒,內(nèi)層的for
循環(huán)相當于是遍歷圖片中的列像素串塑,如果此列存在不為1的像素,也就是非白色北苟,則判定為起點切割位置桩匪,直到遇見整列為白色像素的列,判定為終點位置友鼻。
# 存儲篩選后分割位置的列表
real_letters = list()
# 切割后的圖片寬度小于15傻昙,大概率為沒有清洗好的像素點,所以直接舍棄
for n in letters:
if abs(n[0] - n[1]) > 15:
real_letters.append(n)
由于圖片中只有4個字符彩扔,但因為“雀斑”的存在妆档,可能會多劃分出好幾塊,所有需要上述代碼進行判定舍棄虫碉。
不過心細的小伙伴會發(fā)現(xiàn)贾惦,此處還存在一個bug:如果兩個字符連在一起,那是不是就區(qū)分不出來了?
確實须板,上述算法無法判定出已連接的兩個字符碰镜,所有還需要下列代碼去進行判定。
def max_pro(x):
"""
返回兩點間的絕對值距離
"""
return abs(x[0] - x[1])
# 如果real_letters為3习瑰,代碼有2個字符被分割到了一起
if len(real_letters) == 3:
res = max(real_letters, key=max_pro)
res_index = real_letters.index(res)
le = list()
for i in range(4):
if len(le) == 4:
break
if i == res_index:
# 再次分割圖片
ca = round(abs(real_letters[i][1] - real_letters[i][0]) / 2)
le.append((real_letters[i][0], real_letters[i][0] + ca))
le.append((real_letters[i][0] + ca +1, real_letters[i][1]))
else:
le.append(real_letters[i])
real_letters = le
# 如果real_letters為2绪颖,代碼有3個字符被分割到了一起
elif len(real_letters) == 2:
res = max(real_letters, key=max_pro)
res_index = real_letters.index(res)
le = list()
for i in range(4):
if len(le) == 4:
break
if i == res_index:
# 再次分割圖片
ca = round(abs(real_letters[i][1] - real_letters[i][0]) / 3)
le.append((real_letters[i][0], real_letters[i][0] + ca))
le.append((real_letters[i][0] + ca + 1, real_letters[i][0] + ca + ca))
le.append((real_letters[i][0] + ca + ca +1, real_letters[i][1]))
else:
le.append(real_letters[i])
real_letters = le
# 4為正確分割,此時什么都不用做
elif len(real_letters) == 4:
pass
# 出現(xiàn)其他情況甜奄,則放棄該驗證碼
else:
return None
上述代碼的核心即柠横,根據(jù)列表中的數(shù)量的不同,選擇最寬的那段進行平均切割贺嫂。(缺幾塊滓鸠,分幾份)
有了分割位置的列表,就可以開始切圖了第喳。
# 文件名(驗證碼內(nèi)容)
filename = img.filename.rsplit('.')[1].rsplit('/')[-1]
for i, v in enumerate(real_letters):
# 切割的起始橫坐標,起始縱坐標踱稍,切割的寬度曲饱,切割的高度
img_split = img.crop((v[0], 0, v[1], img.size[1]))
# 將圖片size進行統(tǒng)一
i_m_g = img_split.resize((40, 60), Image.ANTIALIAS)
# windows文件夾名不區(qū)分大小寫,所以文件夾名需要更改
if filename[i].isupper():
dir_name = filename[i] + '_Upper'
i_m_g.save(f'./chars/{dir_name}/{filename[i] + str(random.randint(1, 999)) + str(time.time())[:8]}.jpg')
else:
i_m_g.save(f'./chars/{filename[i]}/{filename[i] + str(random.randint(1, 999)) + str(time.time())[-6:]}.jpg')
保存圖片的時候有一個坑需要注意一下珠月,那就是關(guān)于文件夾的命名問題扩淀,a文件夾和A文件夾是一個文件夾
,即windows文件夾名稱是不區(qū)分大小寫的啤挎,這點需要特別注意一下驻谆。
還有就是圖片大小的問題,需要通過resize
方法進行size的統(tǒng)一庆聘,否則會導(dǎo)致數(shù)據(jù)集的偏差過大胜臊。
KNN分類算法
KNN最近鄰算法是一種非常簡單易懂的算法,使用“距離”進行度量伙判,通過“多數(shù)表決”進行分類象对。可以解決有監(jiān)督學(xué)習(xí)的分類問題宴抚、回歸問題勒魔、以及無監(jiān)督學(xué)習(xí)等多個領(lǐng)域的問題,適用范圍較廣菇曲。本文的算法模型將使用KNN進行驗證碼識別模型訓(xùn)練冠绢。
訓(xùn)練模型
訓(xùn)練模型前,我們需要先將圖片數(shù)值化常潮,以便進行運算弟胀,之后再劃分訓(xùn)練集和測試集。
# 數(shù)據(jù)
data = list()
# 標簽
label = list()
# 圖片路徑
path = './chars/'
dir_list = os.listdir(path)
for p in dir_list:
dir_path = path + p + '/'
lst = os.listdir(dir_path)
for jpg in lst:
img = Image.open(dir_path + jpg)
filename = img.filename.rsplit('/')[-1].split('.')[0][0]
label.append(list(filename))
img_arr = np.array(img).tolist()
xx = list()
for arr in img_arr:
for a in arr:
xx.append(a)
data.append(xx)
使用sklearn自帶的train_test_split
方法自動劃分訓(xùn)練集和測試集。
# 測試集占比30%
x_train, x_test, y_train, y_test = train_test_split(x_list, y_list, test_size=0.3, random_state=12)
接下來邮利,便是直接開始訓(xùn)練模型了弥雹。
# 實例化knn算法模型
knn = KNeighborsClassifier()
# 訓(xùn)練數(shù)據(jù)
knn.fit(x_train, y_train)
# 測試準確率
score = knn.score(x_test, y_test)
此時,我們最好通過更換K值測試最優(yōu)的算法模型延届,當然剪勿,此處使用KNN也并不是最優(yōu)解,作者測試準確率時方庭,僅有70%左右的準確率厕吉。
最后一步,便是保存我們的算法模型了械念。
joblib.dump(knn, './knn_model.pkl')
結(jié)語
寫到最后的一刻我是有些崩潰的头朱,因為處理了很多意料之外的麻煩,再加上最后的準確率只有7成龄减,實在讓人勸退项钮。
一直到最后我都在問自己,難道是CNN不香了嘛希停?烁巫??即便是CNN不香宠能,那打碼平臺也不香嘛亚隙??违崇?
沒辦法阿弃,自己挖的坑還是得自己填。不過呢羞延,在實際工作中渣淳,尤其是爬蟲程序中遇見圖片驗證碼時,還是建議使用打碼平臺或者使用深度學(xué)習(xí)算法去建模肴楷。
關(guān)于這個驗證碼識別腳本的全部代碼水由,請參考下面的GitHub鏈接:
https://github.com/macxin123/verification_code_identification