做爬蟲總會遇到各種各樣的反爬限制,反爬的第一道防線往往在登錄就出現(xiàn)了牡拇,為了限制爬蟲自動登錄魁瞪,各家使出了渾身解數(shù)穆律,所謂道高一尺魔高一丈。
今天分享個如何簡單處理滑動圖片的驗證碼的案例导俘。
類似這種拖動滑塊移動到圖片中缺口位置與之重合的登錄驗證在很多網(wǎng)站或者APP都比較常見峦耘,因為它對真實用戶體驗友好,容易識別旅薄。同時也能攔截掉大部分初級爬蟲辅髓。
作為一只python爬蟲,如何正確地自動完成這個驗證過程呢少梁?
先來分析下洛口,核心問題其實是要怎么樣找到目標(biāo)缺口的位置,一旦知道了位置凯沪,我們就可以借用selenium等工具完成拖動的操作第焰。
我們可以借用opencv來解決這個問題,主要步驟:
opencv 是什么妨马?
OpenCV(Open Source Computer Vision Library)是開放源代碼計算機(jī)視覺庫挺举,主要算法涉及圖像處理、計算機(jī)視覺和機(jī)器學(xué)習(xí)相關(guān)方法烘跺,可用于開發(fā)實時的圖像處理湘纵、計算機(jī)視覺以及模式識別程序。
直接安裝
pip install opencv-python
首先將圖片進(jìn)行高斯模糊處理滤淳,高斯模糊的主要作用是減少圖像的噪聲梧喷,用于預(yù)處理階段。
import cv2 as cv
image = cv.imread(image_path)
blurred = cv.GaussianBlur(image, (5, 5), 0)
cv.imshow("blurred", blurred)
處理后的效果
接著用Canny邊緣檢測到得到一個包含“窄邊界”的二值圖像娇钱。所謂二值圖像就是黑白圖伤柄,只有黑色和白色绊困。
canny = cv.Canny(blurred, 200, 400)
cv.imshow("canny", canny)
輪廓檢測
contours, hierarchy = cv.findContours(canny, cv.RETR_CCOMP, cv.CHAIN_APPROX_SIMPLE)
for i, contour in enumerate(contours): # 所有輪廓
x, y, w, h = cv.boundingRect(contour) # 外接矩形
cv.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)
cv.imshow('image', image)
找出所有的輪廓文搂,并用紅色線框?qū)⑵淅L制標(biāo)識出來了,看出來大大小小有幾十個輪廓
剩下的問題就好辦了秤朗,我們只需要對輪廓的面積或者周長范圍做限制煤蹭,就能過濾出目標(biāo)輪廓的位置, 前提是我們對目標(biāo)位置的輪廓大小是預(yù)先確定的取视。
for i, contour in enumerate(contours): # 所有輪廓
if 6000 < cv.contourArea(contour) <= 8000 and 300 < cv.arcLength(contour, True) < 500:
x, y, w, h = cv.boundingRect(contour) # 外接矩形
print(x, y, w, h)
cv.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)
cv.imshow('image', image)
# 找目標(biāo)缺口硝皂,第一個可能是滑塊
if x <= 200:
continue
return x + int(w / 2), 675
輪廓的面積大概是6000到8000之間,周長在300到500之間作谭, 最后用外接矩形獲取該輪廓圖的坐標(biāo)位置和寬高大小稽物。
如上就找到了目標(biāo)位置,剩下的工作就是將滑塊移動到指定位置即可
作者:Python之禪
原文鏈接:https://mp.weixin.qq.com/s/n2LtrXvf5U-vFoCCLHrjGg