目標(biāo)網(wǎng)站:http://www.cnbaowen.net/api/geetest/
該目標(biāo)網(wǎng)站調(diào)用了極驗(yàn)的接口揩魂,極驗(yàn)在智能反爬蟲(chóng)的領(lǐng)域可以說(shuō)相當(dāng)之變態(tài).
本文主要是利用selenium進(jìn)行模擬操作進(jìn)行破解。
3第一步:分析頁(yè)面
-
首先陋桂,鼠標(biāo)懸停,會(huì)出現(xiàn)驗(yàn)證碼圖片,此時(shí)并沒(méi)有請(qǐng)求服務(wù)器
-
鼠標(biāo)點(diǎn)擊按住乍迄,會(huì)出現(xiàn)缺口
可以看出這是兩張圖片蔬芥,那這兩張圖片是如何生成的呢?
當(dāng)訪問(wèn)該頁(yè)面時(shí)冒签,該頁(yè)面會(huì)調(diào)用極驗(yàn)的接口在抛,返回兩張圖片。
這兩張圖片一張是有缺口的圖片萧恕,一張是無(wú)缺口的圖片
有缺口圖片:
無(wú)缺口圖片:
可以看出刚梭,這是兩張亂序的圖片,那么是如何排序排好的呢票唆?
通過(guò)前端代碼朴读,我們可以看到圖片是有一定順序的,
按照background-position的形式走趋,把亂序的52張小的圖片衅金,進(jìn)行位置排列,
最終得出正序的完整大圖吆视。
每一張圖片的寬度是12px典挑,高度是58px
ok,那接下來(lái)我們就要獲取圖片
獲取的是亂序的圖片啦吧,所以我們得把圖片按照上圖邏輯進(jìn)行切割您觉,
然后進(jìn)行排序合并,即可得到完整的正序圖片授滓。
兩張圖片的邏輯是一樣的琳水。
def merge_image(image_file,location_list):
"""
拼接圖片
:param image_file:
:param location_list:
:return:
"""
im = Image.open(image_file)
im.save('code.jpg')
new_im = Image.new('RGB',(260,116))
# 把無(wú)序的圖片 切成52張小圖片
im_list_upper = []
im_list_down = []
# print(location_list)
for location in location_list:
# print(location['y'])
if location['y'] == -58: # 上半邊
im_list_upper.append(im.crop((abs(location['x']),58,abs(location['x'])+10,116)))
if location['y'] == 0: # 下半邊
im_list_down.append(im.crop((abs(location['x']),0,abs(location['x'])+10,58)))
x_offset = 0
for im in im_list_upper:
new_im.paste(im,(x_offset,0)) # 把小圖片放到 新的空白圖片上
x_offset += im.size[0]
x_offset = 0
for im in im_list_down:
new_im.paste(im,(x_offset,58))
x_offset += im.size[0]
# new_im.show() # 獲取完整圖片
return new_im
拼接好的圖片見(jiàn)驗(yàn)證碼圖片即可
接下來(lái),我們要做的是對(duì)比兩張圖片般堆,計(jì)算出滑動(dòng)的距離(這里是通過(guò)像素差來(lái)判斷的在孝,注意噪點(diǎn)影響)
def get_distance(image1,image2):
'''
拿到滑動(dòng)驗(yàn)證碼需要移動(dòng)的距離
:param image1:沒(méi)有缺口的圖片對(duì)象
:param image2:帶缺口的圖片對(duì)象
:return:需要移動(dòng)的距離
'''
# print('size', image1.size)
threshold = 50
for i in range(0,image1.size[0]): # 260
for j in range(0,image1.size[1]): # 160
pixel1 = image1.getpixel((i,j))
pixel2 = image2.getpixel((i,j))
res_R = abs(pixel1[0]-pixel2[0]) # 計(jì)算RGB差
res_G = abs(pixel1[1] - pixel2[1]) # 計(jì)算RGB差
res_B = abs(pixel1[2] - pixel2[2]) # 計(jì)算RGB差
if res_R > threshold and res_G > threshold and res_B > threshold:
print(i)
return i+3 # 需要移動(dòng)的距離
獲取完距離之后,我們就可以移動(dòng)了淮摔。
移動(dòng)
因?yàn)闃O驗(yàn)做了行為驗(yàn)證私沮,所以我們得盡量模擬生物行為,防止被識(shí)別和橙。
所以這里我們的滑動(dòng)軌跡和滑動(dòng)速度等行為都進(jìn)行了控制
滑動(dòng)速度:加速公式:v = v0+at仔燕,到達(dá)重點(diǎn)控制讓加速變慢
滑動(dòng)軌跡:滑動(dòng)過(guò)程中讓鼠標(biāo)上下輕微抖動(dòng),不是平穩(wěn)的滑動(dòng)魔招。
def get_track(distance):
'''
拿到移動(dòng)軌跡晰搀,模仿人的滑動(dòng)行為,先勻加速后勻減速
勻變速運(yùn)動(dòng)基本公式:
①v=v0+at
②s=v0t+(1/2)at2
③v2-v02=2as
:param distance: 需要移動(dòng)的距離
:return: 存放每0.2秒移動(dòng)的距離
'''
# 初速度
v=0
# 單位時(shí)間為0.2s來(lái)統(tǒng)計(jì)軌跡办斑,軌跡即0.2內(nèi)的位移
t=0.2
# 位移/軌跡列表外恕,列表內(nèi)的一個(gè)元素代表0.2s的位移
tracks=[]
# 當(dāng)前的位移
current=0
# 到達(dá)mid值開(kāi)始減速
mid=distance * 7/8
distance += 10 # 先滑過(guò)一點(diǎn),最后再反著滑動(dòng)回來(lái)
# a = random.randint(1,3)
while current < distance:
if current < mid:
# 加速度越小,單位時(shí)間的位移越小,模擬的軌跡就越多越詳細(xì)
a = random.randint(2,5) # 加速運(yùn)動(dòng)
else:
a = -random.randint(5,10) # 減速運(yùn)動(dòng)
# 初速度
v0 = v
# 0.2秒時(shí)間內(nèi)的位移
s = v0*t+0.5*a*(t**2)
# 當(dāng)前的位置
current += s
# 添加到軌跡列表
tracks.append(round(s))
# 速度已經(jīng)達(dá)到v,該速度作為下次的初速度
v= v0+a*t
# 反著滑動(dòng)到大概準(zhǔn)確位置
for i in range(4):
tracks.append(-random.randint(2,3))
for i in range(4):
tracks.append(-random.randint(1,3))
return tracks
在這里鳞疲,我們加了一個(gè)糾錯(cuò)行為罪郊,就是滑動(dòng)過(guò)去一點(diǎn)再滑回來(lái),依然是為了防止極驗(yàn)識(shí)別建丧。
滑動(dòng)過(guò)程中鼠標(biāo)是拖住不松手的排龄,等動(dòng)作結(jié)束之后才能釋放鼠標(biāo)。這些selenium都有翎朱,大家可以自行查閱橄维。
- 最后,把完整源碼分享出來(lái)請(qǐng)大家指正拴曲,希望大家共同進(jìn)步
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait # 等待元素加載的
from selenium.webdriver.common.action_chains import ActionChains #拖拽
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from selenium.webdriver.common.by import By
from PIL import Image
import requests
import time
import re
import random
from io import BytesIO
success_time = 0
field_time = 0
def merge_image(image_file,location_list):
"""
拼接圖片
:param image_file:
:param location_list:
:return:
"""
im = Image.open(image_file)
im.save('code.jpg')
new_im = Image.new('RGB',(260,116))
# 把無(wú)序的圖片 切成52張小圖片
im_list_upper = []
im_list_down = []
# print(location_list)
for location in location_list:
# print(location['y'])
if location['y'] == -58: # 上半邊
im_list_upper.append(im.crop((abs(location['x']),58,abs(location['x'])+10,116)))
if location['y'] == 0: # 下半邊
im_list_down.append(im.crop((abs(location['x']),0,abs(location['x'])+10,58)))
x_offset = 0
for im in im_list_upper:
new_im.paste(im,(x_offset,0)) # 把小圖片放到 新的空白圖片上
x_offset += im.size[0]
x_offset = 0
for im in im_list_down:
new_im.paste(im,(x_offset,58))
x_offset += im.size[0]
# new_im.show() # 獲取完整圖片
return new_im
def get_image(driver,div_path):
'''
下載無(wú)序的圖片 然后進(jìn)行拼接 獲得完整的圖片
:param driver:
:param div_path:
:return:
'''
time.sleep(2)
background_images = driver.find_elements_by_xpath(div_path)
location_list = []
for background_image in background_images:
location = {}
result = re.findall('background-image: url\("(.*?)"\); background-position: (.*?)px (.*?)px;',background_image.get_attribute('style'))
# print(result)
location['x'] = int(result[0][1])
location['y'] = int(result[0][2])
image_url = result[0][0]
location_list.append(location)
print('==================================')
image_url = image_url.replace('webp','jpg')
# '替換url http://static.geetest.com/pictures/gt/579066de6/579066de6.webp'
image_result = requests.get(image_url).content
# with open('1.jpg','wb') as f:
# f.write(image_result)
image_file = BytesIO(image_result) # 是一張無(wú)序的圖片
image = merge_image(image_file,location_list)
return image
def get_track(distance):
'''
拿到移動(dòng)軌跡争舞,模仿人的滑動(dòng)行為,先勻加速后勻減速
勻變速運(yùn)動(dòng)基本公式:
①v=v0+at
②s=v0t+(1/2)at2
③v2-v02=2as
:param distance: 需要移動(dòng)的距離
:return: 存放每0.2秒移動(dòng)的距離
'''
# 初速度
v=0
# 單位時(shí)間為0.2s來(lái)統(tǒng)計(jì)軌跡澈灼,軌跡即0.2內(nèi)的位移
t=0.2
# 位移/軌跡列表竞川,列表內(nèi)的一個(gè)元素代表0.2s的位移
tracks=[]
# 當(dāng)前的位移
current=0
# 到達(dá)mid值開(kāi)始減速
mid=distance * 7/8
distance += 10 # 先滑過(guò)一點(diǎn),最后再反著滑動(dòng)回來(lái)
# a = random.randint(1,3)
while current < distance:
if current < mid:
# 加速度越小叁熔,單位時(shí)間的位移越小,模擬的軌跡就越多越詳細(xì)
a = random.randint(2,5) # 加速運(yùn)動(dòng)
else:
a = -random.randint(5,10) # 減速運(yùn)動(dòng)
# 初速度
v0 = v
# 0.2秒時(shí)間內(nèi)的位移
s = v0*t+0.5*a*(t**2)
# 當(dāng)前的位置
current += s
# 添加到軌跡列表
tracks.append(round(s))
# 速度已經(jīng)達(dá)到v,該速度作為下次的初速度
v= v0+a*t
# 反著滑動(dòng)到大概準(zhǔn)確位置
for i in range(4):
tracks.append(-random.randint(2,3))
for i in range(4):
tracks.append(-random.randint(1,3))
return tracks
def get_distance(image1,image2):
'''
拿到滑動(dòng)驗(yàn)證碼需要移動(dòng)的距離
:param image1:沒(méi)有缺口的圖片對(duì)象
:param image2:帶缺口的圖片對(duì)象
:return:需要移動(dòng)的距離
'''
# print('size', image1.size)
threshold = 50
for i in range(0,image1.size[0]): # 260
for j in range(0,image1.size[1]): # 160
pixel1 = image1.getpixel((i,j))
pixel2 = image2.getpixel((i,j))
res_R = abs(pixel1[0]-pixel2[0]) # 計(jì)算RGB差
res_G = abs(pixel1[1] - pixel2[1]) # 計(jì)算RGB差
res_B = abs(pixel1[2] - pixel2[2]) # 計(jì)算RGB差
if res_R > threshold and res_G > threshold and res_B > threshold:
print(i)
return i+3 # 需要移動(dòng)的距離
def main_check_code(driver, element):
"""
拖動(dòng)識(shí)別驗(yàn)證碼
:param driver:
:param element:
:return:
"""
image1 = get_image(driver, '//div[@class="gt_cut_bg gt_show"]/div')
image2 = get_image(driver, '//div[@class="gt_cut_fullbg gt_show"]/div')
# 圖片上 缺口的位置的x坐標(biāo)
# 2 對(duì)比兩張圖片的所有RBG像素點(diǎn)委乌,得到不一樣像素點(diǎn)的x值,即要移動(dòng)的距離
l = get_distance(image1, image2)
print('l=',l)
# 3 獲得移動(dòng)軌跡
track_list = get_track(l)
print('第一步,點(diǎn)擊滑動(dòng)按鈕')
ActionChains(driver).click_and_hold(on_element=element).perform() # 點(diǎn)擊鼠標(biāo)左鍵荣回,按住不放
print('首先遭贸,鼠標(biāo)先晃一晃')
time.sleep(1)
ActionChains(driver).move_by_offset(xoffset=200,yoffset=800).perform()
ActionChains(driver).move_by_offset(xoffset=-200,yoffset=-800).perform()
print('第二步,拖動(dòng)元素')
for track in track_list:
ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform() # 鼠標(biāo)移動(dòng)到距離當(dāng)前位置(x,y)
time.sleep(0.0001)
# if l>100:
ActionChains(driver).move_by_offset(xoffset=-random.randint(2,5), yoffset=0).perform()
time.sleep(2)
print('第三步,釋放鼠標(biāo)')
ActionChains(driver).release(on_element=element).perform()
time.sleep(5)
def main_check_slider(driver):
"""
檢查滑動(dòng)按鈕是否加載
:param driver:
:return:
"""
while True:
try :
driver.get('http://www.cnbaowen.net/api/geetest/')
element = WebDriverWait(driver, 30, 0.5).until(EC.element_to_be_clickable((By.CLASS_NAME, 'gt_slider_knob')))
if element:
return element
except TimeoutException as e:
print('超時(shí)錯(cuò)誤,繼續(xù)')
time.sleep(5)
if __name__ == '__main__':
while 1:
try:
count = 6 # 最多識(shí)別6次
driver = webdriver.Chrome()
# 等待滑動(dòng)按鈕加載完成
element = main_check_slider(driver)
while count > 0:
main_check_code(driver, element)
time.sleep(2)
try:
success_element = (By.CSS_SELECTOR, '.gt_holder .gt_ajax_tip.gt_success')
# 得到成功標(biāo)志
print('suc=', driver.find_element_by_css_selector('.gt_holder .gt_ajax_tip.gt_success'))
success_images = WebDriverWait(driver, 20).until(EC.presence_of_element_located(success_element))
if success_images:
print('成功識(shí)別P娜怼:敬怠!I玖濉6帷!')
success_time +=1
print('成功次數(shù)為',success_time,'次')
print('失敗次數(shù)為',field_time,'次')
count = 0
break
except NoSuchElementException as e:
print('識(shí)別錯(cuò)誤猎唁,繼續(xù)')
field_time += 1
print('成功次數(shù)為', success_time, '次')
print('失敗次數(shù)為', field_time, '次')
count -= 1
time.sleep(2)
else:
print('too many attempt check code ')
exit('退出程序')
finally:
driver.close()