淘寶作為一大電商網(wǎng)站倘是,反爬措施還是相當(dāng)?shù)耐晟频模谖业奈恼轮?淘寶爬蟲 之 登陸驗證(一)是以cookie驗證的,這次用selenium模擬登陸随闪,用過selenium登陸淘寶的應(yīng)該知道登陸頁面對selenium的檢測是很嚴(yán)格的,只要一打開就會被檢測到骚勘,網(wǎng)上也有說用其他登陸方式登陸的(支付寶登陸)铐伴,我試過,可行俏讹,不過今天說的是正常的賬號密碼登陸当宴。
from selenium import webdriver
from selenium.webdriver import ActionChains
import time
#打開一個瀏覽器對象
driver = webdriver.Chrome()
#打開淘寶登陸頁面
driver.get('https://login.taobao.com/member/login.jhtml')
#模擬點擊到賬號密碼登陸
driver.find_element_by_id("J_Quick2Static").click()
#輸入賬號密碼
driver.find_element_by_id("TPL_username_1").send_keys("賬號")
password = driver.find_element_by_id("TPL_password_1").send_keys("密碼")
time.sleep(1)
#模擬滑塊滑動
slider = driver.find_element_by_xpath("http://*[@id='nc_1_n1z']")
# 平行移動鼠標(biāo)
action = ActionChains(driver)
action.drag_and_drop_by_offset(slider,500,0).perform()
#模擬點擊登陸
driver.find_element_by_id("J_SubmitStatic").click()
運行這段代碼會出現(xiàn)一個滑塊,無論怎么滑泽疆,手動滑都會被檢測到户矢,因為當(dāng)你用selenium打開的時候就會被淘寶后端驗證出來是個機器人,那么如何解決呢殉疼?當(dāng)然是找到淘寶是怎么驗證的了梯浪,經(jīng)過在網(wǎng)上查找各種資料(技術(shù)大牛還是很多的),在開發(fā)者模式下輸入window.navigator.webdriver會發(fā)現(xiàn)selenium打開的瀏覽器和正常的瀏覽器打開的有所不同瓢娜。
1-1就是selenium打開的瀏覽器挂洛,為true,但是正常瀏覽器打開的并不是true眠砾,淘寶應(yīng)該就是通過這個方法檢測selenium的虏劲。
正常瀏覽器打開的是undefined或者false脏嚷,那么如何修改呢的猛?
下面我說的是一個抓包工具 fiddler甥温,用它將登陸頁面的js替換掉米碰,換成我們修改過的js文件,將window.navigator.webdriver的值改變吻育,就可以繞過淘寶檢測了念秧。
首先找到淘寶登陸頁面的js
將里面的js代碼保存起來,在我們保存起來的js代碼中加入我們自己的代碼布疼。
Object.defineProperties(navigator,{
????webdriver:{
????????get:() =>false
? ? }
})
然后就是替換了摊趾,打開我們的fiddler,先運行一下我們剛才無法登陸的代碼游两,在fiddler中找到登陸頁面的js砾层,將這個js代碼拖動到右邊,3的位置就是我們自己js的路徑
替換好js文件之后就可以運行了贱案,就會發(fā)現(xiàn)登陸的滑塊檢測已經(jīng)不會出現(xiàn)了肛炮,,因為滑塊不會出現(xiàn)了宝踪,所以代碼需要改變一下侨糟,
from seleniumimport webdriver
import time
#打開一個瀏覽器對象
driver = webdriver.Chrome()
#打開淘寶登陸頁面
driver.get('https://login.taobao.com/member/login.jhtml')
#模擬點擊到賬號密碼登陸
driver.find_element_by_id("J_Quick2Static").click()
#輸入賬號密碼
driver.find_element_by_id("TPL_username_1").send_keys("賬號")
password = driver.find_element_by_id("TPL_password_1").send_keys("密碼")
time.sleep(1)
#模擬點擊登陸
driver.find_element_by_id("J_SubmitStatic").click()
可以登陸成功了,再看一次window.navigator.webdriver瘩燥,發(fā)現(xiàn)它已經(jīng)變成了false了
帶上selenium自動登陸頁面的cookie就可以爬取數(shù)據(jù)了
獲取cookies后要轉(zhuǎn)換到相應(yīng)的字典格式秕重,才能正常訪問,
需要cookies中的name和value屬性再組成一個cooies字典厉膀,然后requests.get帶上cookies就可以正常請求頁面了
純代碼解決模式溶耘,建議多種方法一起用
參考一:https://www.cnblogs.com/cloudbird/p/10524611.html
設(shè)置開發(fā)者模式
options = webdriver.ChromeOptions()
# 此步驟很重要,設(shè)置為開發(fā)者模式服鹅,防止被各大網(wǎng)站識別出來使用了Selenium
options.add_experimental_option('excludeSwitches', ['enable-automation'])
driver = webdriver.Chrome(options=options)
如果不行了凳兵,想辦法改一下chromedriver源代碼
參考二:http://www.reibang.com/p/368be2cc6ca1
最后瀏覽器仍然存在問題的話
driver.execute_script('Object.defineProperties(navigator,{webdriver:{get:()=>false}})')
修改瀏覽器的webdriver