模擬登錄
模擬登錄常用于大型數(shù)據(jù)爬取志鹃,通過(guò)模擬登錄,獲得網(wǎng)站發(fā)給用戶有效的 cookies妓忍,在爬蟲(chóng)爬取數(shù)據(jù)時(shí)世剖,可以增加網(wǎng)站對(duì)爬蟲(chóng)的信任度,從而達(dá)到更好的爬取效果祖凫。
準(zhǔn)備
- Requests
- BeautifulSoup
- re
- cookielib
開(kāi)始
模擬登錄果殼
思路:
- 瀏覽器訪問(wèn)果殼登錄頁(yè)面,打開(kāi)調(diào)試器惠况,分析表單 html 元素(需要郵箱、密碼峦睡、驗(yàn)證碼三項(xiàng))
- 分析驗(yàn)證碼路徑榨了,構(gòu)造 python 代碼獲取驗(yàn)證碼
- 使用 requests 的 session() 方法攘蔽,為每次請(qǐng)求建立關(guān)系 (http 為無(wú)狀態(tài))
- 用 BeautifulSoup 解析 requests 請(qǐng)求回來(lái)的頁(yè)面满俗,找到相應(yīng)的 post 表單唆垃,分析并填寫(xiě)表單每一項(xiàng)
- 首次登錄用 cookielib 保存網(wǎng)站為用戶分配的 cookies
- 第一次登錄成功后,之后采取 cookies 登錄即可完成模擬登錄
獲取表單內(nèi)容
瀏覽器打開(kāi)調(diào)試器快捷鍵:ctrl+shift+c
与柑, 在表單處隨意填寫(xiě)价捧,點(diǎn)擊果殼網(wǎng)上的登錄按鈕:
查看調(diào)試器 Network
结蟋,查找到 sign_in/
用的是 POST
方法提交表單嵌屎,且Form Data
如下:
表單說(shuō)明 | |
---|---|
csrf_token | 防止XSS攻擊的隨機(jī)字符串 |
username | 用戶名 |
password | 密碼 |
captcha | 驗(yàn)證碼 |
captcha_rand | 獲取驗(yàn)證碼的隨機(jī)值 |
permanent | y(固定值) |
經(jīng)過(guò)查看 html
源代碼可以知道,csrf_token
再沧、captcha_rand
都可以在頁(yè)面找到:
從上往下依次是 csrf_token
、captcha_rand
寝衫、以及驗(yàn)證碼地址
慰毅,觀察驗(yàn)證碼地址 https://account.guokr.com/captcha/1940664610/
扎阶, https://account.guokr.com/captcha/
是固定的,后面的數(shù)字部分是隨機(jī)的统台,即 captcha_rand
啡邑,部分代碼:
session = requests.session()
def get_csrf_captcha_rand(url):
response = session.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
csrf_token = soup.select('input#csrf_token')[0]
captcha_rand = soup.select('input#captchaRand')[0]
match_cs = re.findall(r'.*?value="(.*)".*', str(csrf_token))[0]
match_rand = re.findall(r'.*?value="(.*?)".*', str(captcha_rand))[0]
return match_cs, match_rand
代碼注釋:通過(guò)有連接的 session 請(qǐng)求果殼登錄 url谤逼,用 BeautifulSoup 解析網(wǎng)頁(yè)流部,獲取 csrf_token枝冀、captcha_rand果漾,然后返回谷誓。
獲取驗(yàn)證碼圖片 (下載到本地并打開(kāi)讓用戶輸入)
通過(guò)字符串拼接 get_csrf_captcha_rand
方法返回的 captcha_rand
捍歪,得到https://account.guokr.com/captcha/1940664610/
,然而這串?dāng)?shù)字是隨機(jī)的 10 位數(shù)庐镐,通常是以當(dāng)前時(shí)間生成必逆,代碼:
def get_captcha(rand): # 保存captcha.png圖片
import time
time = str(int(time.time() * 1000))
captcha_url = 'https://account.guokr.com/captcha/{}/?v={}'.format(rand, time)
response = session.get(captcha_url, headers=headers)
with open('captcha.png', 'wb') as f:
f.write(response.content)
f.close()
from PIL import Image
try:
captcha_image = Image.open('captcha.png')
captcha_image.show()
captcha_image.close()
except:
print 'captcha.png not found!'
code = raw_input('please check the captcha code and enter it:')
return code
代碼注釋:將當(dāng)前時(shí)間轉(zhuǎn)換成字符串末患,與驗(yàn)證碼圖片 url 拼接,訪問(wèn)該 url 后嚷炉,將圖片保存到本地并用 PIL 圖片庫(kù)展示給用戶進(jìn)行輸入申屹,最后再將用戶的輸入返回哗讥。
提交表單杆煞,獲取 cookies
集齊上面的表單字段后腐泻,就可以正式登錄:
def guokr_login(account, password): # 正式登錄
url = 'https://account.guokr.com/sign_in/'
csrf_captcha_rand = get_csrf_captcha_rand(url)
post_data = {
'csrf_token': csrf_captcha_rand[0],
'username': account,
'password': password,
'captcha': get_captcha(csrf_captcha_rand[1]),
'captcha_rand': csrf_captcha_rand[1],
'permanent': 'y'
}
response = session.post(url, data=post_data, headers=headers)
session.cookies.save()
代碼注釋:拼湊表單构诚,用 session 建立連接铆惑,最后保存 cookies 用作后面的登錄改化, 這段代碼最重要的是獲取登錄后的 cookies盏阶,以下是 cookies 內(nèi)容:
從這段 cookies 文本來(lái)看名斟,有效期大概為 1 個(gè)月砰盐。
判斷 cookies 是否有效
拿到 cookies 后岩梳,要試一試 cookies 之后的登錄是否有效冀值,寫(xiě)一個(gè)判斷登錄是否有效的函數(shù)幫助判斷列疗,在瀏覽器中,找一個(gè)需要登錄才能訪問(wèn)的 url:
def is_login(): # 判斷是否為登錄狀態(tài) http://www.guokr.com/i/0890827117/ allow_redirects=False
personal_url = 'http://www.guokr.com/user/feeds/'
response = session.get(personal_url, headers=headers)
if response.status_code != 200:
return False
else:
return True
代碼注釋:找一個(gè)需要登錄狀態(tài)才能訪問(wèn)的 url 訪問(wèn),如果response.status_code
為 200
古劲,則 cookies 有效,之后可以用此 cookies 訪問(wèn)果殼網(wǎng)产艾,獲取想要爬取的數(shù)據(jù)胰舆,但如果不行的話蹬挤,就要再次調(diào)試。至這篇記錄文章發(fā)表的時(shí)候倦零,這種模擬登錄的思路仍然有效扫茅,若果殼網(wǎng)站做了調(diào)整葫隙,則需要做出相應(yīng)改變恋脚。
全部代碼如下:
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import cookielib
import re
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.3397.16 Safari/537.36',
}
session = requests.session()
session.cookies = cookielib.LWPCookieJar('cookies.txt')
try: # 嘗試加載cookies
session.cookies.load(ignore_discard=True)
except:
print 'cookies failed to load!'
else:
print 'cookies has been loading!'
def get_csrf_captcha_rand(url): # 在頁(yè)面中找到csrf_token和captcha_rand
response = session.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
csrf_token = soup.select('input#csrf_token')[0]
captcha_rand = soup.select('input#captchaRand')[0]
match_cs = re.findall(r'.*?value="(.*)".*', str(csrf_token))[0]
match_rand = re.findall(r'.*?value="(.*?)".*', str(captcha_rand))[0]
return match_cs, match_rand
def get_captcha(rand): # 保存captcha.png圖片
import time
time = str(int(time.time() * 1000))
captcha_url = 'https://account.guokr.com/captcha/{}/?v={}'.format(rand, time)
response = session.get(captcha_url, headers=headers)
with open('captcha.png', 'wb') as f:
f.write(response.content)
f.close()
from PIL import Image
try:
captcha_image = Image.open('captcha.png')
captcha_image.show()
captcha_image.close()
except:
print 'captcha.png not found!'
code = raw_input('please check the captcha code and enter it:')
return code
def guokr_login(account, password): # 正式登錄
url = 'https://account.guokr.com/sign_in/'
csrf_captcha_rand = get_csrf_captcha_rand(url)
post_data = {
'csrf_token': csrf_captcha_rand[0],
'username': account,
'password': password,
'captcha': get_captcha(csrf_captcha_rand[1]),
'captcha_rand': csrf_captcha_rand[1],
'permanent': 'y'
}
response = session.post(url, data=post_data, headers=headers)
session.cookies.save() # 保存cookies
def is_login(): # 判斷是否為登錄狀態(tài) http://www.guokr.com/i/0890827117/ allow_redirects=False
personal_url = 'http://www.guokr.com/user/feeds/'
response = session.get(personal_url, headers=headers)
if response.status_code != 200:
return False
else:
return True
guokr_login('賬號(hào)', '密碼')
is_login()
相關(guān)資料:
Requests:http://www.python-requests.org/en/master/
BeautifulSoup:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
Re 正則表達(dá)式:http://www.runoob.com/regexp/regexp-syntax.html