模擬登錄之果殼網(wǎng)

模擬登錄

模擬登錄常用于大型數(shù)據(jù)爬取志鹃，通過(guò)模擬登錄，獲得網(wǎng)站發(fā)給用戶有效的 cookies妓忍，在爬蟲(chóng)爬取數(shù)據(jù)時(shí)世剖，可以增加網(wǎng)站對(duì)爬蟲(chóng)的信任度，從而達(dá)到更好的爬取效果祖凫。

準(zhǔn)備

Requests
BeautifulSoup
re
cookielib

開(kāi)始

模擬登錄果殼

思路：

瀏覽器訪問(wèn)果殼登錄頁(yè)面，打開(kāi)調(diào)試器惠况，分析表單 html 元素（需要郵箱、密碼峦睡、驗(yàn)證碼三項(xiàng)）
分析驗(yàn)證碼路徑榨了，構(gòu)造 python 代碼獲取驗(yàn)證碼
使用 requests 的 session() 方法攘蔽，為每次請(qǐng)求建立關(guān)系 (http 為無(wú)狀態(tài))
用 BeautifulSoup 解析 requests 請(qǐng)求回來(lái)的頁(yè)面满俗，找到相應(yīng)的 post 表單唆垃，分析并填寫(xiě)表單每一項(xiàng)
首次登錄用 cookielib 保存網(wǎng)站為用戶分配的 cookies
第一次登錄成功后，之后采取 cookies 登錄即可完成模擬登錄

獲取表單內(nèi)容

瀏覽器打開(kāi)調(diào)試器快捷鍵：ctrl+shift+c与柑，在表單處隨意填寫(xiě)价捧，點(diǎn)擊果殼網(wǎng)上的登錄按鈕：

果殼登錄.png

查看調(diào)試器 Network 结蟋，查找到 sign_in/ 用的是 POST 方法提交表單嵌屎，且Form Data 如下：

果殼表單.png

表單說(shuō)明
csrf_token	防止XSS攻擊的隨機(jī)字符串
username	用戶名
password	密碼
captcha	驗(yàn)證碼
captcha_rand	獲取驗(yàn)證碼的隨機(jī)值
permanent	y（固定值）

經(jīng)過(guò)查看 html 源代碼可以知道，csrf_token再沧、captcha_rand 都可以在頁(yè)面找到：

查找表單.png

從上往下依次是 csrf_token、captcha_rand寝衫、以及驗(yàn)證碼地址慰毅，觀察驗(yàn)證碼地址 https://account.guokr.com/captcha/1940664610/扎阶， https://account.guokr.com/captcha/是固定的，后面的數(shù)字部分是隨機(jī)的统台，即 captcha_rand啡邑，部分代碼：

session = requests.session()
def get_csrf_captcha_rand(url):
    response = session.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'lxml')
    csrf_token = soup.select('input#csrf_token')[0]
    captcha_rand = soup.select('input#captchaRand')[0]
    match_cs = re.findall(r'.*?value="(.*)".*', str(csrf_token))[0]
    match_rand = re.findall(r'.*?value="(.*?)".*', str(captcha_rand))[0]
    return match_cs, match_rand

代碼注釋：通過(guò)有連接的 session 請(qǐng)求果殼登錄 url谤逼，用 BeautifulSoup 解析網(wǎng)頁(yè)流部，獲取 csrf_token枝冀、captcha_rand果漾，然后返回谷誓。

獲取驗(yàn)證碼圖片（下載到本地并打開(kāi)讓用戶輸入）

通過(guò)字符串拼接 get_csrf_captcha_rand 方法返回的 captcha_rand捍歪，得到https://account.guokr.com/captcha/1940664610/，然而這串?dāng)?shù)字是隨機(jī)的 10 位數(shù)庐镐，通常是以當(dāng)前時(shí)間生成必逆，代碼：

def get_captcha(rand): # 保存captcha.png圖片
    import time
    time = str(int(time.time() * 1000))
    captcha_url = 'https://account.guokr.com/captcha/{}/?v={}'.format(rand, time)
    response = session.get(captcha_url, headers=headers)
    with open('captcha.png', 'wb') as f:
        f.write(response.content)
        f.close()
    from PIL import Image
    try:
        captcha_image = Image.open('captcha.png')
        captcha_image.show()
        captcha_image.close()
    except:
        print 'captcha.png not found!'
    code = raw_input('please check the captcha code and enter it:')
    return code

代碼注釋：將當(dāng)前時(shí)間轉(zhuǎn)換成字符串末患，與驗(yàn)證碼圖片 url 拼接，訪問(wèn)該 url 后嚷炉，將圖片保存到本地并用 PIL 圖片庫(kù)展示給用戶進(jìn)行輸入申屹，最后再將用戶的輸入返回哗讥。

提交表單杆煞，獲取 cookies

集齊上面的表單字段后腐泻，就可以正式登錄：

def guokr_login(account, password):  # 正式登錄
    url = 'https://account.guokr.com/sign_in/'
    csrf_captcha_rand = get_csrf_captcha_rand(url)
    post_data = {
        'csrf_token': csrf_captcha_rand[0],
        'username': account,
        'password': password,
        'captcha': get_captcha(csrf_captcha_rand[1]),
        'captcha_rand': csrf_captcha_rand[1],
        'permanent': 'y'
    }
    response = session.post(url, data=post_data, headers=headers)
    session.cookies.save()

代碼注釋：拼湊表單构诚，用 session 建立連接铆惑，最后保存 cookies 用作后面的登錄改化，這段代碼最重要的是獲取登錄后的 cookies盏阶，以下是 cookies 內(nèi)容：

cookies.png

從這段 cookies 文本來(lái)看名斟，有效期大概為 1 個(gè)月砰盐。

判斷 cookies 是否有效

拿到 cookies 后岩梳，要試一試 cookies 之后的登錄是否有效冀值，寫(xiě)一個(gè)判斷登錄是否有效的函數(shù)幫助判斷列疗，在瀏覽器中，找一個(gè)需要登錄才能訪問(wèn)的 url：

def is_login():  # 判斷是否為登錄狀態(tài)   http://www.guokr.com/i/0890827117/ allow_redirects=False
    personal_url = 'http://www.guokr.com/user/feeds/'
    response = session.get(personal_url, headers=headers)
    if response.status_code != 200:
        return False
    else:
        return True

代碼注釋：找一個(gè)需要登錄狀態(tài)才能訪問(wèn)的 url 訪問(wèn)，如果response.status_code為 200古劲，則 cookies 有效，之后可以用此 cookies 訪問(wèn)果殼網(wǎng)产艾，獲取想要爬取的數(shù)據(jù)胰舆，但如果不行的話蹬挤，就要再次調(diào)試。至這篇記錄文章發(fā)表的時(shí)候倦零，這種模擬登錄的思路仍然有效扫茅，若果殼網(wǎng)站做了調(diào)整葫隙，則需要做出相應(yīng)改變恋脚。

全部代碼如下：

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import cookielib
import re
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.3397.16 Safari/537.36',
}
session = requests.session()
session.cookies = cookielib.LWPCookieJar('cookies.txt')
try:  # 嘗試加載cookies
    session.cookies.load(ignore_discard=True)
except:
    print 'cookies failed to load!'
else:
    print 'cookies has been loading!'

def get_csrf_captcha_rand(url):  # 在頁(yè)面中找到csrf_token和captcha_rand
    response = session.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'lxml')
    csrf_token = soup.select('input#csrf_token')[0]
    captcha_rand = soup.select('input#captchaRand')[0]
    match_cs = re.findall(r'.*?value="(.*)".*', str(csrf_token))[0]
    match_rand = re.findall(r'.*?value="(.*?)".*', str(captcha_rand))[0]
    return match_cs, match_rand

def get_captcha(rand): # 保存captcha.png圖片
    import time
    time = str(int(time.time() * 1000))
    captcha_url = 'https://account.guokr.com/captcha/{}/?v={}'.format(rand, time)
    response = session.get(captcha_url, headers=headers)
    with open('captcha.png', 'wb') as f:
        f.write(response.content)
        f.close()
    from PIL import Image
    try:
        captcha_image = Image.open('captcha.png')
        captcha_image.show()
        captcha_image.close()
    except:
        print 'captcha.png not found!'
    code = raw_input('please check the captcha code and enter it:')
    return code

def guokr_login(account, password):  # 正式登錄
    url = 'https://account.guokr.com/sign_in/'
    csrf_captcha_rand = get_csrf_captcha_rand(url)
    post_data = {
        'csrf_token': csrf_captcha_rand[0],
        'username': account,
        'password': password,
        'captcha': get_captcha(csrf_captcha_rand[1]),
        'captcha_rand': csrf_captcha_rand[1],
        'permanent': 'y'
    }
    response = session.post(url, data=post_data, headers=headers)
    session.cookies.save()  # 保存cookies

def is_login():  # 判斷是否為登錄狀態(tài)   http://www.guokr.com/i/0890827117/ allow_redirects=False
    personal_url = 'http://www.guokr.com/user/feeds/'
    response = session.get(personal_url, headers=headers)
    if response.status_code != 200:
        return False
    else:
        return True

guokr_login('賬號(hào)', '密碼')
is_login()

最后編輯于：2017.12.31 20:51:35

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市焰手，隨后出現(xiàn)的幾起案子糟描，更是在濱河造成了極大的恐慌，老刑警劉巖书妻，帶你破解...
沈念sama閱讀 210,835評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件船响，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)见间，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,900評(píng)論 2贊 383
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門聊闯，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人馅袁，你說(shuō)我怎么就攤上這事抵窒。” “怎么了茧跋？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,481評(píng)論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵粥烁，是天一觀的道長(zhǎng)钝吮。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么麻捻？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,303評(píng)論 1贊 282
?港島之戀（遺憾婚禮）
正文為了忘掉前任乡革，我火速辦了婚禮视粮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,375評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布郁稍。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪系洛。梳的紋絲不亂的頭發(fā)上趟薄，一...
開(kāi)封第一講書(shū)人閱讀 49,729評(píng)論 1贊 289
城市分裂傳說(shuō)
那天玫鸟，我揣著相機(jī)與錄音钦购，去河邊找鬼导犹。笑死磕昼，一個(gè)胖子當(dāng)著我的面吹牛滨嘱，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 38,877評(píng)論 3贊 404
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼脚作，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼劣针！你這毒婦竟也來(lái)了亿扁？” 一聲冷哼從身側(cè)響起捺典，我...
開(kāi)封第一講書(shū)人閱讀 37,633評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎贮预，沒(méi)想到半個(gè)月后唤冈，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體忠藤，經(jīng)...
沈念sama閱讀 44,088評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡数焊，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,443評(píng)論 2贊 326
?白月光啟示錄
正文我和宋清朗相戀三年永淌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片佩耳。...
茶點(diǎn)故事閱讀 38,563評(píng)論 1贊 339
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡遂蛀，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出干厚，到底是詐尸還是另有隱情李滴，我是刑警寧澤，帶...
沈念sama閱讀 34,251評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蛮瞄，位于F島的核電站所坯，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏裕坊。R本人自食惡果不足惜包竹，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,827評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望籍凝。院中可真熱鬧周瞎，春花似錦、人聲如沸饵蒂。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,712評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)退盯。三九已至彼乌，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間渊迁，已是汗流浹背慰照。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,943評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留琉朽，地道東北人毒租。一個(gè)月前我還...
沈念sama閱讀 46,240評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像箱叁，于是被迫代替她去往敵國(guó)和親墅垮。傳聞我的和親對(duì)象是個(gè)殘疾皇子惕医，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,435評(píng)論 2贊 348