七. 模擬登陸webscraping.com網(wǎng)站

爬取網(wǎng)址:http://example.webscraping.com

image.png
1.觀察登陸時的信息

登陸后可以看到右上方的變化,出現(xiàn)了“歡迎Liu”裳扯,同時也可以在分析工具中看到有一個post的“method”粱玲。如果在chrome中沒有顯示“method”漓拾,可以在欄目中點擊右鍵添加“method”屬性。


image.png

選擇這個表單數(shù)據(jù)术浪,然后在Headers的最下方找到Form Data芝此。


image.png

另外看回Headers的頭部信息,由于Status code為303因痛,表示頁面重定向婚苹,此時瀏覽器會讀取Response Headers中的Location字段,并根據(jù)此路徑再次發(fā)送一個GET請求鸵膏。


image.png

登陸后可以看到Headers中的Cookie字段膊升,并看到右上方“歡迎Liu”的字樣。


image.png
2.使用FormRequest進行模擬登陸

① 通過scrapy shell 進行調(diào)試:
scrapy shell http://example.webscraping.com/places/default/user/login

② 然后想辦法獲取表單字段信息:email,password,_formkey,_formname,_next(均為input標簽中的name屬性)谭企。其中后三個字段信息是隱藏的廓译,我們可以通過查找form元素评肆,然后在Properties中找到這幾個字段信息。


image.png

③ 可以按照下述方式獲取到隱藏的form_data非区,然后再將賬戶和密碼信息添加進字典即可瓜挽。

from scrapy.http import FormRequest

form_hinfos = response.xpath('//input[@type="hidden"]')
form_name = form_hinfos.xpath('@name').extract()
form_value = form_hinfos.xpath('@value').extract()
form_data = dict(zip(form_name,form_value))
form_data['email'] = 'liushuo@webscraping.com'
form_data['password'] = '12345678'

request = FormRequest('http://example.webscraping.com/places/default/user/login',formdata=form_data)
image.png

image.png

④ 當然,也可以不用捕捉隱藏的input征绸,使用FormRequest的from_response方法即可久橙。使用from_response方法時,需要傳入一個Response對象作為第一個參數(shù)管怠,然后from_response方法會自動解析Response對象中的<form>元素淆衷,并將隱藏在<input>中的信息自動填入表單數(shù)據(jù)。這樣的話渤弛,我們采用form_request方法祝拯,只需提供賬戶和密碼即可:

from scrapy.http import FormRequest
form_data = {'email':'liushuo@webscraping.com','password':'12345678'}
request = FormRequest.from_response(response,formdata=form_data)
image.png

⑤ 使用上述③或④的方法構(gòu)造好request(均屬于FormRequest對象)后,就可以提交表單請求她肯,在結(jié)果中可以看到scrapy先發(fā)送一個Post請求佳头,然后自動發(fā)送一個get請求來跳轉(zhuǎn)頁面。最后驗證是否登錄辕宏,可以看到模擬登陸成功了畜晰。實質(zhì)上,第二個get請求攜帶了第一個post請求獲取的Cookie信息瑞筐,而這個添加Cookie信息的工作由Scrapy內(nèi)置的下載中間件CookiesMiddleware自動完成凄鼻。


image.png

⑥ 可以嘗試提取登陸后的個人頁面信息


image.png

image.png

按照下圖命令即可得到個人信息。值得注意的是聚假,我們在頁面上看到keys顯示的是中文块蚌,但是通過scrapy進行請求時獲取的是英文keys信息,所以實際得到的信息均為英文膘格。這也是我們需要調(diào)用view(response)來看到最終的Response信息峭范。


image.png
image.png
3.將上述內(nèi)容進行總結(jié),實現(xiàn)登陸spider

代碼如下:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import FormRequest


class LoginSpider(scrapy.Spider):
    name = 'login'
    allowed_domains = ['example.webscraping.com']
    start_urls = ['http://example.webscraping.com/places/default/user/profile']

    ##-------------------------------進行登錄-------------------------------
    #登錄URL
    login_url = "http://example.webscraping.com/places/default/user/login"

    #改寫start_requests方法
    def start_requests(self):
        yield scrapy.Request(self.login_url,callback=self.login)

    #登錄頁面的信息處理
    def login(self,response):
        form_data = {'email': 'liushuo@webscraping.com', 'password': '12345678'}
        yield FormRequest.from_response(response, formdata=form_data,callback=self.parse_login)


    #登錄成功后瘪贱,會自動抓取start_urls中的網(wǎng)址纱控,并用parse方法解析。
    def parse_login(self,response):
        if "Welcome Liu" in response.text:
            yield from super().start_requests() #繼承基類的start_requests方法菜秦,處理完會自動跳轉(zhuǎn)到parse方法甜害。

    ##-------------------------------登錄后-------------------------------
    #登錄后的信息解析工作
    def parse(self, response):
        keys = response.xpath('//td[@class="w2p_fl"]/label/text()').re('(.*?):')
        values = response.xpath('//td[@class="w2p_fw"]/text()').extract()
        yield dict(zip(keys,values))
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市球昨,隨后出現(xiàn)的幾起案子尔店,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嚣州,死亡現(xiàn)場離奇詭異鲫售,居然都是意外死亡,警方通過查閱死者的電腦和手機该肴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門情竹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人沙庐,你說我怎么就攤上這事鲤妥。” “怎么了拱雏?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵棉安,是天一觀的道長。 經(jīng)常有香客問我铸抑,道長贡耽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任鹊汛,我火速辦了婚禮蒲赂,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘刁憋。我一直安慰自己滥嘴,他們只是感情好,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布至耻。 她就那樣靜靜地躺著若皱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪尘颓。 梳的紋絲不亂的頭發(fā)上走触,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天,我揣著相機與錄音疤苹,去河邊找鬼互广。 笑死,一個胖子當著我的面吹牛卧土,可吹牛的內(nèi)容都是我干的惫皱。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼尤莺,長吁一口氣:“原來是場噩夢啊……” “哼逸吵!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起缝裁,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后捷绑,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體韩脑,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年粹污,在試婚紗的時候發(fā)現(xiàn)自己被綠了段多。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡壮吩,死狀恐怖进苍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情鸭叙,我是刑警寧澤觉啊,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站沈贝,受9級特大地震影響杠人,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宋下,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一嗡善、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧学歧,春花似錦罩引、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至伺帘,卻和暖如春昭躺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背伪嫁。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工领炫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人张咳。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓帝洪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親脚猾。 傳聞我的和親對象是個殘疾皇子葱峡,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容