七. 模擬登陸webscraping.com網(wǎng)站

爬取網(wǎng)址：http://example.webscraping.com

image.png

1.觀察登陸時的信息

登陸后可以看到右上方的變化，出現(xiàn)了“歡迎Liu”裳扯，同時也可以在分析工具中看到有一個post的“method”粱玲。如果在chrome中沒有顯示“method”漓拾，可以在欄目中點擊右鍵添加“method”屬性。

image.png

選擇這個表單數(shù)據(jù)术浪，然后在Headers的最下方找到Form Data芝此。

image.png

另外看回Headers的頭部信息，由于Status code為303因痛，表示頁面重定向婚苹，此時瀏覽器會讀取Response Headers中的Location字段，并根據(jù)此路徑再次發(fā)送一個GET請求鸵膏。

image.png

登陸后可以看到Headers中的Cookie字段膊升，并看到右上方“歡迎Liu”的字樣。

image.png

2.使用FormRequest進行模擬登陸

① 通過scrapy shell 進行調(diào)試：
scrapy shell http://example.webscraping.com/places/default/user/login

② 然后想辦法獲取表單字段信息：email,password,_formkey,_formname,_next(均為input標簽中的name屬性）谭企。其中后三個字段信息是隱藏的廓译，我們可以通過查找form元素评肆，然后在Properties中找到這幾個字段信息。

image.png

③ 可以按照下述方式獲取到隱藏的form_data非区，然后再將賬戶和密碼信息添加進字典即可瓜挽。

from scrapy.http import FormRequest

form_hinfos = response.xpath('//input[@type="hidden"]')
form_name = form_hinfos.xpath('@name').extract()
form_value = form_hinfos.xpath('@value').extract()
form_data = dict(zip(form_name,form_value))
form_data['email'] = 'liushuo@webscraping.com'
form_data['password'] = '12345678'

request = FormRequest('http://example.webscraping.com/places/default/user/login',formdata=form_data)

image.png

④ 當然，也可以不用捕捉隱藏的input征绸，使用FormRequest的from_response方法即可久橙。使用from_response方法時，需要傳入一個Response對象作為第一個參數(shù)管怠，然后from_response方法會自動解析Response對象中的<form>元素淆衷，并將隱藏在<input>中的信息自動填入表單數(shù)據(jù)。這樣的話渤弛，我們采用form_request方法祝拯，只需提供賬戶和密碼即可：

from scrapy.http import FormRequest
form_data = {'email':'liushuo@webscraping.com','password':'12345678'}
request = FormRequest.from_response(response,formdata=form_data)

image.png

⑤ 使用上述③或④的方法構(gòu)造好request(均屬于FormRequest對象）后，就可以提交表單請求她肯，在結(jié)果中可以看到scrapy先發(fā)送一個Post請求佳头，然后自動發(fā)送一個get請求來跳轉(zhuǎn)頁面。最后驗證是否登錄辕宏，可以看到模擬登陸成功了畜晰。實質(zhì)上，第二個get請求攜帶了第一個post請求獲取的Cookie信息瑞筐，而這個添加Cookie信息的工作由Scrapy內(nèi)置的下載中間件CookiesMiddleware自動完成凄鼻。

image.png

⑥ 可以嘗試提取登陸后的個人頁面信息

image.png

按照下圖命令即可得到個人信息。值得注意的是聚假，我們在頁面上看到keys顯示的是中文块蚌，但是通過scrapy進行請求時獲取的是英文keys信息，所以實際得到的信息均為英文膘格。這也是我們需要調(diào)用view(response)來看到最終的Response信息峭范。

image.png

3.將上述內(nèi)容進行總結(jié)，實現(xiàn)登陸spider

代碼如下：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import FormRequest


class LoginSpider(scrapy.Spider):
    name = 'login'
    allowed_domains = ['example.webscraping.com']
    start_urls = ['http://example.webscraping.com/places/default/user/profile']

    ##-------------------------------進行登錄-------------------------------
    #登錄URL
    login_url = "http://example.webscraping.com/places/default/user/login"

    #改寫start_requests方法
    def start_requests(self):
        yield scrapy.Request(self.login_url,callback=self.login)

    #登錄頁面的信息處理
    def login(self,response):
        form_data = {'email': 'liushuo@webscraping.com', 'password': '12345678'}
        yield FormRequest.from_response(response, formdata=form_data,callback=self.parse_login)


    #登錄成功后瘪贱，會自動抓取start_urls中的網(wǎng)址纱控，并用parse方法解析。
    def parse_login(self,response):
        if "Welcome Liu" in response.text:
            yield from super().start_requests() #繼承基類的start_requests方法菜秦，處理完會自動跳轉(zhuǎn)到parse方法甜害。

    ##-------------------------------登錄后-------------------------------
    #登錄后的信息解析工作
    def parse(self, response):
        keys = response.xpath('//td[@class="w2p_fl"]/label/text()').re('(.*?):')
        values = response.xpath('//td[@class="w2p_fw"]/text()').extract()
        yield dict(zip(keys,values))

最后編輯于：2018.03.11 22:38:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市球昨，隨后出現(xiàn)的幾起案子尔店，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件嚣州，死亡現(xiàn)場離奇詭異鲫售，居然都是意外死亡，警方通過查閱死者的電腦和手機该肴，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門情竹，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人沙庐，你說我怎么就攤上這事鲤妥。” “怎么了拱雏？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵棉安，是天一觀的道長。經(jīng)常有香客問我铸抑，道長贡耽，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任鹊汛，我火速辦了婚禮蒲赂，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘刁憋。我一直安慰自己滥嘴，他們只是感情好，可當我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布至耻。她就那樣靜靜地躺著若皱，像睡著了一般。火紅的嫁衣襯著肌膚如雪尘颓。梳的紋絲不亂的頭發(fā)上走触，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天，我揣著相機與錄音疤苹，去河邊找鬼互广。笑死，一個胖子當著我的面吹牛卧土，可吹牛的內(nèi)容都是我干的惫皱。我是一名探鬼主播，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼尤莺，長吁一口氣：“原來是場噩夢啊……” “哼逸吵！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起缝裁，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后捷绑，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體韩脑，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年粹污，在試婚紗的時候發(fā)現(xiàn)自己被綠了段多。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡壮吩，死狀恐怖进苍，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情鸭叙，我是刑警寧澤觉啊，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站沈贝，受9級特大地震影響杠人，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宋下，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一嗡善、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧学歧，春花似錦罩引、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案袁铐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至伺帘，卻和暖如春昭躺，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背伪嫁。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工领炫，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人张咳。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓帝洪，卻偏偏與公主長得像，于是被迫代替她去往敵國和親脚猾。傳聞我的和親對象是個殘疾皇子葱峡，可洞房花燭夜當晚...
茶點故事閱讀 44,724評論 2贊 354

七. 模擬登陸webscraping.com網(wǎng)站

1.觀察登陸時的信息

2.使用FormRequest進行模擬登陸

3.將上述內(nèi)容進行總結(jié)，實現(xiàn)登陸spider

推薦閱讀更多精彩內(nèi)容