爬蟲筆記(一) - 各種Request請(qǐng)求的對(duì)比(Scrapy Resquest Postman)

關(guān)于Cookie的分析我在爬蟲筆記(六) - 關(guān)于 Cookie 的分析(Postman Request Selenium)中說明了,本次的目標(biāo)網(wǎng)站也是同一個(gè)

本文主要包含一個(gè)要點(diǎn)寂玲,在分析完請(qǐng)求后塔插,使用不同的方法構(gòu)造同一個(gè)HTTP請(qǐng)求,方法包括:

  • Scrapy框架
  • Request庫(kù)
  • Chrome的Postman插件

Scrapy中一段讓我揪心的代碼

在分析前拓哟,我說一個(gè)自己遇到過的SB問題想许,在最開始我只放代碼~~~

Scrapy中的spider

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request


class JobSpider(scrapy.Spider):
    name = "job"

    def start_requests(self):
        base_url = "https://www.lagou.com/jobs/positionAjax.json"

        querystring = {"city": "廣州", "needAddtionalResult": "false", "kd": "python", "pn": "1"}

        headers = {
            'user-agent': "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0",
            'cookie': "user_trace_token=20170502200739-07d687303c1e44fa9c7f0259097266d6;"
        }
        yield Request(url=base_url, method="GET", headers=headers)

    def parse(self, response):
        print response

從Postman中獲取到的Request請(qǐng)求

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
# @Time    : 2017/5/2 20:24
# @Author  : Spareribs
# @File    : test_lagou.py
"""

import requests
import json

url = "https://www.lagou.com/jobs/positionAjax.json"

querystring = {"city":"廣州","needAddtionalResult":"false","kd":"python","pn":"1"}

headers = {
    'user-agent': "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0",
    'cookie': "user_trace_token=20170502200739-07d687303c1e44fa9c7f0259097266d6;"
    }

response = requests.request("GET", url, headers=headers, params=querystring)

print(response.text)

如果看完這兩段代碼你看懂了關(guān)鍵點(diǎn),本文最想突出的核心要點(diǎn)你也看懂了断序。
看不懂也不急流纹,先看下基礎(chǔ)分析

Scrapy框架中的Request請(qǐng)求分析

首先是Request對(duì)象中文文檔

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

參數(shù)要點(diǎn):

  • url(必填):請(qǐng)求的URL,所說的目標(biāo)網(wǎng)站
  • method='GET'
  • headers
  • body
  • cookies

Scrapy特有:

  • encoding='utf-8'
  • priority=0
  • dont_filter=False
  • meta:
  • callback:
  • errback:

(占位---待繼續(xù)更新)

Request庫(kù)中的Request請(qǐng)求分析

中文文檔

requests庫(kù)中requests的方法

def request(method, url, **kwargs):
    with sessions.Session() as session:
        return session.request(method=method, url=url, **kwargs)

def get(url, params=None, **kwargs):
    kwargs.setdefault('allow_redirects', True)
    return request('get', url, params=params, **kwargs)

def post(url, data=None, json=None, **kwargs):
    return request('post', url, data=data, json=json, **kwargs)

(占位---待繼續(xù)更新)

Chrome的Postman插件中的Request請(qǐng)求分析

對(duì)于Postman的請(qǐng)求违诗,我這里分兩種Method分析(其他的爬蟲中很少用到)

  • Get請(qǐng)求
  • Post請(qǐng)求

首先是get請(qǐng)求

Postman中Get請(qǐng)求

要點(diǎn):

  1. 請(qǐng)求的方法:Get
  2. 請(qǐng)求的URL
  3. 請(qǐng)求的Params參數(shù)
  4. 請(qǐng)求的Headers頭部

然后是Post請(qǐng)求


Postman中Post請(qǐng)求

要點(diǎn):

  1. 請(qǐng)求的方法:Post
  2. 請(qǐng)求的URL
  3. 請(qǐng)求的Params參數(shù)
  4. 請(qǐng)求的Headers頭部
  5. Request Body(提供了4中編輯方式)
    然而漱凝,在Post中的4種編輯方式分別為:
  • form-data
  • x-www-form-urlencoded
  • raw
  • binary

(占位---待繼續(xù)更新)

總結(jié):其實(shí)我想了很久,一直沒想明白诸迟,為什么同一個(gè)請(qǐng)求放Request庫(kù)中成功了茸炒,而在scrapy中失敗了阵苇,對(duì)于這個(gè)問題壁公,其實(shí)就是不是很難,就是越簡(jiǎn)單越害人绅项。Request庫(kù)的請(qǐng)求的Cookies是可以放到headers中可以辨別的润努,而Scrapy的Cookies有一個(gè)獨(dú)立的cookies參數(shù)來處理Cookie,放在headers中不生效

以上都是我的跟人觀點(diǎn)示括,如果有不對(duì)铺浇,或者有更好的方法,歡迎留言指正~~~(持續(xù)更新中)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末垛膝,一起剝皮案震驚了整個(gè)濱河市鳍侣,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌吼拥,老刑警劉巖倚聚,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異凿可,居然都是意外死亡惑折,警方通過查閱死者的電腦和手機(jī)授账,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來惨驶,“玉大人白热,你說我怎么就攤上這事〈植罚” “怎么了屋确?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)续扔。 經(jīng)常有香客問我攻臀,道長(zhǎng),這世上最難降的妖魔是什么纱昧? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任刨啸,我火速辦了婚禮,結(jié)果婚禮上砌些,老公的妹妹穿的比我還像新娘呜投。我一直安慰自己,他們只是感情好存璃,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布仑荐。 她就那樣靜靜地躺著,像睡著了一般纵东。 火紅的嫁衣襯著肌膚如雪粘招。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天偎球,我揣著相機(jī)與錄音洒扎,去河邊找鬼。 笑死衰絮,一個(gè)胖子當(dāng)著我的面吹牛袍冷,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播猫牡,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼胡诗,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了淌友?” 一聲冷哼從身側(cè)響起煌恢,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎震庭,沒想到半個(gè)月后瑰抵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡器联,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年二汛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了婿崭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡习贫,死狀恐怖逛球,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情苫昌,我是刑警寧澤颤绕,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站祟身,受9級(jí)特大地震影響奥务,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜袜硫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一氯葬、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧婉陷,春花似錦帚称、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至担神,卻和暖如春楼吃,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背妄讯。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工孩锡, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人亥贸。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓躬窜,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親炕置。 傳聞我的和親對(duì)象是個(gè)殘疾皇子斩披,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容