Scrapy實(shí)現(xiàn)微博登錄

一、背景環(huán)境

  • 環(huán)境介紹
操作系統(tǒng):Win10
Python版本:Python3.6
Scrapy版本:Scrapy1.5.1

本篇主要目的是在wei.py文件使用scrapy.FormRequest來(lái)進(jìn)行登錄演示篮灼,主要說(shuō)明都寫(xiě)在代碼注釋內(nèi)沽翔。

二、代碼

  • 項(xiàng)目目錄結(jié)構(gòu)


    image.png
  • wei.py文件
# -*- coding: utf-8 -*-
import scrapy
import json

class WeiSpider(scrapy.Spider):
    name = 'wei'
    allowed_domains = ['weibo.cn']
    # start_urls = ['http://weibo.cn/']
    # 當(dāng)引擎把start_urls中的內(nèi)容放入調(diào)度器中以后局劲,會(huì)調(diào)取下載器發(fā)起get請(qǐng)求,現(xiàn)在如果需發(fā)送post請(qǐng)求奶赠,就需要把start_urls注視掉

    # def parse(self, response):
    #     pass
    # 重寫(xiě)一個(gè)方法
    def start_requests(self):
        # 這個(gè)方法當(dāng)下載器開(kāi)始發(fā)起請(qǐng)求之前被調(diào)用
        # 在這個(gè)方法我們可以把下載器截獲鱼填,改變其原來(lái)的請(qǐng)求方式
        login_url = "https://passport.weibo.cn/sso/login" # post請(qǐng)求的接口url
        # post提交的數(shù)據(jù)
        data = {
            'username': 'USERNAME',
            'password': 'PASSWORD',
            'savestate': '1',
            'r': 'https://weibo.cn/?luicode=20000174',
            'ec': '0',
            'pagerefer': 'https://weibo.cn/pub/?vt=',
            'entry': 'mweibo',
            'wentry': '',
            'loginfrom': '',
            'client_id': '',
            'code': '',
            'qq': '',
            'mainpageflag': '1',
            'hff': '',
            'hfp': ''
        }

        yield scrapy.FormRequest(url=login_url,formdata=data,callback=self.parse_login)

    def parse_login(self, response):

        # print(response.text)
        # 判斷登錄是否成功
        if json.loads(response.text)["retcode"] == 20000000:
            print("登錄成功!")
            # 訪問(wèn)主頁(yè)
            main_url = "https://weibo.cn/?since_id=0&max_id=H0moBsJrC&prev_page=1&page=1"
            yield scrapy.Request(url=main_url,callback=self.parse_info)

        else:
            print("登錄失斠愀辍苹丸!")

    def parse_info(self, response):
        print(response.text)
      """ 在這里解析
        xxxxxxxxx
      """
  • settings.py
# -*- coding: utf-8 -*-

# Scrapy settings for Weibo project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'Weibo'

SPIDER_MODULES = ['Weibo.spiders']
NEWSPIDER_MODULE = 'Weibo.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 2
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
# COOKIES_ENABLED = False
# 在scrapy中會(huì)話處理默認(rèn)是開(kāi)啟的愤惰,在這里可以關(guān)閉


# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    'Accept': '*/*',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Connection': 'keep-alive',
    # 'Host': 'passport.weibo.cn', # 這個(gè)主機(jī)名必須注釋掉,當(dāng)請(qǐng)求頭中主機(jī)名指定為某個(gè)值的時(shí)候赘理,后面每一次發(fā)起請(qǐng)求都會(huì)把url的主機(jī)名重定向該主機(jī)名下面
    'Origin': 'https://passport.weibo.cn',
    'Referer': 'https://passport.weibo.cn/signin/login?entry=mweibo&r=https%3A%2F%2Fweibo.cn%2F%3Fluicode%3D20000174&backTitle=%CE%A2%B2%A9&vt='

}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'Weibo.middlewares.WeiboSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'Weibo.middlewares.WeiboDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#    'Weibo.pipelines.WeiboPipeline': 300,
#}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

settings文件我們主要對(duì)請(qǐng)求頭進(jìn)行一些設(shè)置宦言。登錄成功后scrapy是默認(rèn)保存cookies的,如果不需要保存可以在settings文件里進(jìn)行配置商模。
微博會(huì)對(duì)一個(gè)太過(guò)頻繁訪問(wèn)的用戶進(jìn)行凍結(jié)奠旺,而這時(shí),我們可以使用很多個(gè)賬戶進(jìn)行登錄施流,再將登錄后的Cookies保存到Cookies池(推介使用Redis數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)我們的Cookie池)并進(jìn)行存儲(chǔ)并定時(shí)檢測(cè)响疚,拋出檢測(cè)后過(guò)期或不可用的Cookies。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末瞪醋,一起剝皮案震驚了整個(gè)濱河市忿晕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌银受,老刑警劉巖杏糙,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異蚓土,居然都是意外死亡宏侍,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門(mén)蜀漆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)谅河,“玉大人,你說(shuō)我怎么就攤上這事确丢”了#” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵鲜侥,是天一觀的道長(zhǎng)褂始。 經(jīng)常有香客問(wèn)我,道長(zhǎng)描函,這世上最難降的妖魔是什么崎苗? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮舀寓,結(jié)果婚禮上胆数,老公的妹妹穿的比我還像新娘。我一直安慰自己互墓,他們只是感情好必尼,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著篡撵,像睡著了一般判莉。 火紅的嫁衣襯著肌膚如雪豆挽。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,775評(píng)論 1 307
  • 那天券盅,我揣著相機(jī)與錄音帮哈,去河邊找鬼。 笑死渗饮,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宿刮。 我是一名探鬼主播互站,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼僵缺!你這毒婦竟也來(lái)了胡桃?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤磕潮,失蹤者是張志新(化名)和其女友劉穎翠胰,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體自脯,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡之景,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了膏潮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锻狗。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖焕参,靈堂內(nèi)的尸體忽然破棺而出轻纪,到底是詐尸還是另有隱情,我是刑警寧澤叠纷,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布刻帚,位于F島的核電站,受9級(jí)特大地震影響涩嚣,放射性物質(zhì)發(fā)生泄漏崇众。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一航厚、第九天 我趴在偏房一處隱蔽的房頂上張望校摩。 院中可真熱鬧,春花似錦阶淘、人聲如沸衙吩。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)坤塞。三九已至冯勉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間摹芙,已是汗流浹背灼狰。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留浮禾,地道東北人交胚。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像盈电,于是被迫代替她去往敵國(guó)和親蝴簇。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356