Scrapy實(shí)現(xiàn)微博登錄

一、背景環(huán)境

環(huán)境介紹

操作系統(tǒng)：Win10
Python版本：Python3.6
Scrapy版本：Scrapy1.5.1

本篇主要目的是在wei.py文件使用scrapy.FormRequest來(lái)進(jìn)行登錄演示篮灼，主要說(shuō)明都寫(xiě)在代碼注釋內(nèi)沽翔。

二、代碼

項(xiàng)目目錄結(jié)構(gòu)

image.png
wei.py文件

# -*- coding: utf-8 -*-
import scrapy
import json

class WeiSpider(scrapy.Spider):
    name = 'wei'
    allowed_domains = ['weibo.cn']
    # start_urls = ['http://weibo.cn/']
    # 當(dāng)引擎把start_urls中的內(nèi)容放入調(diào)度器中以后局劲，會(huì)調(diào)取下載器發(fā)起get請(qǐng)求，現(xiàn)在如果需發(fā)送post請(qǐng)求奶赠，就需要把start_urls注視掉

    # def parse(self, response):
    #     pass
    # 重寫(xiě)一個(gè)方法
    def start_requests(self):
        # 這個(gè)方法當(dāng)下載器開(kāi)始發(fā)起請(qǐng)求之前被調(diào)用
        # 在這個(gè)方法我們可以把下載器截獲鱼填，改變其原來(lái)的請(qǐng)求方式
        login_url = "https://passport.weibo.cn/sso/login" # post請(qǐng)求的接口url
        # post提交的數(shù)據(jù)
        data = {
            'username': 'USERNAME',
            'password': 'PASSWORD',
            'savestate': '1',
            'r': 'https://weibo.cn/?luicode=20000174',
            'ec': '0',
            'pagerefer': 'https://weibo.cn/pub/?vt=',
            'entry': 'mweibo',
            'wentry': '',
            'loginfrom': '',
            'client_id': '',
            'code': '',
            'qq': '',
            'mainpageflag': '1',
            'hff': '',
            'hfp': ''
        }

        yield scrapy.FormRequest(url=login_url,formdata=data,callback=self.parse_login)

    def parse_login(self, response):

        # print(response.text)
        # 判斷登錄是否成功
        if json.loads(response.text)["retcode"] == 20000000:
            print("登錄成功！")
            # 訪問(wèn)主頁(yè)
            main_url = "https://weibo.cn/?since_id=0&max_id=H0moBsJrC&prev_page=1&page=1"
            yield scrapy.Request(url=main_url,callback=self.parse_info)

        else:
            print("登錄失斠愀辍苹丸！")

    def parse_info(self, response):
        print(response.text)
      """ 在這里解析
        xxxxxxxxx
      """

settings.py

# -*- coding: utf-8 -*-

# Scrapy settings for Weibo project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'Weibo'

SPIDER_MODULES = ['Weibo.spiders']
NEWSPIDER_MODULE = 'Weibo.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 2
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
# COOKIES_ENABLED = False
# 在scrapy中會(huì)話處理默認(rèn)是開(kāi)啟的愤惰，在這里可以關(guān)閉


# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    'Accept': '*/*',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Connection': 'keep-alive',
    # 'Host': 'passport.weibo.cn', # 這個(gè)主機(jī)名必須注釋掉，當(dāng)請(qǐng)求頭中主機(jī)名指定為某個(gè)值的時(shí)候赘理，后面每一次發(fā)起請(qǐng)求都會(huì)把url的主機(jī)名重定向該主機(jī)名下面
    'Origin': 'https://passport.weibo.cn',
    'Referer': 'https://passport.weibo.cn/signin/login?entry=mweibo&r=https%3A%2F%2Fweibo.cn%2F%3Fluicode%3D20000174&backTitle=%CE%A2%B2%A9&vt='

}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'Weibo.middlewares.WeiboSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'Weibo.middlewares.WeiboDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#    'Weibo.pipelines.WeiboPipeline': 300,
#}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

settings文件我們主要對(duì)請(qǐng)求頭進(jìn)行一些設(shè)置宦言。登錄成功后scrapy是默認(rèn)保存cookies的，如果不需要保存可以在settings文件里進(jìn)行配置商模。
微博會(huì)對(duì)一個(gè)太過(guò)頻繁訪問(wèn)的用戶進(jìn)行凍結(jié)奠旺，而這時(shí)，我們可以使用很多個(gè)賬戶進(jìn)行登錄施流，再將登錄后的Cookies保存到Cookies池（推介使用Redis數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)我們的Cookie池）并進(jìn)行存儲(chǔ)并定時(shí)檢測(cè)响疚，拋出檢測(cè)后過(guò)期或不可用的Cookies。

最后編輯于：2018.11.01 17:25:30

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末瞪醋，一起剝皮案震驚了整個(gè)濱河市忿晕，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌银受，老刑警劉巖杏糙，帶你破解...
沈念sama閱讀 219,589評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異蚓土，居然都是意外死亡宏侍，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,615評(píng)論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)蜀漆，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)谅河，“玉大人，你說(shuō)我怎么就攤上這事确丢”了＃” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,933評(píng)論 0贊 356
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵鲜侥，是天一觀的道長(zhǎng)褂始。經(jīng)常有香客問(wèn)我，道長(zhǎng)描函，這世上最難降的妖魔是什么崎苗？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,976評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮舀寓，結(jié)果婚禮上胆数，老公的妹妹穿的比我還像新娘。我一直安慰自己互墓，他們只是感情好必尼，可當(dāng)我...
茶點(diǎn)故事閱讀 67,999評(píng)論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著篡撵，像睡著了一般判莉。火紅的嫁衣襯著肌膚如雪豆挽。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,775評(píng)論 1贊 307
城市分裂傳說(shuō)
那天券盅，我揣著相機(jī)與錄音帮哈，去河邊找鬼。笑死渗饮，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的宿刮。我是一名探鬼主播互站，決...
沈念sama閱讀 40,474評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼僵缺！你這毒婦竟也來(lái)了胡桃？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,359評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤磕潮，失蹤者是張志新（化名）和其女友劉穎翠胰，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體自脯，經(jīng)...
沈念sama閱讀 45,854評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡之景，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,007評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了膏潮。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锻狗。...
茶點(diǎn)故事閱讀 40,146評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖焕参，靈堂內(nèi)的尸體忽然破棺而出轻纪，到底是詐尸還是另有隱情，我是刑警寧澤叠纷，帶...
沈念sama閱讀 35,826評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布刻帚，位于F島的核電站，受9級(jí)特大地震影響涩嚣，放射性物質(zhì)發(fā)生泄漏崇众。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,484評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一航厚、第九天我趴在偏房一處隱蔽的房頂上張望校摩。院中可真熱鬧，春花似錦阶淘、人聲如沸衙吩。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,029評(píng)論 0贊 22
一樁弒父案溪窒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)坤塞。三九已至冯勉，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間摹芙，已是汗流浹背灼狰。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,153評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留浮禾，地道東北人交胚。一個(gè)月前我還...
沈念sama閱讀 48,420評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像盈电，于是被迫代替她去往敵國(guó)和親蝴簇。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,107評(píng)論 2贊 356