[scrapy]scrapy-redis快速上手/scrapy爬蟲分布式改造

提示

閱讀本文章,您需要:

  • 了解scrapy侦高,知道scrapy-redis可以用來干嘛嫉柴,最好已經(jīng)有了可以單機(jī)運(yùn)行的scrapy爬蟲。

  • 已經(jīng)嘗試了一些反反爬措施后仍然覺得爬取效率太低奉呛。

  • 已經(jīng)看了無數(shù)scrapy-redis文章,卻和我一樣不得要領(lǐng)计螺。(自己太笨)

  • 已經(jīng)看了無數(shù)scrapy-redis文章,被辣雞文章坑的生活不能自理瞧壮,到現(xiàn)在還沒配置好登馒。(可能還是自己太笨)

提示:本文為快速上手文章,有些操作的具體步驟不詳細(xì)講咆槽,自行百度通用解法陈轿,省略的部分我認(rèn)為你可以自行解決,如果遇到問題罗晕,請(qǐng)留言提問

使用scrapy-redis將scrapy改造為分布式

安裝需要的python庫(kù)和數(shù)據(jù)庫(kù)

  • 安裝scrapy-redis:pip install scrapy-redis

  • 安裝redis:可以僅在master(主)端安裝

  • 安裝其他數(shù)據(jù)庫(kù)(可選):mysql济欢,mangoDB赠堵,用來保存大量數(shù)據(jù)小渊,當(dāng)然也可以選擇不安裝。用其他方法處理數(shù)據(jù)茫叭。

提示:請(qǐng)注意版本問題酬屉,不要過低。

配置redis

  1. master(主)上的redis安裝后,需要做以下幾件事:
  • 配置redis.conf設(shè)置從外網(wǎng)訪問:#bind 127.0.0.1

  • 最好設(shè)置個(gè)密碼

  • 取消保護(hù)模式 protected-mode no

  1. master啟動(dòng)redis呐萨,使用./redis-server redis.conf(改為你的設(shè)置文件所在位置)

  2. 嘗試從slave(從)連接master的redis杀饵,連接成功(盜的圖):

image

修改scrapy:setting.py

添加如下代碼:

# scrapy-redis
REDIS_URL = 'redis://:yzd@127.0.0.1:6379'  # for master
# REDIS_URL = 'redis://:yzd@10.140.0.2:6379'  # for slave (master's ip)
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

對(duì)于itempipeline:你以前怎么存的數(shù)據(jù)還是怎么存,當(dāng)然你也可以用redis先存谬擦,之后再一起轉(zhuǎn)移出來切距。像我就直接存到mysql了

ITEM_PIPELINES = {
    # 'JD.pipelines.JdPipeline': 300,
    # 'scrapy_redis.pipelines.RedisPipeline': 400,
    'JD.mysqlpipelines.pipelines.JDPipeline': 300,
}

修改scrapy:spiders/xxxxx.py(自己命名的爬蟲文件)

將繼承改為繼承Redisspider

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import scrapy
from JD.items import JdItem
import logging
from scrapy_redis.spiders import RedisSpider
import time

# class JDcat(scrapy.Spider):
class JDcat(RedisSpider):
    name = "JDcate"
    allowed_domains = ["jd.com"]

    # scrapy-redis
    redis_key = "JDcate:JD_urls"

    def start_requests(self):
        # designed by yourself
        # yield scrapy.Request(url=url, callback=self.parse)
        pass

    def parse(self, response):
        # designed by yourself
        pass

修改slave的存儲(chǔ)數(shù)據(jù)庫(kù)設(shè)置(可選)

如果你想要讓slave抓取到的數(shù)據(jù)直接存入master的數(shù)據(jù)庫(kù),您別忘了修改slave的數(shù)據(jù)庫(kù)連接設(shè)置

# for master
db_item = pymysql.connect(host="localhost", user="root", password="root",
                          db="pricemonitor", port=3306, charset='utf8')

# for slave
# db_item = pymysql.connect(host="10.140.0.2", user="root", password="root",
#                           db="pricemonitor", port=3306, charset='utf8')

啟動(dòng)分布式爬蟲

啟動(dòng)master:scrapy crawl xxxxx
啟動(dòng)slave: crawl xxxxx


image2

上傳了個(gè)demo源碼惨远,供大家修改使用:
https://github.com/qqxx6661/scrapy_redis_demo

有問題請(qǐng)留言或郵件qqxx6661@gmail.com

參考

https://www.cnblogs.com/zjl6/p/6742673.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末谜悟,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子北秽,更是在濱河造成了極大的恐慌葡幸,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件贺氓,死亡現(xiàn)場(chǎng)離奇詭異蔚叨,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)辙培,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門蔑水,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人扬蕊,你說我怎么就攤上這事肤粱。” “怎么了厨相?”我有些...
    開封第一講書人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵领曼,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我蛮穿,道長(zhǎng)庶骄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任践磅,我火速辦了婚禮单刁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘府适。我一直安慰自己羔飞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開白布檐春。 她就那樣靜靜地躺著逻淌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪疟暖。 梳的紋絲不亂的頭發(fā)上卡儒,一...
    開封第一講書人閱讀 51,775評(píng)論 1 307
  • 那天田柔,我揣著相機(jī)與錄音,去河邊找鬼骨望。 笑死硬爆,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的擎鸠。 我是一名探鬼主播缀磕,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼劣光!你這毒婦竟也來了虐骑?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤赎线,失蹤者是張志新(化名)和其女友劉穎廷没,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體垂寥,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡颠黎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了滞项。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狭归。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖文判,靈堂內(nèi)的尸體忽然破棺而出过椎,到底是詐尸還是另有隱情,我是刑警寧澤戏仓,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布疚宇,位于F島的核電站,受9級(jí)特大地震影響赏殃,放射性物質(zhì)發(fā)生泄漏敷待。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一仁热、第九天 我趴在偏房一處隱蔽的房頂上張望榜揖。 院中可真熱鬧,春花似錦抗蠢、人聲如沸举哟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)妨猩。三九已至,卻和暖如春诬乞,著一層夾襖步出監(jiān)牢的瞬間册赛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工震嫉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留森瘪,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓票堵,卻偏偏與公主長(zhǎng)得像扼睬,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子悴势,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356

推薦閱讀更多精彩內(nèi)容