[scrapy]scrapy-redis快速上手/scrapy爬蟲分布式改造

提示

閱讀本文章，您需要：

了解scrapy侦高，知道scrapy-redis可以用來干嘛嫉柴，最好已經(jīng)有了可以單機(jī)運(yùn)行的scrapy爬蟲。
已經(jīng)嘗試了一些反反爬措施后仍然覺得爬取效率太低奉呛。
已經(jīng)看了無數(shù)scrapy-redis文章,卻和我一樣不得要領(lǐng)计螺。（自己太笨）
已經(jīng)看了無數(shù)scrapy-redis文章，被辣雞文章坑的生活不能自理瞧壮，到現(xiàn)在還沒配置好登馒。（可能還是自己太笨）

提示：本文為快速上手文章，有些操作的具體步驟不詳細(xì)講咆槽，自行百度通用解法陈轿，省略的部分我認(rèn)為你可以自行解決，如果遇到問題罗晕，請(qǐng)留言提問

使用scrapy-redis將scrapy改造為分布式

安裝需要的python庫(kù)和數(shù)據(jù)庫(kù)

安裝scrapy-redis：pip install scrapy-redis
安裝redis：可以僅在master（主）端安裝
安裝其他數(shù)據(jù)庫(kù)（可選）：mysql济欢，mangoDB赠堵，用來保存大量數(shù)據(jù)小渊，當(dāng)然也可以選擇不安裝。用其他方法處理數(shù)據(jù)茫叭。

提示：請(qǐng)注意版本問題酬屉，不要過低。

配置redis

master（主）上的redis安裝后，需要做以下幾件事：

配置redis.conf設(shè)置從外網(wǎng)訪問：#bind 127.0.0.1
最好設(shè)置個(gè)密碼
取消保護(hù)模式 protected-mode no

master啟動(dòng)redis呐萨，使用./redis-server redis.conf（改為你的設(shè)置文件所在位置）
嘗試從slave（從）連接master的redis杀饵，連接成功（盜的圖）：

image

修改scrapy:setting.py

添加如下代碼：

# scrapy-redis
REDIS_URL = 'redis://:yzd@127.0.0.1:6379'  # for master
# REDIS_URL = 'redis://:yzd@10.140.0.2:6379'  # for slave (master's ip)
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

對(duì)于itempipeline：你以前怎么存的數(shù)據(jù)還是怎么存，當(dāng)然你也可以用redis先存谬擦，之后再一起轉(zhuǎn)移出來切距。像我就直接存到mysql了

ITEM_PIPELINES = {
    # 'JD.pipelines.JdPipeline': 300,
    # 'scrapy_redis.pipelines.RedisPipeline': 400,
    'JD.mysqlpipelines.pipelines.JDPipeline': 300,
}

修改scrapy:spiders/xxxxx.py（自己命名的爬蟲文件）

將繼承改為繼承Redisspider

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import scrapy
from JD.items import JdItem
import logging
from scrapy_redis.spiders import RedisSpider
import time

# class JDcat(scrapy.Spider):
class JDcat(RedisSpider):
    name = "JDcate"
    allowed_domains = ["jd.com"]

    # scrapy-redis
    redis_key = "JDcate:JD_urls"

    def start_requests(self):
        # designed by yourself
        # yield scrapy.Request(url=url, callback=self.parse)
        pass

    def parse(self, response):
        # designed by yourself
        pass

修改slave的存儲(chǔ)數(shù)據(jù)庫(kù)設(shè)置（可選）

如果你想要讓slave抓取到的數(shù)據(jù)直接存入master的數(shù)據(jù)庫(kù)，您別忘了修改slave的數(shù)據(jù)庫(kù)連接設(shè)置

# for master
db_item = pymysql.connect(host="localhost", user="root", password="root",
                          db="pricemonitor", port=3306, charset='utf8')

# for slave
# db_item = pymysql.connect(host="10.140.0.2", user="root", password="root",
#                           db="pricemonitor", port=3306, charset='utf8')

啟動(dòng)分布式爬蟲

啟動(dòng)master：scrapy crawl xxxxx
啟動(dòng)slave: crawl xxxxx

image2

上傳了個(gè)demo源碼惨远，供大家修改使用：
https://github.com/qqxx6661/scrapy_redis_demo

有問題請(qǐng)留言或郵件qqxx6661@gmail.com

參考

https://www.cnblogs.com/zjl6/p/6742673.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末谜悟，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子北秽，更是在濱河造成了極大的恐慌葡幸，老刑警劉巖，帶你破解...
沈念sama閱讀 219,589評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件贺氓，死亡現(xiàn)場(chǎng)離奇詭異蔚叨，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)辙培，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,615評(píng)論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門蔑水，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人扬蕊，你說我怎么就攤上這事肤粱。” “怎么了厨相？”我有些...
開封第一講書人閱讀 165,933評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵领曼，是天一觀的道長(zhǎng)。經(jīng)常有香客問我蛮穿，道長(zhǎng)庶骄，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,976評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任践磅，我火速辦了婚禮单刁，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘府适。我一直安慰自己羔飞，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,999評(píng)論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布檐春。她就那樣靜靜地躺著逻淌，像睡著了一般。火紅的嫁衣襯著肌膚如雪疟暖。梳的紋絲不亂的頭發(fā)上卡儒，一...
開封第一講書人閱讀 51,775評(píng)論 1贊 307
城市分裂傳說
那天田柔，我揣著相機(jī)與錄音，去河邊找鬼骨望。笑死硬爆，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的擎鸠。我是一名探鬼主播缀磕，決...
沈念sama閱讀 40,474評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼劣光！你這毒婦竟也來了虐骑？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,359評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤赎线，失蹤者是張志新（化名）和其女友劉穎廷没，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體垂寥，經(jīng)...
沈念sama閱讀 45,854評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡颠黎，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,007評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了滞项。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狭归。...
茶點(diǎn)故事閱讀 40,146評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖文判，靈堂內(nèi)的尸體忽然破棺而出过椎，到底是詐尸還是另有隱情，我是刑警寧澤戏仓，帶...
沈念sama閱讀 35,826評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布疚宇，位于F島的核電站，受9級(jí)特大地震影響赏殃，放射性物質(zhì)發(fā)生泄漏敷待。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,484評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一仁热、第九天我趴在偏房一處隱蔽的房頂上張望榜揖。院中可真熱鬧，春花似錦抗蠢、人聲如沸举哟。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,029評(píng)論 0贊 22
一樁弒父案迅矛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)妨猩。三九已至，卻和暖如春诬乞，著一層夾襖步出監(jiān)牢的瞬間册赛，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,153評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工震嫉，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留森瘪，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,420評(píng)論 3贊 373
代替公主和親
正文我出身青樓票堵，卻偏偏與公主長(zhǎng)得像扼睬，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子悴势，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,107評(píng)論 2贊 356