scrapy_redis分布式爬蟲

說到redis了濒生,自然就要說到另一個(gè)爬蟲框架scrapy_redis,分布式爬蟲磺送,
scrapy與scrapy_redis最大的不同是scheduler歉摧,也正是因?yàn)檫@個(gè)scheduler才使得scrapy_redis能夠做到分布式。
最大的改動在于將帶爬url放進(jìn)redis激蹲,master主要就是維護(hù)此隊(duì)列棉磨,slave就能根據(jù)優(yōu)先級隊(duì)列進(jìn)行分別式爬取,同時(shí)redis有set托呕,dupefiler模塊通過哈希指紋去重含蓉,保證分布式進(jìn)行。
item返回是先返回到master的redis然后存入其他數(shù)據(jù)庫项郊。

對scrapy的改造:
改造
setting:

1.(必須加)。使用scrapy_redis.duperfilter.REPDupeFilter的去重組件斟赚,在redis數(shù)據(jù)庫里做去重着降。

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

2.(必須加)。使用了scrapy_redis的調(diào)度器拗军,在redis里面分配請求任洞。

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

3.(必須加)。在redis queues 允許暫停和暫停后恢復(fù)发侵,也就是不清理redis queues

SCHEDULER_PERSIST = True

4.(必須加)交掏。通過RedisPipeline將item寫入key為 spider.name: items的redis的list中,供后面的分布式處理item刃鳄。

這個(gè)已經(jīng)由scrapy-redis實(shí)現(xiàn)了盅弛,不需要我們自己手動寫代碼,直接使用即可。

ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 100
}
REDIS_HOST = "127.0.0.1"
REDIS_PORT = 6379

spider:

from scrapy_redis.spiders import RedisSpider
import scrapy

class ToutiaoSpider(RedisSpider):
    name='toutiao'
    redis_key = 'start_url'    #需將start_url先存入redis
    def parse(self, response):
        ....
        scrapy.Request(url, callback=xxx)

scrapy與scrapy_redis的區(qū)別
scrapy_redis總結(jié)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末挪鹏,一起剝皮案震驚了整個(gè)濱河市见秽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌讨盒,老刑警劉巖解取,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異返顺,居然都是意外死亡禀苦,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門遂鹊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來伦忠,“玉大人,你說我怎么就攤上這事稿辙±ヂ耄” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵邻储,是天一觀的道長赋咽。 經(jīng)常有香客問我,道長吨娜,這世上最難降的妖魔是什么脓匿? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮宦赠,結(jié)果婚禮上陪毡,老公的妹妹穿的比我還像新娘。我一直安慰自己勾扭,他們只是感情好毡琉,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著妙色,像睡著了一般桅滋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上身辨,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天丐谋,我揣著相機(jī)與錄音,去河邊找鬼煌珊。 笑死号俐,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的定庵。 我是一名探鬼主播吏饿,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼踪危,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了找岖?” 一聲冷哼從身側(cè)響起陨倡,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎许布,沒想到半個(gè)月后兴革,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蜜唾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年杂曲,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片袁余。...
    茶點(diǎn)故事閱讀 38,018評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡擎勘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出颖榜,到底是詐尸還是另有隱情棚饵,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布掩完,位于F島的核電站噪漾,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏且蓬。R本人自食惡果不足惜欣硼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望恶阴。 院中可真熱鬧诈胜,春花似錦、人聲如沸冯事。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽桅咆。三九已至括授,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間岩饼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工薛夜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留籍茧,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓梯澜,卻偏偏與公主長得像寞冯,于是被迫代替她去往敵國和親渴析。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 引言 在上篇使用Scrapy爬取知乎用戶信息我們編寫了一個(gè)單機(jī)的爬蟲吮龄,這篇記錄了使用Scrapy-Redis將其重...
    朱曉飛閱讀 6,676評論 1 24
  • 一俭茧,scrapy和scrapy-redis的區(qū)別? scrapy是一個(gè)爬蟲通用框架漓帚,但不支持分布式母债,scrapy-...
    城北有夢閱讀 785評論 0 1
  • 沒有奶茶的夏天怎么可能舒心?這10家飲品店你都喝過么尝抖? 天越熱毡们,越想喝奶茶。奶茶昧辽,是吃貨前進(jìn)的階梯衙熔。為什么我的眼里...
    37餐飲閱讀 178評論 0 0
  • 平超老師五年書法教育研究實(shí)踐活動回顧(十五) 2017年6月,平超老師在自己住處裝配書法工作室搅荞,并正式收徒红氯。
    平氏書法教育閱讀 285評論 0 2
  • 姓名:鄺念君 學(xué)號:14020150024 【嵌牛導(dǎo)讀】:EXT3,EXT4咕痛,BTRFS和XFS是現(xiàn)在最常見的四個(gè)...
    nianjun閱讀 1,571評論 0 0