一嗽元,scrapy和scrapy-redis的區(qū)別门坷?
????scrapy是一個爬蟲通用框架丰辣,但不支持分布式盛杰,scrapy-redis是為了更方便的實(shí)現(xiàn)scrapy分布式爬蟲焰扳,而提供了一些以redis為基礎(chǔ)的組件
二倦零,為什么scrapy框架不支持分布式?
????因?yàn)閟crcapy中的調(diào)度對列不支持共享吨悍,而scrapy-redis中光绕,可以共享該對列
三,scrapy-redis工作原理畜份?
? ? ? ? 1诞帐,爬蟲程序把請求鏈接,發(fā)送給爬蟲引擎,
? ? ? ? 2爆雹,爬蟲引擎把請求鏈接傳遞到調(diào)度對列
? ? ? ? 3停蕉,調(diào)度sheduler會把鏈接存放到redis數(shù)據(jù)庫中
? ? ? ? 4愕鼓,redis數(shù)據(jù)庫因?yàn)榫哂屑系男再|(zhì),對去重有更好的體現(xiàn)慧起,傳進(jìn)來的鏈接會生成一個指紋菇晃,? ?redis會把?傳進(jìn)來的鏈接進(jìn)行對比,相同的鏈接直接去重蚓挤,把沒有的鏈接加入到對列中磺送,然后把鏈接再傳遞到調(diào)度對列中。
? ? ????5灿意,調(diào)度中的對列把鏈接發(fā)送到下載模塊
? ????? 6估灿,下載模塊,下載好數(shù)據(jù)后缤剧,把數(shù)據(jù)及下載的鏈接發(fā)送到爬蟲程序
? ? ????7馅袁,爬蟲程序把數(shù)據(jù)及鏈接發(fā)送到redis數(shù)據(jù)庫(如果此時自定義管道,則會把數(shù)據(jù)存放到自定義的數(shù)據(jù)庫中)
? ????? 8.荒辕,可以從redis數(shù)據(jù)庫中把數(shù)據(jù)下載到本地
四汗销,redis怎么去重的?
如果多臺機(jī)器不僅往請求隊(duì)列存抵窒,還同時從里面取弛针,那么如何保證每臺機(jī)子請求和存儲的隊(duì)列是不重復(fù)的呢?
借助redis集合
redis提供集合數(shù)據(jù)結(jié)構(gòu)李皇,我們知道集合里面的元素是不重復(fù)的
首先削茁,在redis中存儲每個request的指紋。
在向request隊(duì)列中加入request前首先驗(yàn)證這個request的指紋是否已經(jīng)加入到集合中疙赠。
如果已存在付材,則不添加requets到隊(duì)列,
如果不存在圃阳,則將request添加入隊(duì)列并將指紋加入集合厌衔。
五,分布式爬蟲架構(gòu)實(shí)際上就是:
由一臺主機(jī)維護(hù)所有的爬取隊(duì)列捍岳,每臺從機(jī)的sheduler共享該隊(duì)列富寿,協(xié)同存儲與提取。
分布式爬蟲的多臺協(xié)作的關(guān)鍵是共享爬取隊(duì)列
六锣夹,隊(duì)列用什么維護(hù)呢页徐?
推薦redis隊(duì)列
redis是非關(guān)系型數(shù)據(jù)庫,用key-value形式存儲银萍,結(jié)構(gòu)靈活变勇,他不像關(guān)系型數(shù)據(jù)庫必須要由一定的結(jié)構(gòu)才能存儲。
key-value可以是多種數(shù)據(jù),非常靈活搀绣。
另外飞袋,redis是內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)存儲系統(tǒng),處理速度快链患,性能好巧鸭。
提供了隊(duì)列,集合多種存儲結(jié)構(gòu)麻捻,方便隊(duì)列維護(hù)和去重操作纲仍。
七,怎樣防止中斷贸毕?
在爬取的過程中郑叠,難免會有某臺機(jī)子卡掉了,這時怎么辦崖咨?
在每臺從機(jī)scrapy啟動時都會首先判斷當(dāng)前redis request隊(duì)列是否為空锻拘。
如果不為空油吭,則從隊(duì)列中取得下一個request執(zhí)行爬取击蹲。
如果為空,則重新開始開始爬取婉宰,第一臺從機(jī)執(zhí)行爬取想隊(duì)列中添加request歌豺。
怎樣實(shí)現(xiàn)該架構(gòu)?
要做到:
維護(hù)request隊(duì)列
對臺從機(jī)調(diào)度reuqest
設(shè)置去重
鏈接redis
已經(jīng)有了比較成熟的庫scrapy-redis
scrapy-redis庫實(shí)現(xiàn)了如上架構(gòu)心包,改寫了scrapy的調(diào)度器类咧,隊(duì)列等組件
利用它可以方便地實(shí)現(xiàn)scrapy分布式架構(gòu)
https://github.com/rolando/scrapy-redis
八,步驟及代碼
? ? ? ? 1蟹腾,安裝redis
????????????啟動redis服務(wù):redis-server
????????????啟用shell客戶端:redis-cli 可以輸入指令 (在這里面啟動指令)
? ??? ??2痕惋,修改配置文件redis.conf
????????把bind:127.0.0.1注釋掉,可以讓其他IP也可以訪問娃殖,其他爬蟲端才能連接到服務(wù)端的數(shù)據(jù)庫
? ??? ??3值戳,連接到服務(wù)端測試
????????linux下? sudo redis-cli -h 服務(wù)端的IP? -h指定
????????如果-h沒有指定,就會默認(rèn)在本地
????????slave端無需啟動radis-server炉爆,mster端啟動即可堕虹,只要slave能讀取到mster中的數(shù)據(jù)庫就行了
????????代表可以實(shí)施分布式
? ? ? ??4,自動構(gòu)建一個scrapy框架?scrapy startproject?項(xiàng)目名(做修改)
? ? ? ? 5芬首,關(guān)于settings中代碼的修改
?????????????DOWNLOAD_DELAY =0.5 #下載延遲赴捞,就是從別人服務(wù)器上獲取數(shù)據(jù)時,延遲時間????
????????????SCHEDULER ="scrapy_redis.scheduler.Scheduler"? ???#任務(wù)調(diào)度郁稍,使用scrapy-redis里面的調(diào)度器組件赦政,不使用scrapy默認(rèn)的調(diào)度器
????????????DUPEFILTER_CLASS ="scrapy_redis.dupefilter.RFPDupeFilter"? ? ??#去重,用的是scrapy_redis里的去重組件,不適用scrapy默認(rèn)的去重
SCHEDULER_PERSIST =True? ?#是否開啟耀怜,允許暫停恢着,redis請求記錄不丟失
SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.SpiderQueue'? ? ??#調(diào)度策略:隊(duì)列,默認(rèn)是scrapy_redis請求掸屡,(按優(yōu)先級順序)隊(duì)列形成? ?(有三種形式,只是一個先后順序然评,影響不大)
#指定redis數(shù)據(jù)庫的主機(jī)
REDIS_HOST ='127.0.0.1' #修改為Redis的實(shí)際IP地址
REDIS_PORT =6379 #修改為Redis的實(shí)際端口
?? ?6仅财,爬蟲程序的開發(fā)
導(dǎo)入需要的模塊
# -*- coding: utf-8 -*-
import scrapy
from scrapy_redis.spidersimport RedisCrawlSpider
from scrapy.spidersimport CrawlSpider, Rule
from scrapy.linkextractorsimport LinkExtractor
from ..itemsimport? ScrapyRedisExampleItem
繼承類也是需要改變的:
class CountrySpider(RedisCrawlSpider):
? ?name ='country'
? ? redis_key ='start_urls'? #指令,用來啟動爬蟲端程序的
? ? 7碗淌,開多個運(yùn)行窗口進(jìn)行采集盏求,模擬分布式,在服務(wù)端輸入指令
搭建分布式最合適:對硬件的要求亿眠,在不同網(wǎng)段里面碎罚,各自處理各自的請求,這樣才能體會到分布式的精髓
? ??????