python ------scrapy-redis分布式爬蟲

一嗽元，scrapy和scrapy-redis的區(qū)別门坷？

????scrapy是一個爬蟲通用框架丰辣，但不支持分布式盛杰，scrapy-redis是為了更方便的實(shí)現(xiàn)scrapy分布式爬蟲焰扳，而提供了一些以redis為基礎(chǔ)的組件

二倦零，為什么scrapy框架不支持分布式？

????因?yàn)閟crcapy中的調(diào)度對列不支持共享吨悍，而scrapy-redis中光绕，可以共享該對列

三，scrapy-redis工作原理畜份？

? ? ? ? 1诞帐，爬蟲程序把請求鏈接，發(fā)送給爬蟲引擎,

? ? ? ? 2爆雹，爬蟲引擎把請求鏈接傳遞到調(diào)度對列

? ? ? ? 3停蕉，調(diào)度sheduler會把鏈接存放到redis數(shù)據(jù)庫中

? ? ? ? 4愕鼓，redis數(shù)據(jù)庫因?yàn)榫哂屑系男再|(zhì)，對去重有更好的體現(xiàn)慧起，傳進(jìn)來的鏈接會生成一個指紋菇晃，? ?redis會把?傳進(jìn)來的鏈接進(jìn)行對比，相同的鏈接直接去重蚓挤，把沒有的鏈接加入到對列中磺送，然后把鏈接再傳遞到調(diào)度對列中。

? ? ????5灿意，調(diào)度中的對列把鏈接發(fā)送到下載模塊

? ????? 6估灿，下載模塊，下載好數(shù)據(jù)后缤剧，把數(shù)據(jù)及下載的鏈接發(fā)送到爬蟲程序

? ? ????7馅袁，爬蟲程序把數(shù)據(jù)及鏈接發(fā)送到redis數(shù)據(jù)庫（如果此時自定義管道，則會把數(shù)據(jù)存放到自定義的數(shù)據(jù)庫中）

? ????? 8.荒辕，可以從redis數(shù)據(jù)庫中把數(shù)據(jù)下載到本地

四汗销，redis怎么去重的？

如果多臺機(jī)器不僅往請求隊(duì)列存抵窒，還同時從里面取弛针，那么如何保證每臺機(jī)子請求和存儲的隊(duì)列是不重復(fù)的呢？

借助redis集合

redis提供集合數(shù)據(jù)結(jié)構(gòu)李皇，我們知道集合里面的元素是不重復(fù)的

首先削茁，在redis中存儲每個request的指紋。

在向request隊(duì)列中加入request前首先驗(yàn)證這個request的指紋是否已經(jīng)加入到集合中疙赠。

如果已存在付材，則不添加requets到隊(duì)列，

如果不存在圃阳，則將request添加入隊(duì)列并將指紋加入集合厌衔。

五，分布式爬蟲架構(gòu)實(shí)際上就是：

由一臺主機(jī)維護(hù)所有的爬取隊(duì)列捍岳，每臺從機(jī)的sheduler共享該隊(duì)列富寿，協(xié)同存儲與提取。

分布式爬蟲的多臺協(xié)作的關(guān)鍵是共享爬取隊(duì)列

六锣夹，隊(duì)列用什么維護(hù)呢页徐？

推薦redis隊(duì)列

redis是非關(guān)系型數(shù)據(jù)庫，用key-value形式存儲银萍，結(jié)構(gòu)靈活变勇，他不像關(guān)系型數(shù)據(jù)庫必須要由一定的結(jié)構(gòu)才能存儲。

key-value可以是多種數(shù)據(jù)，非常靈活搀绣。

另外飞袋，redis是內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)存儲系統(tǒng)，處理速度快链患，性能好巧鸭。

提供了隊(duì)列，集合多種存儲結(jié)構(gòu)麻捻，方便隊(duì)列維護(hù)和去重操作纲仍。

七，怎樣防止中斷贸毕？

在爬取的過程中郑叠，難免會有某臺機(jī)子卡掉了，這時怎么辦崖咨？

在每臺從機(jī)scrapy啟動時都會首先判斷當(dāng)前redis request隊(duì)列是否為空锻拘。

如果不為空油吭，則從隊(duì)列中取得下一個request執(zhí)行爬取击蹲。

如果為空，則重新開始開始爬取婉宰，第一臺從機(jī)執(zhí)行爬取想隊(duì)列中添加request歌豺。

怎樣實(shí)現(xiàn)該架構(gòu)？

要做到：

維護(hù)request隊(duì)列

對臺從機(jī)調(diào)度reuqest

設(shè)置去重

鏈接redis

已經(jīng)有了比較成熟的庫scrapy-redis

scrapy-redis庫實(shí)現(xiàn)了如上架構(gòu)心包，改寫了scrapy的調(diào)度器类咧，隊(duì)列等組件

利用它可以方便地實(shí)現(xiàn)scrapy分布式架構(gòu)

https://github.com/rolando/scrapy-redis

八，步驟及代碼

? ? ? ? 1蟹腾，安裝redis

????????????啟動redis服務(wù)：redis-server

????????????啟用shell客戶端：redis-cli 可以輸入指令（在這里面啟動指令）

? ??? ??2痕惋，修改配置文件redis.conf

????????把bind:127.0.0.1注釋掉，可以讓其他IP也可以訪問娃殖，其他爬蟲端才能連接到服務(wù)端的數(shù)據(jù)庫

? ??? ??3值戳，連接到服務(wù)端測試

????????linux下? sudo redis-cli -h 服務(wù)端的IP? -h指定

????????如果-h沒有指定，就會默認(rèn)在本地

????????slave端無需啟動radis-server炉爆，mster端啟動即可堕虹，只要slave能讀取到mster中的數(shù)據(jù)庫就行了

????????代表可以實(shí)施分布式

? ? ? ??4，自動構(gòu)建一個scrapy框架?scrapy startproject?項(xiàng)目名（做修改）

? ? ? ? 5芬首，關(guān)于settings中代碼的修改

?????????????DOWNLOAD_DELAY =0.5 #下載延遲赴捞，就是從別人服務(wù)器上獲取數(shù)據(jù)時，延遲時間????

????????????SCHEDULER ="scrapy_redis.scheduler.Scheduler"? ???#任務(wù)調(diào)度郁稍，使用scrapy-redis里面的調(diào)度器組件赦政，不使用scrapy默認(rèn)的調(diào)度器

????????????DUPEFILTER_CLASS ="scrapy_redis.dupefilter.RFPDupeFilter"? ? ??#去重,用的是scrapy_redis里的去重組件，不適用scrapy默認(rèn)的去重

SCHEDULER_PERSIST =True? ?#是否開啟耀怜，允許暫停恢着，redis請求記錄不丟失

SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.SpiderQueue'? ? ??#調(diào)度策略：隊(duì)列,默認(rèn)是scrapy_redis請求掸屡，（按優(yōu)先級順序）隊(duì)列形成? ?（有三種形式，只是一個先后順序然评，影響不大）

#指定redis數(shù)據(jù)庫的主機(jī)

REDIS_HOST ='127.0.0.1' #修改為Redis的實(shí)際IP地址

REDIS_PORT =6379 #修改為Redis的實(shí)際端口

?? ?6仅财，爬蟲程序的開發(fā)

導(dǎo)入需要的模塊

# -*- coding: utf-8 -*-

import scrapy

from scrapy_redis.spidersimport RedisCrawlSpider

from scrapy.spidersimport CrawlSpider, Rule

from scrapy.linkextractorsimport LinkExtractor

from ..itemsimport? ScrapyRedisExampleItem

繼承類也是需要改變的：

class CountrySpider(RedisCrawlSpider):

? ?name ='country'

? ? redis_key ='start_urls'? #指令，用來啟動爬蟲端程序的

? ? 7碗淌，開多個運(yùn)行窗口進(jìn)行采集盏求，模擬分布式，在服務(wù)端輸入指令

搭建分布式最合適：對硬件的要求亿眠，在不同網(wǎng)段里面碎罚，各自處理各自的請求，這樣才能體會到分布式的精髓

? ??????

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末纳像，一起剝皮案震驚了整個濱河市荆烈，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌竟趾，老刑警劉巖憔购，帶你破解...
沈念sama閱讀 218,755評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異岔帽，居然都是意外死亡玫鸟，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門犀勒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來屎飘，“玉大人，你說我怎么就攤上這事贾费∏展海” “怎么了？”我有些...
開封第一講書人閱讀 165,138評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵褂萧，是天一觀的道長押桃。經(jīng)常有香客問我，道長箱玷，這世上最難降的妖魔是什么怨规？我笑而不...
開封第一講書人閱讀 58,791評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮锡足，結(jié)果婚禮上波丰，老公的妹妹穿的比我還像新娘。我一直安慰自己舶得，他們只是感情好掰烟，可當(dāng)我...
茶點(diǎn)故事閱讀 67,794評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般纫骑。火紅的嫁衣襯著肌膚如雪蝎亚。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,631評論 1贊 305
城市分裂傳說
那天先馆，我揣著相機(jī)與錄音发框，去河邊找鬼。笑死煤墙，一個胖子當(dāng)著我的面吹牛梅惯，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播仿野，決...
沈念sama閱讀 40,362評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼铣减，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了脚作？” 一聲冷哼從身側(cè)響起葫哗，我...
開封第一講書人閱讀 39,264評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎球涛，沒想到半個月后劣针，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,724評論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡宾符，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年酿秸，在試婚紗的時候發(fā)現(xiàn)自己被綠了灭翔。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片魏烫。...
茶點(diǎn)故事閱讀 40,040評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖肝箱，靈堂內(nèi)的尸體忽然破棺而出哄褒，到底是詐尸還是另有隱情，我是刑警寧澤煌张，帶...
沈念sama閱讀 35,742評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布呐赡，位于F島的核電站，受9級特大地震影響骏融，放射性物質(zhì)發(fā)生泄漏链嘀。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,364評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一档玻、第九天我趴在偏房一處隱蔽的房頂上張望怀泊。院中可真熱鬧，春花似錦误趴、人聲如沸霹琼。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽枣申。三九已至售葡，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間忠藤，已是汗流浹背挟伙。一陣腳步聲響...
開封第一講書人閱讀 33,060評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留模孩，地道東北人像寒。一個月前我還...
沈念sama閱讀 48,247評論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長得像瓜贾，于是被迫代替她去往敵國和親诺祸。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,979評論 2贊 355

python ------scrapy-redis分布式爬蟲

推薦閱讀更多精彩內(nèi)容