2019-06-18

scrapyd

是運行scrapy爬蟲的服務(wù)程序,它支持以http命令方式發(fā)布才写、刪除葡兑、啟動、停止爬蟲程序赞草。而且scrapyd可以同時管理多個爬蟲,每個爬蟲還可以有多個版本

下載命令:pip3 install scrapyd

scrapyd-client:發(fā)布爬蟲需要使用另一個專用工具讹堤,就是將代碼打包為EGG文件,其次需要將EGG文件上傳到遠(yuǎn)程主機上這些操作需要scrapyd-client來幫助我們完成

Scrapy_redisscrapy的基礎(chǔ)上實現(xiàn)了更多厨疙,更強大的功能洲守,具體體現(xiàn)在:reqeust去重,爬蟲持久化沾凄,和輕松實現(xiàn)分布式

Scrapy-redis提供了下面四種組件(components)

Scheduler

Duplication Filter

Item Pipeline

Base Spider

獲取一下sceapy_redis的源代碼:

git clone https://github.com/rolando/scrapy-redis.git

我們clone到的 scrapy-redis 源碼中有自帶的一個example-project項目梗醇,這個項目包含3個spider,分別是dmoz, myspider_redis撒蟀,mycrawler_redis

運行第一個dmoz文件

這個爬蟲繼承的是CrawlSpider叙谨,它是用來說明Redis的持續(xù)性,當(dāng)我們第一次運行dmoz爬蟲保屯,然后Ctrl + C停掉之后手负,再運行dmoz爬蟲涤垫,之前的爬取記錄是保留在Redis里的。其實它就是一個 scrapy-redis 版 CrawlSpider 類竟终,需要設(shè)置Rule規(guī)則蝠猬,以及callback不能寫parse()方法。

運行第二個myspider_redis文件

這個爬蟲繼承了RedisSpider统捶, 它能夠支持分布式的抓取榆芦,采用的是basic spider,需要寫parse函數(shù)喘鸟。其次就是不再有start_urls了匆绣,取而代之的是redis_key,scrapy-redis將key從Redis里pop出來什黑,成為請求的url地址犬绒。RedisSpider類 不需要寫start_urls:

scrapy-redis 一般直接寫allowd_domains來指定需要爬取的域,必須指定redis_key兑凿,即啟動爬蟲的命令,參考格式:redis_key = 'myspider:start_urls'根據(jù)指定的格式茵瘾,start_urls將在 Master端的 redis-cli 里 lpush 到 Redis數(shù)據(jù)庫里礼华,RedisSpider 將在數(shù)據(jù)庫里獲取start_urls。

運行myspider_redis文件的命令可以使用scrapy runspider?myspider_redis或者使用scrapy crawl?myspider_redis?

運行myspider_redis文件的命令可以使用scrapy runspider?myspider_redis或者使用scrapy crawl?myspider_redis?

在命令行端的redis-cli輸入push指令拗秘,參考格式(指定起始url):

lpush myspider:start_urls +你要請求的起始url

要使用分布式 Scrapy_Redis Settings.py設(shè)置文件中需要做一下配置

這里表示啟用scrapy-redis里的去重組件圣絮,不實用scrapy默認(rèn)的去重

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

使用了scrapy-redis里面的調(diào)度器組件,不使用scrapy默認(rèn)的調(diào)度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

允許暫停雕旨,redis請求的記錄不會丟失扮匠,不清除Redis隊列,可以恢復(fù)和暫停

SCHEDULER_PERSIST = True

下面這些是request的隊列模式

scrapy-redis默認(rèn)的請求隊列形式(有自己的優(yōu)先級順序)

是按照redis的有序集合排序出隊列的

#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

隊列形式凡涩,請求先進(jìn)先出

#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"

使用了棧的形式棒搜,請求先進(jìn)后出

#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

ITEM_PIPELINES = {

? ? 'example.pipelines.ExamplePipeline': 300,

? ? 'scrapy_redis.pipelines.RedisPipeline': 400,

}

指定要存儲的redis的主機的ip,默認(rèn)存儲在127.0.0.1

REDIS_HOST = 'redis的主機的ip'

定要存儲的redis的主機的port活箕,默認(rèn)6379

REDIS_PORT = '6379'

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末力麸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子育韩,更是在濱河造成了極大的恐慌克蚂,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件筋讨,死亡現(xiàn)場離奇詭異埃叭,居然都是意外死亡,警方通過查閱死者的電腦和手機悉罕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進(jìn)店門赤屋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來立镶,“玉大人,你說我怎么就攤上這事益缎∶栈牛” “怎么了?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵莺奔,是天一觀的道長欣范。 經(jīng)常有香客問我,道長令哟,這世上最難降的妖魔是什么恼琼? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮屏富,結(jié)果婚禮上晴竞,老公的妹妹穿的比我還像新娘。我一直安慰自己狠半,他們只是感情好噩死,可當(dāng)我...
    茶點故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著神年,像睡著了一般已维。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上已日,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天垛耳,我揣著相機與錄音,去河邊找鬼飘千。 笑死堂鲜,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的护奈。 我是一名探鬼主播缔莲,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼逆济!你這毒婦竟也來了酌予?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤奖慌,失蹤者是張志新(化名)和其女友劉穎抛虫,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體简僧,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡建椰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了岛马。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片棉姐。...
    茶點故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡屠列,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出伞矩,到底是詐尸還是另有隱情笛洛,我是刑警寧澤,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布乃坤,位于F島的核電站苛让,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏湿诊。R本人自食惡果不足惜狱杰,卻給世界環(huán)境...
    茶點故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望厅须。 院中可真熱鬧仿畸,春花似錦、人聲如沸朗和。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽眶拉。三九已至甥捺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間镀层,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工皿曲, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留唱逢,地道東北人。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓屋休,卻偏偏與公主長得像坞古,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子劫樟,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容