scrapy通過scrapyinghub實現(xiàn)24小時爬蟲托管爬取

本文僅供學習參考作用,概不對任何事情進行負責!

前言
當我們在對網(wǎng)上的數(shù)據(jù)進行爬取,但是需要爬取的數(shù)據(jù)量特別大,爬取的時間特別長的時候(比如需要爬一周),我們難免會思考一個問題:我總不可能一直將電腦開著去抓取數(shù)據(jù)吧?
這個時候我們一般有兩種解決方案:1.購買云服務器進行24小時的爬取.2.通過爬蟲托管網(wǎng)站進行24小時的爬取.
本文將介紹第二種方法,通過scrapy的scrapyinghub實現(xiàn)24小時的爬蟲托管爬取


目錄
1.需求背景
2.scapyinghub介紹
3.實現(xiàn)流程


1.需求背景

最近學校有一門搜索引擎的課程,我們需要搭建一個自己的搜索引擎.搭建搜索引擎的過程中我們需要有數(shù)據(jù)進行填充.這個時候我們準備將中國可移動文物普查網(wǎng)中的所有文物數(shù)據(jù)爬取到我們手中,并對拿到的數(shù)據(jù)進行二次加工組裝成屬于我們自己的文物搜索引擎.由于需要爬取的文物數(shù)據(jù)很多,有23w左右,所以在本地爬取的技術路線我們放棄,并且想到了通過scrapyinghub進行爬蟲托管.

2.scrapyinghub介紹

scrapyinghub地址:

https://scrapinghub.com/

Scrape Cloud是scrapy基于云的Web爬行平臺祥款,可以輕松部署抓取工具并按需擴展倾剿,無需擔心服務器,監(jiān)控骚腥,備份或cron作業(yè)策橘。他幫助開發(fā)人員每月將超過20億個網(wǎng)頁轉化為有價值的數(shù)據(jù).


3.實現(xiàn)流程

3.1部署scrapy到cloud
有梯子的同學可以看官網(wǎng)的教程

https://helpdesk.scrapinghub.com/support/solutions/articles/22000201028-learn-scrapy-video-tutorials-

首先我們在scrapyinghub上注冊一個賬號并且登錄到管理控制臺,點擊右上方的create project按鈕新建一個項目


當然了,我們只是將先有的scrapy爬蟲部署到云上去,所以我們選擇bulid spider with scrapy

然后我們將視線轉移到我們的服務器上,首先安裝shub

pip install shub

安裝成以后,在服務器上登錄我們的scrapy cloud

shub login

提示輸入API key ,我們復制命令行中出現(xiàn)的網(wǎng)址并且進入


復制其中的API key到shell中

成功!
這個時候我們就需要使用shub deploy命令將本地的scrapy上傳到cloud

shub deploy


由于我們之前操作過,所以自動將projectID填入了.當然了,如果我們是第一次使用的話只需要在我們cloud的控制臺的URL中找到projectID并輸入到shell中即可

上傳scrapy成功!


這個時候我們就可以在cloud上運行我們的spider了!在Dashborad選項卡中的右上方點擊run,我們就可以愉快的選擇我們的spider啦!

3.2爬取優(yōu)化方案
對于23W的數(shù)據(jù),我們在之前的初步爬取中按照當前cloud的爬取速度我們預估要24個整天才能爬完,這個速度我們顯然是不能接受的.
于是我們優(yōu)化爬取方案為將當前爬蟲分解成10個爬蟲對網(wǎng)站進行爬取.這種方法也有隱患:過多的爬蟲會導致網(wǎng)站服務器壓力倍增,很可能導致其網(wǎng)站癱瘓.
所以,考慮到這個情況,我們將爬蟲的爬取時間設置成了晚上11點到早上11點.
優(yōu)化過后的爬蟲方案,將爬取的時間縮短為了4.8天,大大的增加了爬取的效率.

小Tips:scrapyinghub默認一個project只能同時run一個爬蟲,所以如何讓多個爬蟲同時運行在scrapyinghub以提升爬取效率呢?我們只需要新建多個organization即可,每一個organization都可以run一個爬蟲~


現(xiàn)在我們就有2個正在run的爬蟲啦~

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末击胜,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子役纹,更是在濱河造成了極大的恐慌,老刑警劉巖暇唾,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件促脉,死亡現(xiàn)場離奇詭異,居然都是意外死亡策州,警方通過查閱死者的電腦和手機瘸味,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來够挂,“玉大人旁仿,你說我怎么就攤上這事∧跆牵” “怎么了枯冈?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長办悟。 經常有香客問我尘奏,道長,這世上最難降的妖魔是什么病蛉? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任炫加,我火速辦了婚禮瑰煎,結果婚禮上,老公的妹妹穿的比我還像新娘俗孝。我一直安慰自己酒甸,他們只是感情好,可當我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布赋铝。 她就那樣靜靜地躺著插勤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柬甥。 梳的紋絲不亂的頭發(fā)上饮六,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天,我揣著相機與錄音苛蒲,去河邊找鬼卤橄。 笑死,一個胖子當著我的面吹牛臂外,可吹牛的內容都是我干的窟扑。 我是一名探鬼主播,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼漏健,長吁一口氣:“原來是場噩夢啊……” “哼嚎货!你這毒婦竟也來了?” 一聲冷哼從身側響起蔫浆,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤殖属,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瓦盛,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體洗显,經...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年原环,在試婚紗的時候發(fā)現(xiàn)自己被綠了挠唆。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡嘱吗,死狀恐怖玄组,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情谒麦,我是刑警寧澤俄讹,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站绕德,受9級特大地震影響颅悉,放射性物質發(fā)生泄漏。R本人自食惡果不足惜迁匠,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一剩瓶、第九天 我趴在偏房一處隱蔽的房頂上張望驹溃。 院中可真熱鬧,春花似錦延曙、人聲如沸豌鹤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽布疙。三九已至,卻和暖如春愿卸,著一層夾襖步出監(jiān)牢的瞬間灵临,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工趴荸, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留儒溉,地道東北人。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓发钝,卻偏偏與公主長得像顿涣,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子酝豪,可洞房花燭夜當晚...
    茶點故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理涛碑,服務發(fā)現(xiàn),斷路器孵淘,智...
    卡卡羅2017閱讀 134,628評論 18 139
  • scrapy學習筆記(有示例版) 我的博客 scrapy學習筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,664評論 4 46
  • scrapy是python最有名的爬蟲框架之一蒲障,可以很方便的進行web抓取,并且提供了很強的定制型瘫证,這里記錄簡單學...
    bomo閱讀 2,093評論 1 11
  • 這兩天摸索了下scrapy晌涕,剛看文檔的時候覺得有點生無可戀,scrapy框架個人還是覺得比較難懂的痛悯,需要學習的地方...
    Treehl閱讀 5,627評論 7 10
  • 累哭 蠢哭 今晚著實被自己蠢哭 怎么辦 嗚嗚嗚
    MissJaen閱讀 80評論 0 0