實(shí)驗(yàn)對(duì)象:scrapinghubs
實(shí)驗(yàn)?zāi)康模和ㄟ^體驗(yàn)爬蟲工具傲诵,進(jìn)一步加深對(duì)數(shù)據(jù)檢索的認(rèn)識(shí)
目錄
- scrapinghubs簡介
- scrapy cloud試用報(bào)告
- 在Scrapyinghub創(chuàng)建工程
- 本地配置并連接到Scrapinghub
- 使用scrapy cloud進(jìn)行數(shù)據(jù)爬取
- portia試用報(bào)告
- 新建portia工程
- 選擇爬取實(shí)體
- 導(dǎo)入scrapy cloud
- 總結(jié)
1.Scrapinghub簡介
*簡介
scrapinghub 幫助人們將網(wǎng)站轉(zhuǎn)化為數(shù)據(jù)诈悍。
scrapinghub提供基于云的Web爬行平臺(tái)和數(shù)據(jù)即服務(wù)找都。
* 以規(guī)模爬取網(wǎng)站
Scrapy Cloud是scrapinghub提供的基于云的Web爬行平臺(tái)迅耘,可以方便人們輕松部署抓取工具并按需擴(kuò)展魁兼,無須擔(dān)心服務(wù)器件甥、監(jiān)控、備份或cron作業(yè)孽锥。目的是幫助更多的開發(fā)人員將網(wǎng)頁轉(zhuǎn)化為有價(jià)值的數(shù)據(jù)嚼黔。
scrapinghub 還提供了豐富的附加組件,例如** protia **使用戶無需編寫代碼忱叭,用點(diǎn)擊的方式就可以擴(kuò)展爬蟲蜘蛛隔崎。其中今艺,Crawlera可以幫助用戶繞過反爬蟲措施韵丑,從而更快的抓取大型網(wǎng)站。爬取的數(shù)據(jù)可以存儲(chǔ)在scrapinghub提供的數(shù)據(jù)庫中虚缎,并且可以使用api在應(yīng)用程序中使用這些數(shù)據(jù)撵彻。
*數(shù)據(jù)即服務(wù)
scrapinghub還有許多網(wǎng)頁爬取專家?guī)椭脩襞廊?shù)據(jù),用戶可以即時(shí)訪問所需的數(shù)據(jù)实牡,解決復(fù)雜的爬網(wǎng)問題陌僵,并且節(jié)省時(shí)間和金錢。
scrapinghub的產(chǎn)品:
競爭對(duì)手:
2. scrapy cloud試用報(bào)告
2.1在Scrapinghub創(chuàng)建工程
登陸scrapinghub
scrapinghub支持google+賬號(hào)登陸和Github賬號(hào)登陸创坞。
創(chuàng)建一個(gè)工程
記錄Api Key 和 project ID
2.2 本地配置并連接到scrapinghub
安裝shub
pip install shub
shub是Scrapinghub命令行客戶端碗短。 它允許您部署項(xiàng)目或依賴關(guān)系,計(jì)劃蜘蛛题涨,并檢索刮取的數(shù)據(jù)或日志偎谁,而不用離開命令行总滩。
登陸shub
進(jìn)入要上傳到cloud 的工程目錄后,登陸shub并輸入api key
shub login
上傳工程并輸入project ID
shub deploy
2.3 使用scrapy cloud進(jìn)行數(shù)據(jù)爬取
上傳成功
選取一個(gè)爬蟲并執(zhí)行
執(zhí)行結(jié)果
點(diǎn)擊items requests log等可以查看爬取詳細(xì)信息
設(shè)置爬取時(shí)間間隔
存儲(chǔ)到數(shù)據(jù)庫
3.portia試用報(bào)告
-
新建portia工程
輸入新建爬蟲的名字
輸入爬取的網(wǎng)址并打開
-
選擇爬取實(shí)體
通過點(diǎn)擊按鈕選取頁面中需要爬取的實(shí)體
-
導(dǎo)入scrapy cloud
可以選擇導(dǎo)出代碼或?qū)雜crapy cloud
4. 總結(jié)
在scrapinghub的試用過程中巡雨,我得出了以下感悟:
- scrapy cloud是一款很方便易用的云端數(shù)據(jù)爬取工具闰渔,可以直觀看出數(shù)據(jù)爬取的相關(guān)信息,并且可以很方便存儲(chǔ)到數(shù)據(jù)庫中铐望「越В可以手動(dòng)設(shè)置爬取次數(shù)和時(shí)間間隔,以及配置文件等正蛙。
- pordia 可以節(jié)省手寫代碼的時(shí)間督弓,但是不適合復(fù)雜的數(shù)據(jù)采集
- 高級(jí)功能還是需要付費(fèi)才能使用的