Scrapinghub試用報(bào)告

實(shí)驗(yàn)對(duì)象:scrapinghubs
實(shí)驗(yàn)?zāi)康模和ㄟ^體驗(yàn)爬蟲工具傲诵,進(jìn)一步加深對(duì)數(shù)據(jù)檢索的認(rèn)識(shí)

目錄
  1. scrapinghubs簡介
  2. scrapy cloud試用報(bào)告
  • 在Scrapyinghub創(chuàng)建工程
  • 本地配置并連接到Scrapinghub
  • 使用scrapy cloud進(jìn)行數(shù)據(jù)爬取
  1. portia試用報(bào)告
  • 新建portia工程
  • 選擇爬取實(shí)體
  • 導(dǎo)入scrapy cloud
  1. 總結(jié)

1.Scrapinghub簡介

scrapinghub首頁

*簡介

scrapinghub 幫助人們將網(wǎng)站轉(zhuǎn)化為數(shù)據(jù)诈悍。
scrapinghub提供基于云的Web爬行平臺(tái)和數(shù)據(jù)即服務(wù)找都。

* 以規(guī)模爬取網(wǎng)站

Scrapy Cloud是scrapinghub提供的基于云的Web爬行平臺(tái)迅耘,可以方便人們輕松部署抓取工具并按需擴(kuò)展魁兼,無須擔(dān)心服務(wù)器件甥、監(jiān)控、備份或cron作業(yè)孽锥。目的是幫助更多的開發(fā)人員將網(wǎng)頁轉(zhuǎn)化為有價(jià)值的數(shù)據(jù)嚼黔。
scrapinghub 還提供了豐富的附加組件,例如** protia **使用戶無需編寫代碼忱叭,用點(diǎn)擊的方式就可以擴(kuò)展爬蟲蜘蛛隔崎。其中今艺,Crawlera可以幫助用戶繞過反爬蟲措施韵丑,從而更快的抓取大型網(wǎng)站。爬取的數(shù)據(jù)可以存儲(chǔ)在scrapinghub提供的數(shù)據(jù)庫中虚缎,并且可以使用api在應(yīng)用程序中使用這些數(shù)據(jù)撵彻。

*數(shù)據(jù)即服務(wù)

scrapinghub還有許多網(wǎng)頁爬取專家?guī)椭脩襞廊?shù)據(jù),用戶可以即時(shí)訪問所需的數(shù)據(jù)实牡,解決復(fù)雜的爬網(wǎng)問題陌僵,并且節(jié)省時(shí)間和金錢。

scrapinghub的產(chǎn)品:
產(chǎn)品
競爭對(duì)手:
競爭者

2. scrapy cloud試用報(bào)告

2.1在Scrapinghub創(chuàng)建工程

登陸scrapinghub

scrapinghub支持google+賬號(hào)登陸和Github賬號(hào)登陸创坞。


welcome
創(chuàng)建一個(gè)工程
create project

create

記錄Api Key 和 project ID

2.2 本地配置并連接到scrapinghub

安裝shub

pip install shub
shub install

shub是Scrapinghub命令行客戶端碗短。 它允許您部署項(xiàng)目或依賴關(guān)系,計(jì)劃蜘蛛题涨,并檢索刮取的數(shù)據(jù)或日志偎谁,而不用離開命令行总滩。

登陸shub

進(jìn)入要上傳到cloud 的工程目錄后,登陸shub并輸入api key

shub login
login

上傳工程并輸入project ID

shub deploy

shub deploy

2.3 使用scrapy cloud進(jìn)行數(shù)據(jù)爬取

上傳成功



選取一個(gè)爬蟲并執(zhí)行



run

執(zhí)行結(jié)果

點(diǎn)擊items requests log等可以查看爬取詳細(xì)信息


結(jié)果

設(shè)置爬取時(shí)間間隔

存儲(chǔ)到數(shù)據(jù)庫



database

3.portia試用報(bào)告

  • 新建portia工程
    輸入新建爬蟲的名字



    輸入爬取的網(wǎng)址并打開


  • 選擇爬取實(shí)體
    通過點(diǎn)擊按鈕選取頁面中需要爬取的實(shí)體


  • 導(dǎo)入scrapy cloud
    可以選擇導(dǎo)出代碼或?qū)雜crapy cloud


4. 總結(jié)

在scrapinghub的試用過程中巡雨,我得出了以下感悟:

  • scrapy cloud是一款很方便易用的云端數(shù)據(jù)爬取工具闰渔,可以直觀看出數(shù)據(jù)爬取的相關(guān)信息,并且可以很方便存儲(chǔ)到數(shù)據(jù)庫中铐望「越В可以手動(dòng)設(shè)置爬取次數(shù)和時(shí)間間隔,以及配置文件等正蛙。
  • pordia 可以節(jié)省手寫代碼的時(shí)間督弓,但是不適合復(fù)雜的數(shù)據(jù)采集
  • 高級(jí)功能還是需要付費(fèi)才能使用的
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市跟畅,隨后出現(xiàn)的幾起案子咽筋,更是在濱河造成了極大的恐慌,老刑警劉巖徊件,帶你破解...
    沈念sama閱讀 222,590評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件奸攻,死亡現(xiàn)場離奇詭異,居然都是意外死亡虱痕,警方通過查閱死者的電腦和手機(jī)睹耐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來部翘,“玉大人硝训,你說我怎么就攤上這事⌒滤迹” “怎么了窖梁?”我有些...
    開封第一講書人閱讀 169,301評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長夹囚。 經(jīng)常有香客問我纵刘,道長,這世上最難降的妖魔是什么荸哟? 我笑而不...
    開封第一講書人閱讀 60,078評(píng)論 1 300
  • 正文 為了忘掉前任假哎,我火速辦了婚禮,結(jié)果婚禮上鞍历,老公的妹妹穿的比我還像新娘舵抹。我一直安慰自己,他們只是感情好劣砍,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,082評(píng)論 6 398
  • 文/花漫 我一把揭開白布惧蛹。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪香嗓。 梳的紋絲不亂的頭發(fā)上爵政,一...
    開封第一講書人閱讀 52,682評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音陶缺,去河邊找鬼钾挟。 笑死,一個(gè)胖子當(dāng)著我的面吹牛饱岸,可吹牛的內(nèi)容都是我干的掺出。 我是一名探鬼主播,決...
    沈念sama閱讀 41,155評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼苫费,長吁一口氣:“原來是場噩夢啊……” “哼汤锨!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起百框,我...
    開封第一講書人閱讀 40,098評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤闲礼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后铐维,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體柬泽,經(jīng)...
    沈念sama閱讀 46,638評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,701評(píng)論 3 342
  • 正文 我和宋清朗相戀三年嫁蛇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了锨并。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,852評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡睬棚,死狀恐怖第煮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情抑党,我是刑警寧澤包警,帶...
    沈念sama閱讀 36,520評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站底靠,受9級(jí)特大地震影響害晦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜苛骨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,181評(píng)論 3 335
  • 文/蒙蒙 一篱瞎、第九天 我趴在偏房一處隱蔽的房頂上張望苟呐。 院中可真熱鬧痒芝,春花似錦、人聲如沸牵素。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,674評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽笆呆。三九已至请琳,卻和暖如春粱挡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背俄精。 一陣腳步聲響...
    開封第一講書人閱讀 33,788評(píng)論 1 274
  • 我被黑心中介騙來泰國打工询筏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人竖慧。 一個(gè)月前我還...
    沈念sama閱讀 49,279評(píng)論 3 379
  • 正文 我出身青樓嫌套,卻偏偏與公主長得像,于是被迫代替她去往敵國和親圾旨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子踱讨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,851評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)砍的,斷路器痹筛,智...
    卡卡羅2017閱讀 134,715評(píng)論 18 139
  • 爬蟲文章 in 簡書程序員專題: like:128-Python 爬取落網(wǎng)音樂 like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 21,760評(píng)論 4 411
  • 爬蟲文章 in 簡書程序員專題: like:128 - Python 爬取落網(wǎng)音樂 like:127 - 【圖文詳...
    treelake閱讀 29,560評(píng)論 33 638
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,322評(píng)論 25 707
  • 昨天放假,出門去美容院臭美一番廓鞠,去小吃店吃了份炒面喝了杯鮮榨果汁帚稠,準(zhǔn)備回家美美睡上一覺。 結(jié)果到家的時(shí)候床佳,手腳發(fā)冷...
    何kk閱讀 598評(píng)論 0 0