Scrapy相關(guān)匯總

  • Author:杜七
  • Date:2017.02.17

0 | 安裝

1 | 技巧

  • 爬蟲(chóng)調(diào)試:http://www.cnblogs.com/sufei-duoduo/p/5884209.html

  • 在 spider 中啟動(dòng) shell 來(lái)查看 response陪蜻,scrapy shell 'http://scrapy.org' --nolog沸伏,以及使用scrapy parse --spider=touming url -c parse_item查看parse_item()函數(shù)是否符合自己期望

    • 有時(shí)您想在 spider 的某個(gè)位置中查看被處理的 response献宫, 以確認(rèn)您期望的 response 到達(dá)特定位置。這可以通過(guò) scrapy.shell.inspect_response 函數(shù)來(lái)實(shí)現(xiàn)晃洒。以下是如何在 spider 中調(diào)用該函數(shù)的例子:
    • 代碼示例
  • 使用參數(shù)爬取數(shù)據(jù):http://www.cnblogs.com/sufei-duoduo/p/5867815.html

  • 發(fā)送email郵件,http://www.cnblogs.com/sufei-duoduo/p/5883992.html

  • 在抓取網(wǎng)站時(shí), 暫停爬蟲(chóng)并于稍后恢復(fù)而不是重新開(kāi)始, 有時(shí)會(huì)很有用 。 比如, 軟件更新后重啟計(jì)算機(jī), 或是要爬取的網(wǎng)站出現(xiàn)錯(cuò)誤需要稍后繼續(xù)爬 取時(shí), 都可能會(huì)中斷爬蟲(chóng)鳖擒。 非常方便的是, Scrapy 內(nèi)置了對(duì)暫停與恢復(fù)爬取 的支持, 這樣我們就不需要再修改示例爬蟲(chóng)了 。 要開(kāi)啟該功能, 我們只需要 定義用于保存爬蟲(chóng)當(dāng)前狀態(tài) 目 錄的 JOBDIR 設(shè)置即可烫止。 需要注意的是, 多個(gè) 爬蟲(chóng)的狀態(tài)需要保存在不同的 目錄當(dāng)中蒋荚。 下面是在我們的爬蟲(chóng)中使用該功能的示例 。

  • $ scrapy crawl country -s L馆蠕。G_LEVEL=DEBUG -s JOBDIR=crawls/country
  • 我們使用Ac CCtrl+C) 發(fā)送終止信號(hào), 然后 爬蟲(chóng)又完成了幾個(gè)條 目 的處理之后才終止期升。 想要 Scrapy 保存爬蟲(chóng)狀態(tài), 就必 須等待它正常結(jié)束, 而不能經(jīng)受不住誘惑再次按下 C創(chuàng)+C 強(qiáng)行立即終止 ! 現(xiàn) 在, 爬蟲(chóng)狀態(tài)保存在 crawls/country 目錄中, 之后可以運(yùn)行同樣的命令 恢復(fù)爬蟲(chóng)運(yùn)行 。

2 | 部署爬蟲(chóng)

1) 可視化部署

2)手動(dòng)部署

  • sudo pip install scrapyd
  • shudo pip install scrapyd-client
  • 首先切換到項(xiàng)目的目錄互躬,scrapy.cfg記錄了項(xiàng)目的配置信息
  • 修改scrapy.cfg配置
  • [settings] default = Test.settings [deploy:Myploy]#發(fā)布名稱 url = http://localhost:6800/ #項(xiàng)目發(fā)布到那個(gè)地址 project = Test#項(xiàng)目名稱
  • 要發(fā)布項(xiàng)目播赁,首先要啟動(dòng)scrapyd,直接在命令行輸入scrapyd
  • 發(fā)布項(xiàng)目,CD到根目錄吼渡,scrapyd-deploy Myploy -p Test #在scrapy.cfg文件有配置 Packing version 1482303178 Deploying to project "Test" in http://localhost:6800/addversion.json Server response (200): {"status": "ok", "project": "Test", "version": "1482303178", "spiders": 1, "node_name": "tozo-CW65S"}
  • 現(xiàn)在只是將項(xiàng)目發(fā)布到目標(biāo)地址容为,但是沒(méi)有調(diào)度爬蟲(chóng),調(diào)度爬蟲(chóng)需要用到curl命令,在http://localhost:6800有提示坎背,稍微改動(dòng)替劈,如下:curl http://localhost:6800/schedule.json -d project=Test -d spider=spd,可以在http://localhost:6800看結(jié)果了得滤。
  • 取消一個(gè)爬蟲(chóng):curl http://localhost:6800/cancel.json -d project=PROJECT_NAME -d job=JOB_ID

3 | 使用代理

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末陨献,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子懂更,更是在濱河造成了極大的恐慌眨业,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件沮协,死亡現(xiàn)場(chǎng)離奇詭異龄捡,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)皂股,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)墅茉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人呜呐,你說(shuō)我怎么就攤上這事就斤。” “怎么了蘑辑?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵洋机,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我洋魂,道長(zhǎng)绷旗,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任副砍,我火速辦了婚禮衔肢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘豁翎。我一直安慰自己角骤,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布心剥。 她就那樣靜靜地躺著邦尊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪优烧。 梳的紋絲不亂的頭發(fā)上蝉揍,一...
    開(kāi)封第一講書(shū)人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音畦娄,去河邊找鬼又沾。 笑死弊仪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的捍掺。 我是一名探鬼主播撼短,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼挺勿!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起喂柒,我...
    開(kāi)封第一講書(shū)人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤不瓶,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后灾杰,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蚊丐,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年艳吠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了麦备。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡昭娩,死狀恐怖凛篙,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情栏渺,我是刑警寧澤呛梆,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站磕诊,受9級(jí)特大地震影響填物,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜霎终,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一滞磺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧莱褒,春花似錦击困、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至炮障,卻和暖如春目派,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背胁赢。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工企蹭, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓谅摄,卻偏偏與公主長(zhǎng)得像徒河,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子送漠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容