Scrapyd 部署

scrapy爬蟲寫好后半醉,需要用命令行運(yùn)行幽纷,如果能在網(wǎng)頁上操作就比較方便式塌。scrapyd部署就是為了解決這個(gè)問題,能夠在網(wǎng)頁端查看正在執(zhí)行的任務(wù)友浸,也能新建爬蟲任務(wù)峰尝,和終止爬蟲任務(wù),功能比較強(qiáng)大收恢。

一武学、安裝

1,安裝scrapyd

pip install scrapyd

2伦意, 安裝 scrapyd-deploy

pip install scrapyd-client

windows系統(tǒng)火窒,在c:\python27\Scripts下生成的是scrapyd-deploy,無法直接在命令行里運(yùn)行scrapd-deploy驮肉。
解決辦法:
在c:\python27\Scripts下新建一個(gè)scrapyd-deploy.bat熏矿,文件內(nèi)容如下:

@echo off
C:\Python27\python C:\Python27\Scripts\scrapyd-deploy %*

添加環(huán)境變量:C:\Python27\Scripts;

二心例、使用

1荔烧,運(yùn)行scrapyd

首先切換命令行路徑到Scrapy項(xiàng)目的根目錄下恨溜,
要執(zhí)行以下的命令胎许,需要先在命令行里執(zhí)行scrapyd,將scrapyd運(yùn)行起來

MacBook-Pro:~ usera$ scrapyd

/usr/local/bin/scrapyd:5: UserWarning: Module _markerlib was already imported from /Library/Python/2.7/site-packages/distribute-0.6.49-py2.7.egg/_markerlib/__init__.pyc, but /System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python is being added to sys.path
  from pkg_resources import load_entry_point
2016-09-24 16:00:21+0800 [-] Log opened.
2016-09-24 16:00:21+0800 [-] twistd 15.5.0 (/usr/bin/python 2.7.10) starting up.
2016-09-24 16:00:21+0800 [-] reactor class: twisted.internet.selectreactor.SelectReactor.
2016-09-24 16:00:21+0800 [-] Site starting on 6800
2016-09-24 16:00:21+0800 [-] Starting factory <twisted.web.server.Site instance at 0x102a21518>
2016-09-24 16:00:21+0800 [Launcher] Scrapyd 1.1.0 started: max_proc=16, runner='scrapyd.runner'

2栏妖,發(fā)布工程到scrapyd

a乱豆,配置scrapy.cfg

在scrapy.cfg中,取消#url = http://localhost:6800/前面的“#”吊趾,具體如下:,
然后在命令行中切換命令至scrapy工程根目錄宛裕,運(yùn)行命令:

scrapyd-deploy <target> -p <project>

示例:

scrapd-deploy -p MySpider
  • 驗(yàn)證是否發(fā)布成功
scrapyd-deploy -l

output:
TS                   http://localhost:6800/

一,開始使用

1论泛,先啟動 scrapyd揩尸,在命令行中執(zhí)行:

MyMacBook-Pro:MySpiderProject user$ scrapyd

2,創(chuàng)建爬蟲任務(wù)

curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider2
  • bug:
    scrapyd deploy shows 0 spiders by scrapyd-client
    scrapy中有的spider不出現(xiàn)屁奏,顯示只有0個(gè)spiders岩榆。
  • 解決
    需要注釋掉settings中的
# LOG_LEVEL = "ERROR"
# LOG_STDOUT = True
# LOG_FILE = "/tmp/spider.log"
# LOG_FORMAT = "%(asctime)s [%(name)s] %(levelname)s: %(message)s"

When setting LOG_STDOUT=True, scrapyd-deploy will return 'spiders: 0'. Because the output will be redirected to the file when execute 'scrapy list', like this: INFO:stdout:spider-name. Soget_spider_list can not parse it correctly.

3,查看爬蟲任務(wù)

在網(wǎng)頁中輸入:http://localhost:6800/

下圖為http://localhost:6800/jobs的內(nèi)容:

4坟瓢,運(yùn)行配置

配置文件:C:\Python27\Lib\site-packages\scrapyd-1.1.0-py2.7.egg\scrapyd\default_scrapyd.conf

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   = items
jobs_to_keep = 50
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs

參考

http://www.cnblogs.com/jinhaolin/p/5033733.html
https://scrapyd.readthedocs.io/en/latest/api.html#cancel-json

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末勇边,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子折联,更是在濱河造成了極大的恐慌粒褒,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件诚镰,死亡現(xiàn)場離奇詭異奕坟,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)清笨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進(jìn)店門月杉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人函筋,你說我怎么就攤上這事沙合〉煳保” “怎么了跌帐?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長绊率。 經(jīng)常有香客問我谨敛,道長,這世上最難降的妖魔是什么滤否? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任脸狸,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘炊甲。我一直安慰自己泥彤,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布卿啡。 她就那樣靜靜地躺著吟吝,像睡著了一般。 火紅的嫁衣襯著肌膚如雪颈娜。 梳的紋絲不亂的頭發(fā)上剑逃,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天,我揣著相機(jī)與錄音官辽,去河邊找鬼蛹磺。 笑死,一個(gè)胖子當(dāng)著我的面吹牛同仆,可吹牛的內(nèi)容都是我干的萤捆。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼俗批,長吁一口氣:“原來是場噩夢啊……” “哼鳖轰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起扶镀,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蕴侣,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后臭觉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體昆雀,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年蝠筑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了狞膘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,919評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡什乙,死狀恐怖挽封,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情臣镣,我是刑警寧澤辅愿,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站忆某,受9級特大地震影響点待,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜弃舒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一癞埠、第九天 我趴在偏房一處隱蔽的房頂上張望状原。 院中可真熱鬧,春花似錦苗踪、人聲如沸颠区。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瓦呼。三九已至,卻和暖如春测暗,著一層夾襖步出監(jiān)牢的瞬間央串,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工碗啄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留质和,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓稚字,卻偏偏與公主長得像饲宿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子胆描,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Scrapyd部署爬蟲 準(zhǔn)備工作 安裝scrapyd: pip install scrapyd安裝scrapyd-...
    愛撒謊的男孩閱讀 826評論 0 1
  • 為什么要用Scrapyd瘫想?Scrapyd是scrapinghub官方提供的爬蟲管理、部署昌讲、監(jiān)控的方案之一国夜,另一個(gè)是...
    EricTian閱讀 17,157評論 16 15
  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,701評論 4 46
  • 配置 首先在你的項(xiàng)目scrapy.cfg文件中添加你的部署配置 安裝 另外windows需要下載crul調(diào)度器(這...
    Maql閱讀 2,105評論 0 2
  • 這是一個(gè)一級標(biāo)題 這是一個(gè)二級標(biāo)題 這是一個(gè)三級標(biāo)題 這是一個(gè)四級標(biāo)題 這是一個(gè)五級標(biāo)題 這是一個(gè)六級標(biāo)題 列表 ...
    iyangxuqing閱讀 233評論 0 0