第一步:安裝使用到的相關(guān)庫,終端進入有XXX.cfg文件的這個目錄下
scrapyd
- 是運行scrapy爬蟲的服務程序,它支持以http命令方式發(fā)布、刪除紧索、啟動、停止爬蟲程序。而且scrapyd可以同時管理多個爬蟲,每個爬蟲還可以有多個版本
pip3 install scrapyd
scrapyd-client
- 發(fā)布爬蟲需要使用另一個專用工具峭梳,就是將代碼打包為EGG文件,其次需要將EGG文件上傳到遠程主機上這些操作需要scrapyd-client來幫助我們完成
pip3 install scrapyd-client
- 安裝完成后可以使用如下命令來檢查是否安裝成功
scrapyd-deploy -h
出現(xiàn)以下信息表示下載成功
Usage: scrapyd-deploy [options] [ [target] | -l | -L <target> ]
Deploy Scrapy project to Scrapyd server
Options:
-h, --help show this help message and exit
-p PROJECT, --project=PROJECT
the project name in the target
-v VERSION, --version=VERSION
the version to deploy. Defaults to current timestamp
-l, --list-targets list available targets
-a, --deploy-all-targets
deploy all targets
-d, --debug debug mode (do not remove build dir)
-L TARGET, --list-projects=TARGET
list available projects on TARGET
--egg=FILE use the given egg, instead of building it
--build-egg=FILE only build the egg, don't deploy it
注意:如果你使用windows的系統(tǒng)虱而,需要進行以下配置
-
注意你的python運行環(huán)境筏餐,如果你是虛擬環(huán)境下運行的,你需要找到你的虛擬環(huán)境目錄下的Scripts文件夾牡拇。新建一個:scrapyd-deploy.bat文件魁瞪,如下圖:
image.png - 打開這個文件寫入:
@echo off
"D:\python3.5\python3.exe(你當前環(huán)境的python解釋器路徑)" "D:\python3.5\Scripts\scrapyd-deploy(存放scrapyd-deploy文件的路徑)" %1 %2 %3 %4 %5 %6 %7 %8 %9
- 輸入命令
scrapyd-deploy -h
出現(xiàn)以上那一堆信息說明安裝成功
第二步:修改scrapy項目目錄下的scrapy.cfg配置文件
- 首先需要修改scrapy.cfg (項目的配置文件)
[deploy]
url=http://localhost:6800 # 本地
# 部署云服務器
url = 云服務器公網(wǎng)IP
project=項目名稱
第三步:運行環(huán)境
scrapyd
常用命令
- 添加項目
scrapyd-deploy -p 項目名稱 --version 1.0(version版本號,可以省略)
- 安裝curl
ubuntu:sudo apt-get install curl
windows: curl官網(wǎng)下載 - 調(diào)度爬蟲開始運行
curl http://localhost:6800/schedule.json -d project=項目名稱 -d spider=xcfCrawlSpider
- 關(guān)閉爬蟲
curl http://localhost:6800/cancel.json -d project=項目名稱 -d job="jobid"
- 獲取部署的項目列表
- 獲取項目的版本號
- 獲取項目下的爬蟲文件
- 獲取爬蟲的運行狀態(tài)
- 刪除對應版本的項目
curl http://localhost:6800/delversion.json -d project=項目名稱 -d version=r99
- 直接刪除項目
curl http://localhost:6800/delproject.json -d project=項目名稱