scrapyd使用修改api

安裝

服務(wù)
pip install scrapyd
使用命令行工具
python3 -m pip install scrapyd-client
python連接包
python3 -m pip install python-scrapyd-api
找到python文件路徑供置，設(shè)置scrapyd可以直接執(zhí)行

image.png

啟動服務(wù)

scrapyd

image.png

啟動會讀取python包下的默認配置文件

image.png

max_proc
最大的scrapy線程數(shù)，默認值是0，代表不限制哩都，表示可用cpu個數(shù) * max_proc_per_cpu
max_proc_per_cpu
每個CPU最大的scrapy線程數(shù)
bind_address
綁定ip虹钮，修改為0.0.0.0就可以在別的機器訪問服務(wù)器了（防火墻端口要放開）
http_port
端口
運行scrapyd后，在瀏覽器打開對應(yīng)的地址，可以看到如下界面：

image.png

example里面的例子不是很全埃碱，可以修改項目下的website.py,添加

<p><code>curl http://localhost:6800/schedule.json -d project=default -d spider=somespider</code></p>
<p><code> curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444 </code></p>
<p><code> curl http://localhost:6800/listprojects.json </code></p>
<p><code> curl http://localhost:6800/listversions.json?project=myproject </code></p>
<p><code> curl http://localhost:6800/listspiders.json?project=myproject </code></p><p><code>  curl http://localhost:6800/listjobs.json?project=myproject </code></p>
<p><code> curl http://localhost:6800/delproject.json -d project=myproject </code></p>
<p><code> curl http://localhost:6800/delversion.json -d project=myproject -d version=r99 </code></p>

修改完成如下：

image.png

到這里scrapyd服務(wù)啟動完成嚎尤，下面我們通過一個deploy新浪新聞爬蟲說明如何把一個爬蟲項目上傳到scrapyd
cd sinanew進入爬蟲項目頂目錄可以看到如下結(jié)構(gòu)

image.png

其中scrapy.cfg就是跟deploy有關(guān)的配置文件

image.png

url參數(shù)如果是本機默認即可荔仁，project代表項目名稱是scrapyd里面每個project的標識
上傳使用scrapyd-deploy命令，安裝scrapyd-client時會有可執(zhí)行文件放在python/bin目錄下芽死，同樣需要做個軟連接
ln -s /usr/local/bin/python3/bin/scrapyd-deploy /usr/bin/scrapyd-deploy

image.png

scrapyd-deploy -l
會根據(jù)scrapy.cfg文件列出可以選擇的tag和project,tag是：后面的標識

image.png

上傳使用命令
scrapyd-deploy <target> -p <project> --version <version>
scrapyd-deploy abc -p sinanews --version 1
version參數(shù)可空乏梁，會隨機生成一串，成功deploy返回如下信息：

image.png

同時回到web界面會看到剛剛上傳的項目关贵。

image.png

試著使用一下api
list project

[root@localhost sinanews]# curl http://localhost:6800/listprojects.json
{"node_name": "localhost.localdomain", "status": "ok", "projects": ["sinanews"]}

list version

[root@localhost sinanews]# curl http://localhost:6800/listversions.json?project=sinanews
{"node_name": "localhost.localdomain", "status": "ok", "versions": ["1"]}

再deploy一個版本2遇骑，然后list version

[root@localhost sinanews]# curl http://localhost:6800/listversions.json?project=sinanews
{"node_name": "localhost.localdomain", "status": "ok", "versions": ["1", "2"]}

list spiders

[root@localhost sinanews]# curl http://localhost:6800/listspiders.json?project=sinanews
{"node_name": "localhost.localdomain", "status": "ok", "spiders": ["sina"]}

運行爬蟲

[root@localhost sinanews]# curl http://localhost:6800/schedule.json -d project=sinanews -d spider=sina
{"node_name": "localhost.localdomain", "status": "ok", "jobid": "2157910a9ef811e995c020040fe78714"}

取消任務(wù)

[root@localhost sinanews]# curl http://localhost:6800/cancel.json -d project=sinanews -d job=2157910a9ef811e995c020040fe78714
{"node_name": "localhost.localdomain", "status": "ok", "prevstate": null}

刪除項目

curl http://localhost:6800/delproject.json -d project=myproject

刪掉指定版本

curl http://localhost:6800/delversion.json -d project=myproject -d version=r99

日志文件存放
日志目錄/項目名稱/爬蟲名稱/任務(wù)ID.log,存儲個數(shù)根據(jù)配置文檔來定

image.png

egg
項目代碼上傳會打包成egg文件

image.png

分別是eggs目錄/項目名稱/代碼版本號

使用scrapyd_api

調(diào)度

from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://localhost:6800')
scrapyd.schedule(project_name, spider_name)

源碼修改，方便使用cancel

#scrapyd.webservice.py
class SpiderId(WsResource):

    def render_POST(self, txrequest):
        args = native_stringify_dict(copy(txrequest.args), keys_only=False)
        project = args['project'][0]
        spider = args['spider'][0]
        spiders = self.root.launcher.processes.values()
        running = [(s.job,s.start_time.isoformat(' '))
                   for s in spiders if (s.project == project and s.spider == spider)]
        # queue = self.root.poller.queues[project]
        # pending = [(x["_job"],) for x in queue.list() if x["name"] == spider]
        finished = [(s.job,s.start_time.isoformat(' ')) for s in self.root.launcher.finished
            if (s.project == project and s.spider == spider)]
        alist = running + finished
        if len(alist) == 0:
            return {"node_name": self.root.nodename, "status": "error", "message": 'no such project or spider'}
        last_id = max(alist,key=lambda a:a[0])
        return {"node_name": self.root.nodename, "status": "ok", 'id': last_id[0]}

#scrapyd.default_scrapyd.conf
spiderid.json     = scrapyd.webservice.SpiderId

#scrapyd.website.py
<p><code> curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444 </code></p>
<p><code> curl http://localhost:6800/listprojects.json </code></p>
<p><b><code> curl http://localhost:6800/spiderid.json -d project=myproject -d spider=spider</b></code></p>
<p><code> curl http://localhost:6800/listversions.json?project=myproject </code></p>
<p><code> curl http://localhost:6800/listspiders.json?project=myproject </code></p><p><code>  curl http://localhost:6800/listjobs.json?project=myproject </code></p>
<p><code> curl http://localhost:6800/delproject.json -d project=myproject </code></p>
<p><code> curl http://localhost:6800/delversion.json -d project=myproject -d version=r99 </code></p>

scrapyd-api代碼修改

#contants.py
SPIDERID_ENDPOINT = 'spiderid'
DEFAULT_ENDPOINTS = {
    ADD_VERSION_ENDPOINT: '/addversion.json',
    CANCEL_ENDPOINT: '/cancel.json',
    DELETE_PROJECT_ENDPOINT: '/delproject.json',
    DELETE_VERSION_ENDPOINT: '/delversion.json',
    LIST_JOBS_ENDPOINT: '/listjobs.json',
    LIST_PROJECTS_ENDPOINT: '/listprojects.json',
    LIST_SPIDERS_ENDPOINT: '/listspiders.json',
    LIST_VERSIONS_ENDPOINT: '/listversions.json',
    SCHEDULE_ENDPOINT: '/schedule.json',
    SPIDERID_ENDPOINT: '/spiderid.json',
}

wrapper.py

def spiderid(self, project, spider):
        """
        """
        url = self._build_url(constants.SPIDERID_ENDPOINT)
        params = {'project': project, 'spider': spider}
        json = self.client.post(url, data=params)
        return json['id']

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末揖曾，一起剝皮案震驚了整個濱河市落萎，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌炭剪，老刑警劉巖练链，帶你破解...
沈念sama閱讀 221,695評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異奴拦，居然都是意外死亡媒鼓，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,569評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來绿鸣，“玉大人疚沐，你說我怎么就攤上這事∶蹲ぃ” “怎么了濒旦？”我有些...
開封第一講書人閱讀 168,130評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長再登。經(jīng)常有香客問我尔邓，道長，這世上最難降的妖魔是什么锉矢？我笑而不...
開封第一講書人閱讀 59,648評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任梯嗽，我火速辦了婚禮，結(jié)果婚禮上沽损，老公的妹妹穿的比我還像新娘灯节。我一直安慰自己，他們只是感情好绵估，可當我...
茶點故事閱讀 68,655評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布炎疆。她就那樣靜靜地躺著，像睡著了一般国裳。火紅的嫁衣襯著肌膚如雪形入。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,268評論 1贊 309
城市分裂傳說
那天缝左，我揣著相機與錄音亿遂，去河邊找鬼。笑死渺杉，一個胖子當著我的面吹牛蛇数，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播是越，決...
沈念sama閱讀 40,835評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼耳舅，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了英妓？” 一聲冷哼從身側(cè)響起挽放，我...
開封第一講書人閱讀 39,740評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎蔓纠，沒想到半個月后辑畦，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,286評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡腿倚，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,375評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年纯出，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,505評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡暂筝，死狀恐怖箩言，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情焕襟，我是刑警寧澤陨收，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站鸵赖，受9級特大地震影響务漩，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜它褪，卻給世界環(huán)境...
茶點故事閱讀 41,873評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一饵骨、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧茫打，春花似錦居触、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,357評論 0贊 24
一樁弒父案轮洋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至抬旺，卻和暖如春砖瞧，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背嚷狞。一陣腳步聲響...
開封第一講書人閱讀 33,466評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留荣堰，地道東北人床未。一個月前我還...
沈念sama閱讀 48,921評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像振坚，于是被迫代替她去往敵國和親薇搁。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,515評論 2贊 359

scrapyd使用修改api

安裝

啟動服務(wù)

使用scrapyd_api

源碼修改，方便使用cancel

wrapper.py

推薦閱讀更多精彩內(nèi)容