scrapyd使用修改api

安裝

服務(wù)
pip install scrapyd
使用命令行工具
python3 -m pip install scrapyd-client
python連接包
python3 -m pip install python-scrapyd-api
找到python文件路徑供置,設(shè)置scrapyd可以直接執(zhí)行

image.png

啟動服務(wù)

scrapyd

image.png

啟動會讀取python包下的默認配置文件
image.png

max_proc
最大的scrapy線程數(shù),默認值是0,代表不限制哩都,表示可用cpu個數(shù) * max_proc_per_cpu
max_proc_per_cpu
每個CPU最大的scrapy線程數(shù)
bind_address
綁定ip虹钮,修改為0.0.0.0就可以在別的機器訪問服務(wù)器了(防火墻端口要放開)
http_port
端口
運行scrapyd后,在瀏覽器打開對應(yīng)的地址,可以看到如下界面:
image.png

example里面的例子不是很全埃碱,可以修改項目下的website.py,添加

<p><code>curl http://localhost:6800/schedule.json -d project=default -d spider=somespider</code></p>
<p><code> curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444 </code></p>
<p><code> curl http://localhost:6800/listprojects.json </code></p>
<p><code> curl http://localhost:6800/listversions.json?project=myproject </code></p>
<p><code> curl http://localhost:6800/listspiders.json?project=myproject </code></p><p><code>  curl http://localhost:6800/listjobs.json?project=myproject </code></p>
<p><code> curl http://localhost:6800/delproject.json -d project=myproject </code></p>
<p><code> curl http://localhost:6800/delversion.json -d project=myproject -d version=r99 </code></p>

修改完成如下:

image.png

到這里scrapyd服務(wù)啟動完成嚎尤,下面我們通過一個deploy新浪新聞爬蟲說明如何把一個爬蟲項目上傳到scrapyd
cd sinanew進入爬蟲項目頂目錄可以看到如下結(jié)構(gòu)
image.png

其中scrapy.cfg就是跟deploy有關(guān)的配置文件
image.png

url參數(shù)如果是本機默認即可荔仁,project代表項目名稱是scrapyd里面每個project的標識
上傳使用scrapyd-deploy命令,安裝scrapyd-client時會有可執(zhí)行文件放在python/bin目錄下芽死,同樣需要做個軟連接
ln -s /usr/local/bin/python3/bin/scrapyd-deploy /usr/bin/scrapyd-deploy
image.png

scrapyd-deploy -l
會根據(jù)scrapy.cfg文件列出可以選擇的tag和project,tag是:后面的標識
image.png

image.png

上傳使用命令
scrapyd-deploy <target> -p <project> --version <version>
scrapyd-deploy abc -p sinanews --version 1
version參數(shù)可空乏梁,會隨機生成一串,成功deploy返回如下信息:
image.png

同時回到web界面會看到剛剛上傳的項目关贵。
image.png

試著使用一下api
list project

[root@localhost sinanews]# curl http://localhost:6800/listprojects.json
{"node_name": "localhost.localdomain", "status": "ok", "projects": ["sinanews"]}

list version

[root@localhost sinanews]# curl http://localhost:6800/listversions.json?project=sinanews
{"node_name": "localhost.localdomain", "status": "ok", "versions": ["1"]}

再deploy一個版本2遇骑,然后list version

[root@localhost sinanews]# curl http://localhost:6800/listversions.json?project=sinanews
{"node_name": "localhost.localdomain", "status": "ok", "versions": ["1", "2"]}

list spiders

[root@localhost sinanews]# curl http://localhost:6800/listspiders.json?project=sinanews
{"node_name": "localhost.localdomain", "status": "ok", "spiders": ["sina"]}

運行爬蟲

[root@localhost sinanews]# curl http://localhost:6800/schedule.json -d project=sinanews -d spider=sina
{"node_name": "localhost.localdomain", "status": "ok", "jobid": "2157910a9ef811e995c020040fe78714"}

取消任務(wù)

[root@localhost sinanews]# curl http://localhost:6800/cancel.json -d project=sinanews -d job=2157910a9ef811e995c020040fe78714
{"node_name": "localhost.localdomain", "status": "ok", "prevstate": null}

刪除項目

curl http://localhost:6800/delproject.json -d project=myproject

刪掉指定版本

curl http://localhost:6800/delversion.json -d project=myproject -d version=r99

日志文件存放
日志目錄/項目名稱/爬蟲名稱/任務(wù)ID.log,存儲個數(shù)根據(jù)配置文檔來定

image.png

egg
項目代碼上傳會打包成egg文件
image.png

分別是eggs目錄/項目名稱/代碼版本號

使用scrapyd_api

調(diào)度

from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://localhost:6800')
scrapyd.schedule(project_name, spider_name)

源碼修改,方便使用cancel

#scrapyd.webservice.py
class SpiderId(WsResource):

    def render_POST(self, txrequest):
        args = native_stringify_dict(copy(txrequest.args), keys_only=False)
        project = args['project'][0]
        spider = args['spider'][0]
        spiders = self.root.launcher.processes.values()
        running = [(s.job,s.start_time.isoformat(' '))
                   for s in spiders if (s.project == project and s.spider == spider)]
        # queue = self.root.poller.queues[project]
        # pending = [(x["_job"],) for x in queue.list() if x["name"] == spider]
        finished = [(s.job,s.start_time.isoformat(' ')) for s in self.root.launcher.finished
            if (s.project == project and s.spider == spider)]
        alist = running + finished
        if len(alist) == 0:
            return {"node_name": self.root.nodename, "status": "error", "message": 'no such project or spider'}
        last_id = max(alist,key=lambda a:a[0])
        return {"node_name": self.root.nodename, "status": "ok", 'id': last_id[0]}
#scrapyd.default_scrapyd.conf
spiderid.json     = scrapyd.webservice.SpiderId
#scrapyd.website.py
<p><code> curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444 </code></p>
<p><code> curl http://localhost:6800/listprojects.json </code></p>
<p><b><code> curl http://localhost:6800/spiderid.json -d project=myproject -d spider=spider</b></code></p>
<p><code> curl http://localhost:6800/listversions.json?project=myproject </code></p>
<p><code> curl http://localhost:6800/listspiders.json?project=myproject </code></p><p><code>  curl http://localhost:6800/listjobs.json?project=myproject </code></p>
<p><code> curl http://localhost:6800/delproject.json -d project=myproject </code></p>
<p><code> curl http://localhost:6800/delversion.json -d project=myproject -d version=r99 </code></p>

scrapyd-api代碼修改

#contants.py
SPIDERID_ENDPOINT = 'spiderid'
DEFAULT_ENDPOINTS = {
    ADD_VERSION_ENDPOINT: '/addversion.json',
    CANCEL_ENDPOINT: '/cancel.json',
    DELETE_PROJECT_ENDPOINT: '/delproject.json',
    DELETE_VERSION_ENDPOINT: '/delversion.json',
    LIST_JOBS_ENDPOINT: '/listjobs.json',
    LIST_PROJECTS_ENDPOINT: '/listprojects.json',
    LIST_SPIDERS_ENDPOINT: '/listspiders.json',
    LIST_VERSIONS_ENDPOINT: '/listversions.json',
    SCHEDULE_ENDPOINT: '/schedule.json',
    SPIDERID_ENDPOINT: '/spiderid.json',
}

wrapper.py

def spiderid(self, project, spider):
        """
        """
        url = self._build_url(constants.SPIDERID_ENDPOINT)
        params = {'project': project, 'spider': spider}
        json = self.client.post(url, data=params)
        return json['id']
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末揖曾,一起剝皮案震驚了整個濱河市落萎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌炭剪,老刑警劉巖练链,帶你破解...
    沈念sama閱讀 221,695評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異奴拦,居然都是意外死亡媒鼓,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來绿鸣,“玉大人疚沐,你說我怎么就攤上這事∶蹲ぃ” “怎么了濒旦?”我有些...
    開封第一講書人閱讀 168,130評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長再登。 經(jīng)常有香客問我尔邓,道長,這世上最難降的妖魔是什么锉矢? 我笑而不...
    開封第一講書人閱讀 59,648評論 1 297
  • 正文 為了忘掉前任梯嗽,我火速辦了婚禮,結(jié)果婚禮上沽损,老公的妹妹穿的比我還像新娘灯节。我一直安慰自己,他們只是感情好绵估,可當我...
    茶點故事閱讀 68,655評論 6 397
  • 文/花漫 我一把揭開白布炎疆。 她就那樣靜靜地躺著,像睡著了一般国裳。 火紅的嫁衣襯著肌膚如雪形入。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,268評論 1 309
  • 那天缝左,我揣著相機與錄音亿遂,去河邊找鬼。 笑死渺杉,一個胖子當著我的面吹牛蛇数,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播是越,決...
    沈念sama閱讀 40,835評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼耳舅,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了英妓?” 一聲冷哼從身側(cè)響起挽放,我...
    開封第一講書人閱讀 39,740評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蔓纠,沒想到半個月后辑畦,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,286評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡腿倚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,375評論 3 340
  • 正文 我和宋清朗相戀三年纯出,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,505評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡暂筝,死狀恐怖箩言,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情焕襟,我是刑警寧澤陨收,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站鸵赖,受9級特大地震影響务漩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜它褪,卻給世界環(huán)境...
    茶點故事閱讀 41,873評論 3 333
  • 文/蒙蒙 一饵骨、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧茫打,春花似錦居触、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至抬旺,卻和暖如春砖瞧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背嚷狞。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留荣堰,地道東北人床未。 一個月前我還...
    沈念sama閱讀 48,921評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像振坚,于是被迫代替她去往敵國和親薇搁。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,515評論 2 359

推薦閱讀更多精彩內(nèi)容