scrapy信號(hào)(Signals)和數(shù)據(jù)收集(Stats Collection)記錄scarpy運(yùn)行時(shí)間和成功率

信號(hào)(Signals)

記錄運(yùn)行時(shí)間主要用的的就是scrapy的singal信號(hào)管理违霞,點(diǎn)擊查看詳情

根據(jù)各種信號(hào)記錄數(shù)量和時(shí)間杈湾。

數(shù)據(jù)收集(Stats Collection)

Scrapy 提供了方便的收集數(shù)據(jù)的機(jī)制澳叉。數(shù)據(jù)以 key/value 方式存儲(chǔ),值大多是計(jì)數(shù)值相种。該機(jī)制叫做數(shù)據(jù)收集器(Stats Collector)塑猖,可以通過(guò) Crawler API 的屬性 stats來(lái)使用。

無(wú)論數(shù)據(jù)收集(stats collection)開(kāi)啟或者關(guān)閉擅编,數(shù)據(jù)收集器永遠(yuǎn)都是可用的攀细。因此可以 import 進(jìn)自己的模塊并使用其 API(增加值或者設(shè)置新的狀態(tài)鍵(stats keys))。該做法是為了簡(jiǎn)化數(shù)據(jù)收集的方法:不應(yīng)該使用超過(guò)一行代碼來(lái)收集你的 spider爱态,Scrapy 擴(kuò)展或者任何你使用數(shù)據(jù)收集器代碼里頭的狀態(tài)谭贪。

數(shù)據(jù)收集器的另一個(gè)特性是(在啟用狀態(tài)下)很高效,(在關(guān)閉情況下)非常高效(幾乎察覺(jué)不到)锦担。

數(shù)據(jù)收集器對(duì)每個(gè) spider 保持一個(gè)狀態(tài)俭识。當(dāng) spider 啟動(dòng)時(shí),該表自動(dòng)打開(kāi)洞渔,當(dāng) spider 關(guān)閉時(shí)套媚,自動(dòng)關(guān)閉缚态。

常見(jiàn)數(shù)據(jù)收集器使用方法:

通過(guò) stats 屬性來(lái)使用數(shù)據(jù)收集器。下面是在擴(kuò)展中使用的例子:

class ExtensionThatAccessStats(object):

    def __init__(self, stats):
        self.stats = stats

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.stats)
#設(shè)置數(shù)據(jù):
stats.set_value('hostname', socket.gethostname())

#增加數(shù)據(jù)值:
stats.inc_value('pages_crawled')

#當(dāng)新的值比原來(lái)的值大時(shí)設(shè)置數(shù)據(jù):
stats.max_value('max_items_scraped', value)

#當(dāng)新的值比原來(lái)的值小時(shí)設(shè)置數(shù)據(jù):
stats.min_value('min_free_memory_percent', value)

#獲取數(shù)據(jù):
>>> stats.get_value('pages_crawled')
8

#獲取所有數(shù)據(jù):
>>> stats.get_stats()
{'pages_crawled': 1238, 'start_time': datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)}

結(jié)合信號(hào)使用

import datetime

from scrapy import signals

class CoreStats(object):

    def __init__(self, stats):
        self.stats = stats

    @classmethod
    def from_crawler(cls, crawler):
        o = cls(crawler.stats)
        crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(o.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(o.item_scraped, signal=signals.item_scraped)
        crawler.signals.connect(o.item_dropped, signal=signals.item_dropped)
        crawler.signals.connect(o.response_received, signal=signals.response_received)
        return o

    def spider_opened(self, spider):
        self.stats.set_value('start_time', datetime.datetime.utcnow(), spider=spider)

    def spider_closed(self, spider, reason):
        self.stats.set_value('finish_time', datetime.datetime.utcnow(), spider=spider)
        self.stats.set_value('finish_reason', reason, spider=spider)

    def item_scraped(self, item, spider):
        self.stats.inc_value('item_scraped_count', spider=spider)

    def response_received(self, spider):
        self.stats.inc_value('response_received_count', spider=spider)

    def item_dropped(self, item, spider, exception):
        reason = exception.__class__.__name__
        self.stats.inc_value('item_dropped_count', spider=spider)
        self.stats.inc_value('item_dropped_reasons_count/%s' % reason, spider=spider)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末堤瘤,一起剝皮案震驚了整個(gè)濱河市玫芦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌本辐,老刑警劉巖桥帆,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異慎皱,居然都是意外死亡老虫,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門茫多,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)祈匙,“玉大人,你說(shuō)我怎么就攤上這事天揖【站恚” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵宝剖,是天一觀的道長(zhǎng)洁闰。 經(jīng)常有香客問(wèn)我,道長(zhǎng)万细,這世上最難降的妖魔是什么扑眉? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮赖钞,結(jié)果婚禮上腰素,老公的妹妹穿的比我還像新娘。我一直安慰自己雪营,他們只是感情好弓千,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著献起,像睡著了一般洋访。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谴餐,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天姻政,我揣著相機(jī)與錄音,去河邊找鬼岂嗓。 笑死汁展,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播食绿,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼侈咕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了器紧?” 一聲冷哼從身側(cè)響起耀销,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎品洛,沒(méi)想到半個(gè)月后树姨,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體摩桶,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡桥状,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了硝清。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辅斟。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖芦拿,靈堂內(nèi)的尸體忽然破棺而出士飒,到底是詐尸還是另有隱情,我是刑警寧澤蔗崎,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布酵幕,位于F島的核電站,受9級(jí)特大地震影響缓苛,放射性物質(zhì)發(fā)生泄漏芳撒。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一未桥、第九天 我趴在偏房一處隱蔽的房頂上張望笔刹。 院中可真熱鬧,春花似錦冬耿、人聲如沸舌菜。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)日月。三九已至,卻和暖如春缤骨,著一層夾襖步出監(jiān)牢的瞬間山孔,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工荷憋, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留台颠,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像串前,于是被迫代替她去往敵國(guó)和親瘫里。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容