scrapy中間件實(shí)現(xiàn)增量爬蟲

前言

scrapy爬取網(wǎng)站數(shù)據(jù)的時(shí)候丛晦,一般第一次爬取為全量爬取,以后需要的都是增量爬取,或者爬取中斷之后需要繼續(xù)爬取老虫,那么這都需要爬取剩余未爬取的,而已經(jīng)爬取過的則不需要爬取茫多。為了提高爬取效率祈匙,已經(jīng)爬取過的地址最好通過判斷是否爬取,如果爬取過則丟棄天揖,否則交給調(diào)度器夺欲,由調(diào)度器安排爬取。

image.png

根據(jù)爬蟲框架的結(jié)構(gòu)圖可知今膊,scrapy中有兩個(gè)重要的中間件些阅,一個(gè)是Downloader Middlewares一個(gè)是Spider Middlewares 在spiders中yield scrapy.Request()的請(qǐng)求都會(huì)經(jīng)過spiderMiddlewares。查看官方文檔關(guān)于scrapy.contrib.spidermiddleware.SpiderMiddleware的process_spider_output(response, result, spider)方法的介紹:

當(dāng)Spider處理response返回result時(shí)斑唬,該方法被調(diào)用

可知在spider的parse方法中yied的item對(duì)象和request對(duì)象都會(huì)調(diào)用該方法市埋。那么增量爬蟲的判斷是否爬取過黎泣,如果爬取過則丟棄,否則交給調(diào)度器缤谎,這一功能可在此實(shí)現(xiàn)抒倚。本篇在不改變?cè)瓉?lái)spider的基礎(chǔ)上,通過中間件實(shí)現(xiàn)增量爬蟲坷澡。

具體實(shí)現(xiàn)

步驟一衡便、

新建數(shù)據(jù)庫(kù)操作文件db.py實(shí)現(xiàn)的功能:

  • mysql數(shù)據(jù)庫(kù)的配置信息
  • 根據(jù)origin_url字段判斷url在數(shù)據(jù)庫(kù)中是否已經(jīng)存在
  • 管道中使用的插入數(shù)據(jù)方法
  • 為避免sql查詢時(shí)的數(shù)據(jù)庫(kù)連接的反復(fù)建立,使用單例模式
#!/usr/bin/env python

# -*- encoding: utf-8 -*-
import pymysql
import logging

class DB_MySQL():
    '''數(shù)據(jù)庫(kù)操作類'''
    HOST = 'localhost'
    DBNAME = 'hebei'
    USER = 'root'
    PASSWD = '123456'
    PORT = '3306'
    CHARSET = 'utf8'
    def __init__(self):
        self.conn = pymysql.connect(host=self.HOST, port=int(self.PORT), user=self.USER, passwd=self.PASSWD,
                                    db=self.DBNAME, charset=self.CHARSET)
        self.cur = self.conn.cursor()
    # 插入數(shù)據(jù)
    def insert(self, item):
        try:
            fields = item.keys()
            sql = 'insert into news(%s) value(%s)' % (','.join(fields), ','.join(['%s']*len(fields)))
            self.cur.execute(sql,[item[x] for x in fields])
            self.conn.commit()
        except Exception as e:
            logging.error('mysql插入數(shù)據(jù)執(zhí)行異常: %s' % str(e))

    # 判斷url是否已經(jīng)存在
    def url_is_exist(self, url):
        try:
            if self.cur.execute('select 1 from news where origin_url = %s limit 1', (url,)):
                return True
            else:
                return False
        except Exception as e:
            logging.error('mysql查詢origin_url是否存在執(zhí)行異常: ' + str(e))

    def close(self):
        self.cur.close()
        self.conn.close()

db_mysql = DB_MySQL()

中間件實(shí)現(xiàn)

process_spider_output()方法中需要先判斷對(duì)象是否為Request對(duì)象洋访,然后獲取該對(duì)象的url屬性镣陕,并判斷該url是否已經(jīng)存在,如果存在則yield None姻政。

class HbPolicyNewsSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            if isinstance(i, Request):
                referer = i.headers[b'Referer'] if b'Referer' in i.headers.keys() else ''
                if db_mysql.url_is_exist(i.url):
                    spider.logger.debug('url已存在丟棄請(qǐng)求:%s ,referer信息: %s' % (i.url, referer))
                    yield None
                else:
                    spider.logger.debug('新url請(qǐng)求:%s ,referer信息: %s' % (i.url, referer))
                    yield i
            else:
                yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

settings.py中啟用中間件

SPIDER_MIDDLEWARES = {
   'hb_policy_news.middlewares.HbPolicyNewsSpiderMiddleware': 543,
}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末呆抑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子汁展,更是在濱河造成了極大的恐慌鹊碍,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件食绿,死亡現(xiàn)場(chǎng)離奇詭異侈咕,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)器紧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門耀销,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人铲汪,你說我怎么就攤上這事熊尉。” “怎么了掌腰?”我有些...
    開封第一講書人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵狰住,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我齿梁,道長(zhǎng)催植,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任勺择,我火速辦了婚禮创南,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘酵幕。我一直安慰自己扰藕,他們只是感情好缓苛,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開白布芳撒。 她就那樣靜靜地躺著邓深,像睡著了一般。 火紅的嫁衣襯著肌膚如雪笔刹。 梳的紋絲不亂的頭發(fā)上芥备,一...
    開封第一講書人閱讀 51,624評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音舌菜,去河邊找鬼萌壳。 笑死,一個(gè)胖子當(dāng)著我的面吹牛日月,可吹牛的內(nèi)容都是我干的袱瓮。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼爱咬,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼尺借!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起精拟,我...
    開封第一講書人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤燎斩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后蜂绎,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體栅表,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年师枣,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了怪瓶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡践美,死狀恐怖劳殖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情拨脉,我是刑警寧澤哆姻,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站玫膀,受9級(jí)特大地震影響矛缨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜帖旨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一箕昭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧解阅,春花似錦落竹、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)朱转。三九已至,卻和暖如春积暖,著一層夾襖步出監(jiān)牢的瞬間藤为,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工夺刑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留缅疟,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓遍愿,卻偏偏與公主長(zhǎng)得像存淫,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子沼填,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容