scrapy中間件實(shí)現(xiàn)增量爬蟲

前言

scrapy爬取網(wǎng)站數(shù)據(jù)的時(shí)候丛晦，一般第一次爬取為全量爬取，以后需要的都是增量爬取，或者爬取中斷之后需要繼續(xù)爬取老虫，那么這都需要爬取剩余未爬取的，而已經(jīng)爬取過的則不需要爬取茫多。為了提高爬取效率祈匙，已經(jīng)爬取過的地址最好通過判斷是否爬取，如果爬取過則丟棄天揖，否則交給調(diào)度器夺欲，由調(diào)度器安排爬取。

image.png

根據(jù)爬蟲框架的結(jié)構(gòu)圖可知今膊，scrapy中有兩個(gè)重要的中間件些阅，一個(gè)是Downloader Middlewares一個(gè)是Spider Middlewares 在spiders中yield scrapy.Request()的請(qǐng)求都會(huì)經(jīng)過spiderMiddlewares。查看官方文檔關(guān)于scrapy.contrib.spidermiddleware.SpiderMiddleware的process_spider_output(response, result, spider)方法的介紹：

當(dāng)Spider處理response返回result時(shí)斑唬，該方法被調(diào)用

可知在spider的parse方法中yied的item對(duì)象和request對(duì)象都會(huì)調(diào)用該方法市埋。那么增量爬蟲的判斷是否爬取過黎泣，如果爬取過則丟棄，否則交給調(diào)度器缤谎，這一功能可在此實(shí)現(xiàn)抒倚。本篇在不改變?cè)瓉?lái)spider的基礎(chǔ)上，通過中間件實(shí)現(xiàn)增量爬蟲坷澡。

具體實(shí)現(xiàn)

步驟一衡便、

新建數(shù)據(jù)庫(kù)操作文件db.py實(shí)現(xiàn)的功能：

mysql數(shù)據(jù)庫(kù)的配置信息
根據(jù)origin_url字段判斷url在數(shù)據(jù)庫(kù)中是否已經(jīng)存在
管道中使用的插入數(shù)據(jù)方法
為避免sql查詢時(shí)的數(shù)據(jù)庫(kù)連接的反復(fù)建立，使用單例模式

#!/usr/bin/env python

# -*- encoding: utf-8 -*-
import pymysql
import logging

class DB_MySQL():
    '''數(shù)據(jù)庫(kù)操作類'''
    HOST = 'localhost'
    DBNAME = 'hebei'
    USER = 'root'
    PASSWD = '123456'
    PORT = '3306'
    CHARSET = 'utf8'
    def __init__(self):
        self.conn = pymysql.connect(host=self.HOST, port=int(self.PORT), user=self.USER, passwd=self.PASSWD,
                                    db=self.DBNAME, charset=self.CHARSET)
        self.cur = self.conn.cursor()
    # 插入數(shù)據(jù)
    def insert(self, item):
        try:
            fields = item.keys()
            sql = 'insert into news(%s) value(%s)' % (','.join(fields), ','.join(['%s']*len(fields)))
            self.cur.execute(sql,[item[x] for x in fields])
            self.conn.commit()
        except Exception as e:
            logging.error('mysql插入數(shù)據(jù)執(zhí)行異常: %s' % str(e))

    # 判斷url是否已經(jīng)存在
    def url_is_exist(self, url):
        try:
            if self.cur.execute('select 1 from news where origin_url = %s limit 1', (url,)):
                return True
            else:
                return False
        except Exception as e:
            logging.error('mysql查詢origin_url是否存在執(zhí)行異常: ' + str(e))

    def close(self):
        self.cur.close()
        self.conn.close()

db_mysql = DB_MySQL()

中間件實(shí)現(xiàn)

process_spider_output()方法中需要先判斷對(duì)象是否為Request對(duì)象洋访，然后獲取該對(duì)象的url屬性镣陕，并判斷該url是否已經(jīng)存在，如果存在則yield None姻政。

class HbPolicyNewsSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            if isinstance(i, Request):
                referer = i.headers[b'Referer'] if b'Referer' in i.headers.keys() else ''
                if db_mysql.url_is_exist(i.url):
                    spider.logger.debug('url已存在丟棄請(qǐng)求：%s ,referer信息： %s' % (i.url, referer))
                    yield None
                else:
                    spider.logger.debug('新url請(qǐng)求：%s ,referer信息： %s' % (i.url, referer))
                    yield i
            else:
                yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

settings.py中啟用中間件

SPIDER_MIDDLEWARES = {
   'hb_policy_news.middlewares.HbPolicyNewsSpiderMiddleware': 543,
}

最后編輯于：2019.01.22 10:04:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末呆抑，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子汁展，更是在濱河造成了極大的恐慌鹊碍，老刑警劉巖，帶你破解...
沈念sama閱讀 218,682評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件食绿，死亡現(xiàn)場(chǎng)離奇詭異侈咕，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)器紧，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,277評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門耀销，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人铲汪，你說我怎么就攤上這事熊尉。” “怎么了掌腰？”我有些...
開封第一講書人閱讀 165,083評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵狰住，是天一觀的道長(zhǎng)。經(jīng)常有香客問我齿梁，道長(zhǎng)催植，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,763評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任勺择，我火速辦了婚禮创南，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘酵幕。我一直安慰自己扰藕，他們只是感情好缓苛，可當(dāng)我...
茶點(diǎn)故事閱讀 67,785評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布芳撒。她就那樣靜靜地躺著邓深，像睡著了一般。火紅的嫁衣襯著肌膚如雪笔刹。梳的紋絲不亂的頭發(fā)上芥备，一...
開封第一講書人閱讀 51,624評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音舌菜，去河邊找鬼萌壳。笑死，一個(gè)胖子當(dāng)著我的面吹牛日月，可吹牛的內(nèi)容都是我干的袱瓮。我是一名探鬼主播，決...
沈念sama閱讀 40,358評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼爱咬，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼尺借！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起精拟，我...
開封第一講書人閱讀 39,261評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤燎斩，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后蜂绎，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體栅表，經(jīng)...
沈念sama閱讀 45,722評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年师枣，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了怪瓶。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,030評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡践美，死狀恐怖劳殖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情拨脉，我是刑警寧澤哆姻，帶...
沈念sama閱讀 35,737評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站玫膀，受9級(jí)特大地震影響矛缨，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜帖旨，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,360評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一箕昭、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧解阅，春花似錦落竹、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,941評(píng)論 0贊 22
一樁弒父案述召，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)朱转。三九已至，卻和暖如春积暖，著一層夾襖步出監(jiān)牢的瞬間藤为，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,057評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工夺刑，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留缅疟，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,237評(píng)論 3贊 371
代替公主和親
正文我出身青樓遍愿，卻偏偏與公主長(zhǎng)得像存淫，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子沼填，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,976評(píng)論 2贊 355

scrapy中間件實(shí)現(xiàn)增量爬蟲

前言

具體實(shí)現(xiàn)

步驟一衡便、

中間件實(shí)現(xiàn)

settings.py中啟用中間件

推薦閱讀更多精彩內(nèi)容