Scrapy源碼學習-請求去重(單機)

請求去重

這是爬蟲崗一道高頻出現(xiàn)的面試題：

Q：對于重復的請求浊闪，scrapy是如何去重的删铃？去重原理是什么？請求是如何計算唯一性的攒射？

帶著這個問題醋旦，進入今天的主題。

DUPEFILTER_CLASS

在scrapy項目配置中会放，DUPEFILTER_CLASS是框架對請求去重規(guī)則的設(shè)置項饲齐。默認的類路徑：scrapy.dupefilters.RFPDupeFilter。

進入到文件中咧最，觀察到類RFPDupeFilter繼承自BaseDupeFilter捂人，而BaseDupeFilter似乎什么都沒做，只是定義了一些方法矢沿。所以滥搭，真正的去重核心代碼都在RFPDupeFilter類中。逐行分析下其原理咨察。

RFPDupeFilter

class RFPDupeFilter(BaseDupeFilter):
    """Request Fingerprint duplicates filter"""

    def __init__(self, path=None, debug=False):
        self.file = None
        # 用python內(nèi)置set()作為請求的指紋
        # set的特性：無序不重復元素集
        self.fingerprints = set()
        self.logdupes = True
        self.debug = debug
        self.logger = logging.getLogger(__name__)
        # 本地持久化請求指紋
        if path:
            self.file = open(os.path.join(path, 'requests.seen'), 'a+')
            self.file.seek(0)
            self.fingerprints.update(x.rstrip() for x in self.file)

    @classmethod
    def from_settings(cls, settings):
        # 配置中開啟DEBUG论熙，就會持久化文件
        debug = settings.getbool('DUPEFILTER_DEBUG')
        return cls(job_dir(settings), debug)

    def request_seen(self, request):
        # ！Ｉ阌脓诡！核心，用于檢測指紋是否存在媒役。
        # 使用request_fingerprint來獲取請求的指紋
        fp = self.request_fingerprint(request)
        # 指紋在集合中祝谚，返回True
        if fp in self.fingerprints:
            return True
        # 不在集合中，追加到集合里
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + '\n')

    def request_fingerprint(self, request):
        # 調(diào)用scrapy的request_fingerprint來進行指紋計算
        return request_fingerprint(request)

    def close(self, reason):
        # 資源銷毀
        if self.file:
            self.file.close()

    def log(self, request, spider):
        # 日志的輸出和記錄
        if self.debug:
            msg = "Filtered duplicate request: %(request)s (referer: %(referer)s)"
            args = {'request': request, 'referer': referer_str(request)}
            self.logger.debug(msg, args, extra={'spider': spider})
        elif self.logdupes:
            msg = ("Filtered duplicate request: %(request)s"
                   " - no more duplicates will be shown"
                   " (see DUPEFILTER_DEBUG to show all duplicates)")
            self.logger.debug(msg, {'request': request}, extra={'spider': spider})
            self.logdupes = False

        spider.crawler.stats.inc_value('dupefilter/filtered', spider=spider)

上述代碼非常簡單酣衷，簡單到任何人都可以自己輕松寫一個交惯。其中request_seen方法用于檢測請求是否重復，返回True則重復，否則通過席爽。其中核心的是調(diào)用了request_fingerprint來計算指紋意荤。進去看看。

request_fingerprint

The request fingerprint is a hash that uniquely identifies the resource the request points to
請求指紋是唯一標識請求指向的資源的哈希值

def request_fingerprint(request, include_headers=None, keep_fragments=False):
    # 是否計算headers
    if include_headers:
        include_headers = tuple(to_bytes(h.lower()) for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    cache_key = (include_headers, keep_fragments)
    if cache_key not in cache:
        # 開始計算只锻，加密算法sha1
        fp = hashlib.sha1()
        # 將請求方式和請求url玖像，請求的body加入計算，
        # 此處的url如果指向同一個資源齐饮，同樣認為一樣捐寥，比如：
             # http://www.example.com/query?id=111&cat=222
            # http://www.example.com/query?cat=222&id=111
        # 這兩個url指向同一目標，我們也認為是重復的request.url
        fp.update(to_bytes(request.method))
        fp.update(to_bytes(canonicalize_url(request.url, keep_fragments=keep_fragments)))
        fp.update(request.body or b'')
        # headers加入計算
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[cache_key] = fp.hexdigest()
    return cache[cache_key]

調(diào)度器的執(zhí)行流程

在scrapy的調(diào)度器代碼中Scheduler祖驱，通過類方法from_crawler讀取配置項中DUPEFILTER_CLASS的類路徑握恳，使用load_object加載并通過create_instance實例化對象。賦給屬性self.df

class Scheduler:
    
    def __init__(self, dupefilter, jobdir=None, dqclass=None, mqclass=None,
                 logunser=False, stats=None, pqclass=None, crawler=None):
        self.df = dupefilter
        ……

    @classmethod
    def from_crawler(cls, crawler):
        settings = crawler.settings
        dupefilter_cls = load_object(settings['DUPEFILTER_CLASS'])
        dupefilter = create_instance(dupefilter_cls, settings, crawler)
        ……
        return cls(dupefilter, jobdir=job_dir(settings), logunser=logunser,
                   stats=crawler.stats, pqclass=pqclass, dqclass=dqclass,
                   mqclass=mqclass, crawler=crawler)

    def open(self, spider):
        ……
        return self.df.open()

    def close(self, reason):
        ……
        return self.df.close(reason)

    def enqueue_request(self, request):
        if not request.dont_filter and self.df.request_seen(request):
            self.df.log(request, self.spider)
            return False
        ……
        return True

調(diào)度器被打開open捺僻、關(guān)閉close乡洼、請求入列enqueue_request的時候
分別觸發(fā)過濾器的打開open、關(guān)閉close陵像、計算指紋request_seen就珠。

當構(gòu)造請求時，參數(shù)dont_filter為False的時候醒颖，才會進入去重計算妻怎。

新手經(jīng)常犯的錯。dont_filter=True認為是去重泞歉。實際上國外人思維和我們直接表達不同逼侦。可能我們做參數(shù)就filter=True是過濾腰耙，filter=False就不過濾榛丢。加了dont，dont_filter=True 翻譯過來就是：不過濾挺庞？是的晰赞。

總結(jié)

現(xiàn)在再來回答面試官的問題：

Q：對于重復的請求，scrapy是如何去重的选侨？去重原理是什么掖鱼？請求是如何計算唯一性的？

A：scrapy是通過配置文件中DUPEFILTER_CLASS屬性來選擇去重的方法援制。默認情況下戏挡，是調(diào)用scrapy.dupefilters.RFPDupeFilter。
scrapy請求是通過Python內(nèi)置set不重復集合的特性來做本地去重的晨仑。
其加密算法是sha1褐墅。默認情況針對請求的方式拆檬、url、body來做唯一性計算妥凳。

核心兩點：set 指紋去重竟贯，sha1加密計算指紋。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末逝钥，一起剝皮案震驚了整個濱河市澄耍，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌晌缘，老刑警劉巖，帶你破解...
沈念sama閱讀 217,509評論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件痢站，死亡現(xiàn)場離奇詭異磷箕，居然都是意外死亡，警方通過查閱死者的電腦和手機阵难，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門岳枷，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人呜叫，你說我怎么就攤上這事空繁。” “怎么了朱庆？”我有些...
開封第一講書人閱讀 163,875評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵盛泡，是天一觀的道長。經(jīng)常有香客問我娱颊，道長傲诵，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,441評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任箱硕，我火速辦了婚禮拴竹，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘剧罩。我一直安慰自己栓拜，他們只是感情好，可當我...
茶點故事閱讀 67,488評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布惠昔。她就那樣靜靜地躺著幕与，像睡著了一般。火紅的嫁衣襯著肌膚如雪舰罚。梳的紋絲不亂的頭發(fā)上纽门，一...
開封第一講書人閱讀 51,365評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音营罢，去河邊找鬼赏陵。笑死饼齿，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的蝙搔。我是一名探鬼主播缕溉，決...
沈念sama閱讀 40,190評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼吃型！你這毒婦竟也來了证鸥？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,062評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤勤晚，失蹤者是張志新（化名）和其女友劉穎枉层，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赐写，經(jīng)...
沈念sama閱讀 45,500評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡鸟蜡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,706評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了挺邀。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片揉忘。...
茶點故事閱讀 39,834評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖端铛，靈堂內(nèi)的尸體忽然破棺而出泣矛，到底是詐尸還是另有隱情，我是刑警寧澤禾蚕，帶...
沈念sama閱讀 35,559評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布您朽，位于F島的核電站，受9級特大地震影響夕膀，放射性物質(zhì)發(fā)生泄漏虚倒。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,167評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一产舞、第九天我趴在偏房一處隱蔽的房頂上張望魂奥。院中可真熱鬧，春花似錦易猫、人聲如沸耻煤。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評論 0贊 22
一樁弒父案准颓，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽哈蝇。三九已至，卻和暖如春攘已，著一層夾襖步出監(jiān)牢的瞬間炮赦，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,912評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工样勃，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留吠勘，地道東北人性芬。一個月前我還...
沈念sama閱讀 47,958評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像剧防，于是被迫代替她去往敵國和親植锉。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,779評論 2贊 354