Scrapy源碼學習-請求去重(單機)

請求去重

這是爬蟲崗一道高頻出現(xiàn)的面試題:

Q:對于重復的請求浊闪,scrapy是如何去重的删铃?去重原理是什么?請求是如何計算唯一性的攒射?

帶著這個問題醋旦,進入今天的主題。

DUPEFILTER_CLASS

在scrapy項目配置中会放,DUPEFILTER_CLASS是框架對請求去重規(guī)則的設(shè)置項饲齐。默認的類路徑:scrapy.dupefilters.RFPDupeFilter

進入到文件中咧最,觀察到類RFPDupeFilter繼承自BaseDupeFilter捂人,而BaseDupeFilter似乎什么都沒做,只是定義了一些方法矢沿。所以滥搭,真正的去重核心代碼都在RFPDupeFilter類中。逐行分析下其原理咨察。

RFPDupeFilter

class RFPDupeFilter(BaseDupeFilter):
    """Request Fingerprint duplicates filter"""

    def __init__(self, path=None, debug=False):
        self.file = None
        # 用python內(nèi)置set()作為請求的指紋
        # set的特性:無序不重復元素集
        self.fingerprints = set()
        self.logdupes = True
        self.debug = debug
        self.logger = logging.getLogger(__name__)
        # 本地持久化請求指紋
        if path:
            self.file = open(os.path.join(path, 'requests.seen'), 'a+')
            self.file.seek(0)
            self.fingerprints.update(x.rstrip() for x in self.file)

    @classmethod
    def from_settings(cls, settings):
        # 配置中開啟DEBUG论熙,就會持久化文件
        debug = settings.getbool('DUPEFILTER_DEBUG')
        return cls(job_dir(settings), debug)

    def request_seen(self, request):
        # !I阌脓诡!核心,用于檢測指紋是否存在媒役。
        # 使用request_fingerprint來獲取請求的指紋
        fp = self.request_fingerprint(request)
        # 指紋在集合中祝谚,返回True
        if fp in self.fingerprints:
            return True
        # 不在集合中,追加到集合里
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + '\n')

    def request_fingerprint(self, request):
        # 調(diào)用scrapy的request_fingerprint來進行指紋計算
        return request_fingerprint(request)

    def close(self, reason):
        # 資源銷毀
        if self.file:
            self.file.close()

    def log(self, request, spider):
        # 日志的輸出和記錄
        if self.debug:
            msg = "Filtered duplicate request: %(request)s (referer: %(referer)s)"
            args = {'request': request, 'referer': referer_str(request)}
            self.logger.debug(msg, args, extra={'spider': spider})
        elif self.logdupes:
            msg = ("Filtered duplicate request: %(request)s"
                   " - no more duplicates will be shown"
                   " (see DUPEFILTER_DEBUG to show all duplicates)")
            self.logger.debug(msg, {'request': request}, extra={'spider': spider})
            self.logdupes = False

        spider.crawler.stats.inc_value('dupefilter/filtered', spider=spider)

上述代碼非常簡單酣衷,簡單到任何人都可以自己輕松寫一個交惯。其中request_seen方法用于檢測請求是否重復,返回True則重復,否則通過席爽。其中核心的是調(diào)用了request_fingerprint來計算指紋意荤。進去看看。

request_fingerprint

The request fingerprint is a hash that uniquely identifies the resource the request points to
請求指紋是唯一標識請求指向的資源的哈希值

def request_fingerprint(request, include_headers=None, keep_fragments=False):
    # 是否計算headers
    if include_headers:
        include_headers = tuple(to_bytes(h.lower()) for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    cache_key = (include_headers, keep_fragments)
    if cache_key not in cache:
        # 開始計算只锻,加密算法sha1
        fp = hashlib.sha1()
        # 將請求方式和請求url玖像,請求的body加入計算,
        # 此處的url如果指向同一個資源齐饮,同樣認為一樣捐寥,比如:
             # http://www.example.com/query?id=111&cat=222
            # http://www.example.com/query?cat=222&id=111
        # 這兩個url指向同一目標,我們也認為是重復的request.url
        fp.update(to_bytes(request.method))
        fp.update(to_bytes(canonicalize_url(request.url, keep_fragments=keep_fragments)))
        fp.update(request.body or b'')
        # headers加入計算
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[cache_key] = fp.hexdigest()
    return cache[cache_key]

調(diào)度器的執(zhí)行流程

在scrapy的調(diào)度器代碼中Scheduler祖驱,通過類方法from_crawler讀取配置項中DUPEFILTER_CLASS的類路徑握恳,使用load_object加載并通過create_instance實例化對象。賦給屬性self.df

class Scheduler:
    
    def __init__(self, dupefilter, jobdir=None, dqclass=None, mqclass=None,
                 logunser=False, stats=None, pqclass=None, crawler=None):
        self.df = dupefilter
        ……

    @classmethod
    def from_crawler(cls, crawler):
        settings = crawler.settings
        dupefilter_cls = load_object(settings['DUPEFILTER_CLASS'])
        dupefilter = create_instance(dupefilter_cls, settings, crawler)
        ……
        return cls(dupefilter, jobdir=job_dir(settings), logunser=logunser,
                   stats=crawler.stats, pqclass=pqclass, dqclass=dqclass,
                   mqclass=mqclass, crawler=crawler)

    def open(self, spider):
        ……
        return self.df.open()

    def close(self, reason):
        ……
        return self.df.close(reason)

    def enqueue_request(self, request):
        if not request.dont_filter and self.df.request_seen(request):
            self.df.log(request, self.spider)
            return False
        ……
        return True

調(diào)度器被打開open捺僻、關(guān)閉close乡洼、請求入列enqueue_request的時候
分別觸發(fā)過濾器的打開open、關(guān)閉close陵像、計算指紋request_seen就珠。

當構(gòu)造請求時,參數(shù)dont_filter為False的時候醒颖,才會進入去重計算妻怎。

新手經(jīng)常犯的錯。dont_filter=True認為是去重泞歉。實際上國外人思維和我們直接表達不同逼侦。可能我們做參數(shù)就filter=True是過濾腰耙,filter=False就不過濾榛丢。加了dont,dont_filter=True 翻譯過來就是:不過濾挺庞?是的晰赞。

總結(jié)

現(xiàn)在再來回答面試官的問題:

Q:對于重復的請求,scrapy是如何去重的选侨?去重原理是什么掖鱼?請求是如何計算唯一性的?

A:scrapy是通過配置文件中DUPEFILTER_CLASS屬性來選擇去重的方法援制。默認情況下戏挡,是調(diào)用scrapy.dupefilters.RFPDupeFilter。
scrapy請求是通過Python內(nèi)置set不重復集合的特性來做本地去重的晨仑。
其加密算法是sha1褐墅。默認情況針對請求的方式拆檬、url、body來做唯一性計算妥凳。

核心兩點:set 指紋去重竟贯,sha1加密計算指紋。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末逝钥,一起剝皮案震驚了整個濱河市澄耍,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌晌缘,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件痢站,死亡現(xiàn)場離奇詭異磷箕,居然都是意外死亡,警方通過查閱死者的電腦和手機阵难,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門岳枷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人呜叫,你說我怎么就攤上這事空繁。” “怎么了朱庆?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵盛泡,是天一觀的道長。 經(jīng)常有香客問我娱颊,道長傲诵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任箱硕,我火速辦了婚禮拴竹,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘剧罩。我一直安慰自己栓拜,他們只是感情好,可當我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布惠昔。 她就那樣靜靜地躺著幕与,像睡著了一般。 火紅的嫁衣襯著肌膚如雪舰罚。 梳的紋絲不亂的頭發(fā)上纽门,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天,我揣著相機與錄音营罢,去河邊找鬼赏陵。 笑死饼齿,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的蝙搔。 我是一名探鬼主播缕溉,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吃型!你這毒婦竟也來了证鸥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤勤晚,失蹤者是張志新(化名)和其女友劉穎枉层,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赐写,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡鸟蜡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了挺邀。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片揉忘。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖端铛,靈堂內(nèi)的尸體忽然破棺而出泣矛,到底是詐尸還是另有隱情,我是刑警寧澤禾蚕,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布您朽,位于F島的核電站,受9級特大地震影響夕膀,放射性物質(zhì)發(fā)生泄漏虚倒。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一产舞、第九天 我趴在偏房一處隱蔽的房頂上張望魂奥。 院中可真熱鬧,春花似錦易猫、人聲如沸耻煤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽哈蝇。三九已至,卻和暖如春攘已,著一層夾襖步出監(jiān)牢的瞬間炮赦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工样勃, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留吠勘,地道東北人性芬。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像剧防,于是被迫代替她去往敵國和親植锉。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容