scrapy自帶去重策略簡介

scrapy核心組件包括:

  • spider
  • scheduler
  • middleware
  • itempipelines
  • engine

scrapy運行流程如圖所示:

scrapy.jpg

spider發(fā)送requests給我們的engine勺阐,這里我們需要明確吝沫,scrapy是單線程的疹娶,并非多線程,那么它的運行核心就是epoll+select事件循環(huán),engine就像一顆心臟月趟,保證scrapy框架正常運行槐瑞,所有的請求都需要經過這個組件。

spider發(fā)送requests到scheduler中間經過中間件過濾,在scheduler中enqueue_request方法調用了request_seen函數(shù)

    def enqueue_request(self, request):
        if not request.dont_filter and self.df.request_seen(request):
            self.df.log(request, self.spider)
            return False
        dqok = self._dqpush(request)
        if dqok:
            self.stats.inc_value('scheduler/enqueued/disk', spider=self.spider)
        else:
            self._mqpush(request)
            self.stats.inc_value('scheduler/enqueued/memory', spider=self.spider)
        self.stats.inc_value('scheduler/enqueued', spider=self.spider)
        return True

這里是request_seen方法惋砂,最終調用request_fingerprint

    def request_seen(self, request):
        fp = self.request_fingerprint(request)
        if fp in self.fingerprints:
            return True
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + '\n')

    def request_fingerprint(self, request):
        return request_fingerprint(request)

request_fingerprint核心代碼,利用hash進行過濾

    if include_headers:
        include_headers = tuple(to_bytes(h.lower())
                                 for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    cache_key = (include_headers, keep_fragments)
    if cache_key not in cache:
        fp = hashlib.sha1()
        fp.update(to_bytes(request.method))
        fp.update(to_bytes(canonicalize_url(request.url, keep_fragments=keep_fragments)))
        fp.update(request.body or b'')
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[cache_key] = fp.hexdigest()
    return cache[cache_key]

一般的數(shù)據(jù)量都可以進行有效過濾蝶俱,后面會介紹布隆過濾器

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末班利,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子榨呆,更是在濱河造成了極大的恐慌罗标,老刑警劉巖庸队,帶你破解...
    沈念sama閱讀 222,865評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異闯割,居然都是意外死亡彻消,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,296評論 3 399
  • 文/潘曉璐 我一進店門宙拉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來宾尚,“玉大人,你說我怎么就攤上這事谢澈』吞” “怎么了?”我有些...
    開封第一講書人閱讀 169,631評論 0 364
  • 文/不壞的土叔 我叫張陵锥忿,是天一觀的道長牛郑。 經常有香客問我,道長敬鬓,這世上最難降的妖魔是什么淹朋? 我笑而不...
    開封第一講書人閱讀 60,199評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮钉答,結果婚禮上础芍,老公的妹妹穿的比我還像新娘。我一直安慰自己数尿,他們只是感情好仑性,可當我...
    茶點故事閱讀 69,196評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著砌创,像睡著了一般虏缸。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上嫩实,一...
    開封第一講書人閱讀 52,793評論 1 314
  • 那天刽辙,我揣著相機與錄音,去河邊找鬼甲献。 笑死宰缤,一個胖子當著我的面吹牛,可吹牛的內容都是我干的晃洒。 我是一名探鬼主播慨灭,決...
    沈念sama閱讀 41,221評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼球及!你這毒婦竟也來了氧骤?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 40,174評論 0 277
  • 序言:老撾萬榮一對情侶失蹤吃引,失蹤者是張志新(化名)和其女友劉穎筹陵,沒想到半個月后刽锤,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 46,699評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡朦佩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,770評論 3 343
  • 正文 我和宋清朗相戀三年并思,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片语稠。...
    茶點故事閱讀 40,918評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡宋彼,死狀恐怖,靈堂內的尸體忽然破棺而出仙畦,到底是詐尸還是另有隱情输涕,我是刑警寧澤,帶...
    沈念sama閱讀 36,573評論 5 351
  • 正文 年R本政府宣布议泵,位于F島的核電站占贫,受9級特大地震影響,放射性物質發(fā)生泄漏先口。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,255評論 3 336
  • 文/蒙蒙 一瞳收、第九天 我趴在偏房一處隱蔽的房頂上張望碉京。 院中可真熱鬧,春花似錦螟深、人聲如沸谐宙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,749評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽凡蜻。三九已至,卻和暖如春垢箕,著一層夾襖步出監(jiān)牢的瞬間划栓,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,862評論 1 274
  • 我被黑心中介騙來泰國打工条获, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留忠荞,地道東北人。 一個月前我還...
    沈念sama閱讀 49,364評論 3 379
  • 正文 我出身青樓帅掘,卻偏偏與公主長得像委煤,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子修档,可洞房花燭夜當晚...
    茶點故事閱讀 45,926評論 2 361