(2018-05-22.Python從Zero到One)6并齐、(爬蟲)scrapy-Redis分布式組件__1.6.4源碼分析參考:Pipelines

pipelines.py
這是是用來實(shí)現(xiàn)分布式處理的作用。它將Item存儲(chǔ)在redis中以實(shí)現(xiàn)分布式處理驹沿。由于在這里需要讀取配置艘策,所以就用到了from_crawler()函數(shù)。

from scrapy.utils.misc import load_object
from scrapy.utils.serialize import ScrapyJSONEncoder
from twisted.internet.threads import deferToThread

from . import connection

default_serialize = ScrapyJSONEncoder().encode

class RedisPipeline(object):
"""Pushes serialized item into a redis list/queue"""

def __init__(self, server,
             key='%(spider)s:items',
             serialize_func=default_serialize):
    self.server = server
    self.key = key
    self.serialize = serialize_func

@classmethod
def from_settings(cls, settings):
    params = {
        'server': connection.from_settings(settings),
    }
    if settings.get('REDIS_ITEMS_KEY'):
        params['key'] = settings['REDIS_ITEMS_KEY']
    if settings.get('REDIS_ITEMS_SERIALIZER'):
        params['serialize_func'] = load_object(
            settings['REDIS_ITEMS_SERIALIZER']
        )

    return cls(**params)

@classmethod
def from_crawler(cls, crawler):
    return cls.from_settings(crawler.settings)

def process_item(self, item, spider):
    return deferToThread(self._process_item, item, spider)

def _process_item(self, item, spider):
    key = self.item_key(item, spider)
    data = self.serialize(item)
    self.server.rpush(key, data)
    return item

def item_key(self, item, spider):
    """Returns redis key based on given spider.
    Override this function to use a different key depending on the item
    and/or spider.
    """
    return self.key % {'spider': spider.name}

pipelines文件實(shí)現(xiàn)了一個(gè)item pipieline類渊季,和scrapy的item pipeline是同一個(gè)對(duì)象朋蔫,通過從settings中拿到我們配置的REDIS_ITEMS_KEY作為key,把item串行化之后存入redis數(shù)據(jù)庫對(duì)應(yīng)的value中(這個(gè)value可以看出出是個(gè)list却汉,我們的每個(gè)item是這個(gè)list中的一個(gè)結(jié)點(diǎn))驯妄,這個(gè)pipeline把提取出的item存起來,主要是為了方便我們延后處理數(shù)據(jù)病涨。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末富玷,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子既穆,更是在濱河造成了極大的恐慌赎懦,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件幻工,死亡現(xiàn)場(chǎng)離奇詭異励两,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)囊颅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門当悔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人踢代,你說我怎么就攤上這事盲憎。” “怎么了胳挎?”我有些...
    開封第一講書人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵饼疙,是天一觀的道長。 經(jīng)常有香客問我慕爬,道長窑眯,這世上最難降的妖魔是什么屏积? 我笑而不...
    開封第一講書人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮磅甩,結(jié)果婚禮上炊林,老公的妹妹穿的比我還像新娘。我一直安慰自己卷要,他們只是感情好渣聚,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著却妨,像睡著了一般饵逐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上彪标,一...
    開封第一講書人閱讀 52,475評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音掷豺,去河邊找鬼捞烟。 笑死,一個(gè)胖子當(dāng)著我的面吹牛当船,可吹牛的內(nèi)容都是我干的题画。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼德频,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼苍息!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起壹置,我...
    開封第一講書人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤竞思,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后钞护,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盖喷,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年难咕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了课梳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡余佃,死狀恐怖暮刃,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情爆土,我是刑警寧澤椭懊,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站雾消,受9級(jí)特大地震影響灾搏,放射性物質(zhì)發(fā)生泄漏挫望。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一狂窑、第九天 我趴在偏房一處隱蔽的房頂上張望媳板。 院中可真熱鬧,春花似錦泉哈、人聲如沸蛉幸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽奕纫。三九已至,卻和暖如春烫沙,著一層夾襖步出監(jiān)牢的瞬間匹层,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來泰國打工锌蓄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留升筏,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓瘸爽,卻偏偏與公主長得像您访,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子剪决,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361