使用Redis進(jìn)行url去重

Redis是一個(gè)開源的使用ANSI C語言編寫、遵守BSD協(xié)議闭翩、支持網(wǎng)絡(luò)挣郭、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫疗韵,并提供多種語言的API兑障。

在上篇文章中我們提到了去重操作,并使用了Python中的集合set進(jìn)行了url的去重。然而流译,Redis中也存在的這種名為“集合”的數(shù)據(jù)類型逞怨,同樣可以用來進(jìn)行去重操作。

引入依賴庫

import requests
import redis
import fake_useragent
from lxml import etree

本文使用的解析庫依然是lxml福澡。當(dāng)然叠赦,使用re或者bs4也是可以的。

請(qǐng)求連接

首先需要連接redis革砸,注意:一定要開啟redis除秀。

redis-server

定義1個(gè)全局變量cli用于實(shí)例化Redis對(duì)象。

# 連接redis
cli = redis.Redis()

然后進(jìn)行循環(huán)請(qǐng)求业岁。

# 初始頁碼
i = 0

while True:
    response = requests.get(
        url=url.format(i),
        headers=headers,
        proxies=proxies,
    )
    # 頁碼+1
    i += 1
    # 將html轉(zhuǎn)化為可用xpath解析的對(duì)象
    tree = etree.HTML(response.text)
    # 解析頁面
    link_and_title = get_data(tree)
    # 展示數(shù)據(jù)
    show_data(link_and_title)
    # 如果redis中的數(shù)據(jù)大于1000則跳出循環(huán)
    if cli.scard('jianshu:start_urls') > 1000:
        break

print('完成任務(wù)鳞仙!')

解析頁面

使用xpath語句提取頁面信息。

def get_data(tree):
    """
    解析頁面
    :param tree: xpath對(duì)象
    :return: title link
    """
    title = tree.xpath('//div[@id="list-container"]/ul/li/div[@class="content"]/a[@class="title"]/text()')
    link = tree.xpath('//div[@id="list-container"]/ul/li/div[@class="content"]/a[@class="title"]/@href')
    # 將鏈接與標(biāo)題合并為1個(gè)字典
    link_and_title = dict(zip(link, title))

    return link_and_title

展示數(shù)據(jù)

def show_data(link_and_title):
    """
    通過redis展示數(shù)據(jù)
    :param link_and_title: 文章鏈接與標(biāo)題
    :return: None
    """
    for k in link_and_title.keys():
        # 向redis集合中添加鏈接
        judge = cli.sadd('jianshu:start_urls', k)
        # 獲取集合中的數(shù)據(jù)數(shù)量
        num = cli.scard('jianshu:start_urls')
        if num > 1000:
            break
        if judge:
            link = 'http://www.reibang.com' + k
            print(num, link, link_and_title[k])

雖然該函數(shù)為show_data(展示數(shù)據(jù))笔时,但其核心是對(duì)redis的操作棍好,包括sadd向集合插入數(shù)據(jù)、scard獲取集合中的數(shù)據(jù)數(shù)量允耿。

結(jié)語

上述show_data函數(shù)中借笙,我們向redis集合中添加了url鏈接,所以說较锡,當(dāng)使用多臺(tái)pc端連接redis進(jìn)行爬取時(shí)业稼,便達(dá)到了分布式的效果。

分布式爬蟲說白了就是把爬蟲的關(guān)鍵功能以分布式形式部署到多臺(tái)機(jī)器上然后一起爬它蚂蕴,所以說我們一般要配合一些異步操作以最大化爬蟲效率低散,其中,多線程和協(xié)程是爬蟲中的常用異步技術(shù)骡楼,接下來我們將開啟多線程技術(shù)應(yīng)用到爬蟲中熔号。

本章的完整代碼請(qǐng)參考下面鏈接。

https://github.com/macxin123/spider/blob/master/jianshu/redis_jianshu.py

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末鸟整,一起剝皮案震驚了整個(gè)濱河市引镊,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌篮条,老刑警劉巖弟头,帶你破解...
    沈念sama閱讀 212,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異涉茧,居然都是意外死亡赴恨,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門伴栓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嘱支,“玉大人蚓胸,你說我怎么就攤上這事挣饥〕Γ” “怎么了?”我有些...
    開封第一講書人閱讀 158,369評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵扔枫,是天一觀的道長(zhǎng)汛聚。 經(jīng)常有香客問我,道長(zhǎng)短荐,這世上最難降的妖魔是什么倚舀? 我笑而不...
    開封第一講書人閱讀 56,799評(píng)論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮忍宋,結(jié)果婚禮上痕貌,老公的妹妹穿的比我還像新娘。我一直安慰自己糠排,他們只是感情好舵稠,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著入宦,像睡著了一般哺徊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上乾闰,一...
    開封第一講書人閱讀 50,096評(píng)論 1 291
  • 那天落追,我揣著相機(jī)與錄音,去河邊找鬼涯肩。 笑死轿钠,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的病苗。 我是一名探鬼主播疗垛,決...
    沈念sama閱讀 39,159評(píng)論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼铅乡!你這毒婦竟也來了继谚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,917評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤阵幸,失蹤者是張志新(化名)和其女友劉穎花履,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體挚赊,經(jīng)...
    沈念sama閱讀 44,360評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡诡壁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荠割。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片妹卿。...
    茶點(diǎn)故事閱讀 38,814評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡旺矾,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出夺克,到底是詐尸還是另有隱情箕宙,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評(píng)論 4 334
  • 正文 年R本政府宣布铺纽,位于F島的核電站柬帕,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏狡门。R本人自食惡果不足惜陷寝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望其馏。 院中可真熱鬧凤跑,春花似錦、人聲如沸叛复。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽致扯。三九已至肤寝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間抖僵,已是汗流浹背鲤看。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評(píng)論 1 267
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留耍群,地道東北人义桂。 一個(gè)月前我還...
    沈念sama閱讀 46,641評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蹈垢,于是被迫代替她去往敵國(guó)和親慷吊。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評(píng)論 2 351