更多爬蟲例子

下面這個例子將會演示如何從 " http://quotes.toscrape.com/ " 中獲取頁面上所有作者(author)的頁面鏈接衷佃,并爬取作者頁面的相應(yīng)信息,然后進入下一頁重復(fù)上訴步驟蹄葱,直到把網(wǎng)站所有作者信息都爬取完成氏义。

# -*- coding: utf-8 -*-

import scrapy

class AuthorSpider(scrapy.Spider):
    name = 'author'
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        # 獲取頁面上所有作者的連接
        for href in response.css('.author + a::attr(href)').extract():
            # 獲取到作者連接后,調(diào)用 parse_author 方法來爬取
            yield scrapy.Request(response.urljoin(href), 
                callback=self.parse_author)

        # 獲取下一頁連接并處理
        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

    # 爬取作者頁面图云,并提取相應(yīng)的數(shù)據(jù)
    def parse_author(self, response):
        def extract_with_css(query):
            return response.css(query).extract_first().strip()

        yield {
            'name': extract_with_css('h3.author-title::text'),
            'birthdate': extract_with_css('.author-born-date::text'),
            'bio': extract_with_css('.author-description::text'),
        }

照樣惯悠,我們用以下命令爬取:

scrapy crawl author -o items.json

值得注意的是竣况,即使一個作者的鏈接出現(xiàn)多次克婶,也不會被重復(fù)爬取,因為 Scrapy 默認(rèn)情況下會自動過濾重復(fù)的 url丹泉;相關(guān)的設(shè)定可以通過 settings.py 中的 DUPEFILTER_CLASS 屬性來調(diào)節(jié)情萤。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市摹恨,隨后出現(xiàn)的幾起案子筋岛,更是在濱河造成了極大的恐慌,老刑警劉巖晒哄,帶你破解...
    沈念sama閱讀 223,207評論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件睁宰,死亡現(xiàn)場離奇詭異,居然都是意外死亡寝凌,警方通過查閱死者的電腦和手機柒傻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評論 3 400
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來硫兰,“玉大人诅愚,你說我怎么就攤上這事〗儆常” “怎么了违孝?”我有些...
    開封第一講書人閱讀 170,031評論 0 366
  • 文/不壞的土叔 我叫張陵,是天一觀的道長泳赋。 經(jīng)常有香客問我雌桑,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,334評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮近忙,結(jié)果婚禮上饱普,老公的妹妹穿的比我還像新娘。我一直安慰自己觉鼻,他們只是感情好彻舰,可當(dāng)我...
    茶點故事閱讀 69,322評論 6 398
  • 文/花漫 我一把揭開白布中剩。 她就那樣靜靜地躺著邪驮,像睡著了一般莫辨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上毅访,一...
    開封第一講書人閱讀 52,895評論 1 314
  • 那天沮榜,我揣著相機與錄音,去河邊找鬼喻粹。 笑死蟆融,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的守呜。 我是一名探鬼主播型酥,決...
    沈念sama閱讀 41,300評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼查乒!你這毒婦竟也來了冕末?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,264評論 0 277
  • 序言:老撾萬榮一對情侶失蹤侣颂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后枪孩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體憔晒,經(jīng)...
    沈念sama閱讀 46,784評論 1 321
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,870評論 3 343
  • 正文 我和宋清朗相戀三年蔑舞,在試婚紗的時候發(fā)現(xiàn)自己被綠了拒担。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,989評論 1 354
  • 序言:一個原本活蹦亂跳的男人離奇死亡攻询,死狀恐怖从撼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情钧栖,我是刑警寧澤低零,帶...
    沈念sama閱讀 36,649評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站拯杠,受9級特大地震影響掏婶,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜潭陪,卻給世界環(huán)境...
    茶點故事閱讀 42,331評論 3 336
  • 文/蒙蒙 一雄妥、第九天 我趴在偏房一處隱蔽的房頂上張望最蕾。 院中可真熱鬧,春花似錦老厌、人聲如沸瘟则。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽醋拧。三九已至,卻和暖如春宿百,著一層夾襖步出監(jiān)牢的瞬間趁仙,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評論 1 275
  • 我被黑心中介騙來泰國打工垦页, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留雀费,地道東北人。 一個月前我還...
    沈念sama閱讀 49,452評論 3 379
  • 正文 我出身青樓痊焊,卻偏偏與公主長得像盏袄,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子薄啥,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,995評論 2 361

推薦閱讀更多精彩內(nèi)容

  • Python版本管理:pyenv和pyenv-virtualenvScrapy爬蟲入門教程一 安裝和基本使用Scr...
    inke閱讀 62,983評論 12 130
  • 假設(shè)你已經(jīng)裝好了Scrapy辕羽,如果沒有請查看安裝指南.。 將要抓取 quotes.toscrape.com網(wǎng)站垄惧。 ...
    ximengchj閱讀 4,842評論 0 5
  • 序言第1章 Scrapy介紹第2章 理解HTML和XPath第3章 爬蟲基礎(chǔ)第4章 從Scrapy到移動應(yīng)用第5章...
    SeanCheney閱讀 15,097評論 13 61
  • 曾經(jīng)聽過這樣一種比喻:你的人生初始是一杯白水刁愿,平平淡淡,你卻不甘于現(xiàn)狀到逊,于是你品嘗到了如咖啡般的苦澀铣口,最終,你想要...
    習(xí)之鈴鐺閱讀 213評論 0 0
  • camer@20170924 周末觉壶,上午脑题,去白云山…… 快進10月,天氣還是這么熱铜靶,還好叔遂,陽光不算太烈,時有清風(fēng)~...
    camer閱讀 211評論 1 0