翻頁

我們先觀察要爬取的網(wǎng)頁:" http://quotes.toscrape.com/ "精拟,下方有一個翻頁按鈕:

它的 HTML 代碼如下:

<ul class="pager">
    <li class="next">
        <a href="/page/2/">Next <span aria-hidden="true">→</span></a>
    </li>
</ul>

我們需要提取 < a> 標簽的 href 的值來構(gòu)造下一頁的連接,我們先在 shell 中嘗試一下:

>>> response.css('li.next > a::attr(href)').extract_first()
'/page/2/'

利用 ::attr() 方法能提取標簽中的值。

顯然叙谨,這并非我們最終想要獲得的 url浪藻,我們可以利用 urljoin() 方法來構(gòu)建 url:

>>> next_page = response.css('li.next > a::attr(href)').extract_first()
>>> next_page = response.urljoin(next_page)
>>> next_page
'http://quotes.toscrape.com/page/2/'




現(xiàn)在我們在我們的爬蟲里面運用翻頁的方法印蔗,抓取數(shù)據(jù):

#!/usr/bin/python
# -*- coding: utf-8 -*-

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        "http://quotes.toscrape.com/page/1/",
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.css('small.author::text').extract_first(),
                'tags': quote.css('div.tags a.tag::text').extract(),
                }

        # 獲取下一頁 <a> 標簽中的 href 屬性
        next_page = response.css('li.next > a::attr(href)').extract_first()
        # 判斷下一頁的 url 是否存在
        if next_page is not None:
            # 用 urljoin() 方法構(gòu)造完整的 url
            next_page = response.urljoin(next_page)
            # 回調(diào)函數(shù)繼續(xù)處理下一頁的 url
            yield scrapy.Request(next_page, callback=self.parse)

利用以下命令爬瓤透浴:

scrapy crawl quotes -o items.json

該網(wǎng)頁所有數(shù)據(jù)都被我們獲取成功保存到 json 文件里了亡鼠。

最後編輯於
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末赏殃,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子间涵,更是在濱河造成了極大的恐慌仁热,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件勾哩,死亡現(xiàn)場離奇詭異抗蠢,居然都是意外死亡,警方通過查閱死者的電腦和手機思劳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門迅矛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人潜叛,你說我怎么就攤上這事秽褒。” “怎么了钠导?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵震嫉,是天一觀的道長。 經(jīng)常有香客問我牡属,道長票堵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任逮栅,我火速辦了婚禮悴势,結(jié)果婚禮上窗宇,老公的妹妹穿的比我還像新娘。我一直安慰自己特纤,他們只是感情好军俊,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著捧存,像睡著了一般粪躬。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上昔穴,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天镰官,我揣著相機與錄音,去河邊找鬼吗货。 笑死泳唠,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的宙搬。 我是一名探鬼主播笨腥,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼勇垛!你這毒婦竟也來了脖母?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤闲孤,失蹤者是張志新(化名)和其女友劉穎镶奉,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體崭放,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年鸽凶,在試婚紗的時候發(fā)現(xiàn)自己被綠了币砂。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡玻侥,死狀恐怖决摧,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情凑兰,我是刑警寧澤掌桩,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站姑食,受9級特大地震影響波岛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜音半,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一则拷、第九天 我趴在偏房一處隱蔽的房頂上張望贡蓖。 院中可真熱鬧,春花似錦煌茬、人聲如沸斥铺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽晾蜘。三九已至,卻和暖如春眠屎,著一層夾襖步出監(jiān)牢的瞬間剔交,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工组力, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留省容,地道東北人。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓燎字,卻偏偏與公主長得像腥椒,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子候衍,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容