我們先觀察要爬取的網(wǎng)頁:" http://quotes.toscrape.com/ "精拟,下方有一個翻頁按鈕:
它的 HTML 代碼如下:
<ul class="pager">
<li class="next">
<a href="/page/2/">Next <span aria-hidden="true">→</span></a>
</li>
</ul>
我們需要提取 < a>
標簽的 href
的值來構(gòu)造下一頁的連接,我們先在 shell 中嘗試一下:
>>> response.css('li.next > a::attr(href)').extract_first()
'/page/2/'
利用 ::attr()
方法能提取標簽中的值。
顯然叙谨,這并非我們最終想要獲得的 url浪藻,我們可以利用 urljoin()
方法來構(gòu)建 url:
>>> next_page = response.css('li.next > a::attr(href)').extract_first()
>>> next_page = response.urljoin(next_page)
>>> next_page
'http://quotes.toscrape.com/page/2/'
現(xiàn)在我們在我們的爬蟲里面運用翻頁的方法印蔗,抓取數(shù)據(jù):
#!/usr/bin/python
# -*- coding: utf-8 -*-
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
"http://quotes.toscrape.com/page/1/",
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').extract_first(),
'author': quote.css('small.author::text').extract_first(),
'tags': quote.css('div.tags a.tag::text').extract(),
}
# 獲取下一頁 <a> 標簽中的 href 屬性
next_page = response.css('li.next > a::attr(href)').extract_first()
# 判斷下一頁的 url 是否存在
if next_page is not None:
# 用 urljoin() 方法構(gòu)造完整的 url
next_page = response.urljoin(next_page)
# 回調(diào)函數(shù)繼續(xù)處理下一頁的 url
yield scrapy.Request(next_page, callback=self.parse)
利用以下命令爬瓤透浴:
scrapy crawl quotes -o items.json
該網(wǎng)頁所有數(shù)據(jù)都被我們獲取成功保存到 json 文件里了亡鼠。