Scrapy的多頁抓取方式
一般有兩種:目標(biāo)URL循環(huán)抓取和在主頁連接上找規(guī)律位谋。
1.目標(biāo)URL循環(huán)抓取
start_urls = ["http://www.example.com/page/" + str(x) for x in range(1, 50, 1)]
2.在主頁連接上找規(guī)律
一般通過點擊目標(biāo)頁面的下一頁的方式獲取多頁資源
在 parse 函數(shù)結(jié)束時倘核,必須 yield 一個帶回調(diào)函數(shù) callback 的 Request 類的實例
以下實例:
首先創(chuàng)建project:
scrapy startproject CSDNBlog
一. items.py編寫
在這里為清晰說明拾徙,只提取文章名稱和文章網(wǎng)址屈梁。
# -*- coding:utf-8 -*- from scrapy.item import Item, Field class CsdnblogItem(Item): """存儲提取信息數(shù)據(jù)結(jié)構(gòu)""" article_name = Field() article_url = Field()
二. pipelines.py編寫
import jsonimport codecs class CsdnblogPipeline(object): def __init__(self): self.file = codecs.open('CSDNBlog_data.json', mode='wb', encoding='utf-8') def process_item(self, item, spider): line = json.dumps(dict(item)) + '\n' self.file.write(line.decode("unicode_escape")) return item
其中它褪,構(gòu)造函數(shù)中以可寫方式創(chuàng)建并打開存儲文件旬迹。在process_item中實現(xiàn)對item處理弄贿,包含將得到的item寫入到j(luò)son形式的輸出文件中。
三. settings.py編寫
對于setting文件湿诊,他作為配置文件狱杰,主要是至執(zhí)行對spider的配置。一些容易被改變的配置參數(shù)可以放在spider類的編寫中厅须,而幾乎在爬蟲運行過程中不改變的參數(shù)在settings.py中進(jìn)行配置仿畸。
# -*- coding:utf-8 -*- BOT_NAME = 'CSDNBlog' SPIDER_MODULES = ['CSDNBlog.spiders']NEWSPIDER_MODULE = 'CSDNBlog.spiders' #禁止cookies,防止被banCOOKIES_ENABLED = False ITEM_PIPELINES = { 'CSDNBlog.pipelines.CsdnblogPipeline':300} # Crawl responsibly by identifying yourself (and your website) on the user-agent#USER_AGENT = 'CSDNBlog (+http://www.yourdomain.com)'
這里將COOKIES_ENABLED參數(shù)置為True,使根據(jù)cookies判斷訪問的站點不能發(fā)現(xiàn)爬蟲軌跡朗和,防止被ban错沽。
ITEM_PIPELINES類型為字典,用于設(shè)置啟動的pipeline眶拉,其中key為定義的pipeline類千埃,value為啟動順序,默認(rèn)0-1000忆植。
四. 爬蟲編寫
爬蟲編寫始終是重頭戲放可。原理是分析網(wǎng)頁得到“下一篇”的鏈接,并返回Request對象朝刊。進(jìn)而繼續(xù)爬取下一篇文章吴侦,直至沒有。
上碼:
#!/usr/bin/python# -*- coding:utf-8 -*- # from scrapy.contrib.spiders import CrawlSpider,Rule from scrapy.spider import Spiderfrom scrapy.http import Requestfrom scrapy.selector import Selectorfrom CSDNBlog.items import CsdnblogItem class CSDNBlogSpider(Spider): """爬蟲CSDNBlogSpider""" name = "CSDNBlog" #減慢爬取速度 為1s download_delay = 1 allowed_domains = ["blog.csdn.net"] start_urls = [ #第一篇文章地址 "http://blog.csdn.net/u012150179/article/details/11749017" ] def parse(self, response): sel = Selector(response) #items = [] #獲得文章url和標(biāo)題 item = CsdnblogItem() article_url = str(response.url) article_name = sel.xpath('//div[@id="article_details"]/div/h1/span/a/text()').extract() item['article_name'] = [n.encode('utf-8') for n in article_name] item['article_url'] = article_url.encode('utf-8') yield item #獲得下一篇文章的url urls = sel.xpath('//li[@class="next_article"]/a/@href').extract() for url in urls: print url url = "http://blog.csdn.net" + url print url yield Request(url, callback=self.parse)
慢慢分析:
(1)download_delay參數(shù)設(shè)置為1坞古,將下載器下載下一個頁面前的等待時間設(shè)置為1s,也是防止被ban的策略之一劫樟。主要是減輕服務(wù)器端負(fù)載痪枫。
(2)從response中抽取文章鏈接與文章題目织堂,編碼為utf-8。注意yield的使用奶陈。
(3)抽取“下一篇”的url易阳,由于抽取后缺少http://blog.csdn.net部分,所以補充吃粒。兩個print只為調(diào)試潦俺,無實際意義。重點在于
yield Request(url, callback=self.parse)
也就是將新獲取的request返回給引擎徐勃,實現(xiàn)繼續(xù)循環(huán)事示。也就實現(xiàn)了“自動下一網(wǎng)頁的爬取”。
五. 執(zhí)行
scrapy crawl CSDNBlog