爬蟲框架Scrapy之多頁抓取

Scrapy的多頁抓取方式

一般有兩種：目標(biāo)URL循環(huán)抓取和在主頁連接上找規(guī)律位谋。

1.目標(biāo)URL循環(huán)抓取

start_urls = ["http://www.example.com/page/" + str(x) for x in range(1, 50, 1)]

2.在主頁連接上找規(guī)律

一般通過點擊目標(biāo)頁面的下一頁的方式獲取多頁資源
在 parse 函數(shù)結(jié)束時倘核，必須 yield 一個帶回調(diào)函數(shù) callback 的 Request 類的實例

以下實例：

首先創(chuàng)建project:

scrapy startproject CSDNBlog

一. items.py編寫

在這里為清晰說明拾徙，只提取文章名稱和文章網(wǎng)址屈梁。

# -*- coding:utf-8 -*- from scrapy.item import Item, Field class CsdnblogItem(Item):    """存儲提取信息數(shù)據(jù)結(jié)構(gòu)"""     article_name = Field()    article_url = Field()

二. pipelines.py編寫

import jsonimport codecs class CsdnblogPipeline(object):     def __init__(self):        self.file = codecs.open('CSDNBlog_data.json', mode='wb', encoding='utf-8')     def process_item(self, item, spider):        line = json.dumps(dict(item)) + '\n'        self.file.write(line.decode("unicode_escape"))         return item

其中它褪，構(gòu)造函數(shù)中以可寫方式創(chuàng)建并打開存儲文件旬迹。在process_item中實現(xiàn)對item處理弄贿，包含將得到的item寫入到j(luò)son形式的輸出文件中。

三. settings.py編寫

對于setting文件湿诊，他作為配置文件狱杰，主要是至執(zhí)行對spider的配置。一些容易被改變的配置參數(shù)可以放在spider類的編寫中厅须，而幾乎在爬蟲運行過程中不改變的參數(shù)在settings.py中進(jìn)行配置仿畸。

# -*- coding:utf-8 -*- BOT_NAME = 'CSDNBlog' SPIDER_MODULES = ['CSDNBlog.spiders']NEWSPIDER_MODULE = 'CSDNBlog.spiders' #禁止cookies,防止被banCOOKIES_ENABLED = False ITEM_PIPELINES = {    'CSDNBlog.pipelines.CsdnblogPipeline':300} # Crawl responsibly by identifying yourself (and your website) on the user-agent#USER_AGENT = 'CSDNBlog (+http://www.yourdomain.com)'

這里將COOKIES_ENABLED參數(shù)置為True，使根據(jù)cookies判斷訪問的站點不能發(fā)現(xiàn)爬蟲軌跡朗和，防止被ban错沽。

ITEM_PIPELINES類型為字典，用于設(shè)置啟動的pipeline眶拉，其中key為定義的pipeline類千埃，value為啟動順序，默認(rèn)0-1000忆植。

四. 爬蟲編寫

爬蟲編寫始終是重頭戲放可。原理是分析網(wǎng)頁得到“下一篇”的鏈接，并返回Request對象朝刊。進(jìn)而繼續(xù)爬取下一篇文章吴侦，直至沒有。

上碼：

#!/usr/bin/python# -*- coding:utf-8 -*- # from scrapy.contrib.spiders import  CrawlSpider,Rule from scrapy.spider import Spiderfrom scrapy.http import Requestfrom scrapy.selector import Selectorfrom CSDNBlog.items import CsdnblogItem  class CSDNBlogSpider(Spider):    """爬蟲CSDNBlogSpider"""     name = "CSDNBlog"     #減慢爬取速度 為1s    download_delay = 1    allowed_domains = ["blog.csdn.net"]    start_urls = [         #第一篇文章地址        "http://blog.csdn.net/u012150179/article/details/11749017"    ]     def parse(self, response):        sel = Selector(response)         #items = []        #獲得文章url和標(biāo)題        item = CsdnblogItem()         article_url = str(response.url)        article_name = sel.xpath('//div[@id="article_details"]/div/h1/span/a/text()').extract()         item['article_name'] = [n.encode('utf-8') for n in article_name]        item['article_url'] = article_url.encode('utf-8')         yield item         #獲得下一篇文章的url        urls = sel.xpath('//li[@class="next_article"]/a/@href').extract()        for url in urls:            print url            url = "http://blog.csdn.net" + url            print url            yield Request(url, callback=self.parse)

慢慢分析：

（1）download_delay參數(shù)設(shè)置為1坞古，將下載器下載下一個頁面前的等待時間設(shè)置為1s，也是防止被ban的策略之一劫樟。主要是減輕服務(wù)器端負(fù)載痪枫。

（2）從response中抽取文章鏈接與文章題目织堂，編碼為utf-8。注意yield的使用奶陈。

（3）抽取“下一篇”的url易阳，由于抽取后缺少http://blog.csdn.net部分，所以補充吃粒。兩個print只為調(diào)試潦俺，無實際意義。重點在于

yield Request(url, callback=self.parse)

也就是將新獲取的request返回給引擎徐勃，實現(xiàn)繼續(xù)循環(huán)事示。也就實現(xiàn)了“自動下一網(wǎng)頁的爬取”。

五. 執(zhí)行

scrapy crawl CSDNBlog

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末僻肖，一起剝皮案震驚了整個濱河市肖爵，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌臀脏，老刑警劉巖劝堪，帶你破解...
沈念sama閱讀 207,248評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異揉稚，居然都是意外死亡秒啦，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,681評論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門搀玖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來余境，“玉大人，你說我怎么就攤上這事巷怜「鸪” “怎么了？”我有些...
開封第一講書人閱讀 153,443評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵延塑，是天一觀的道長绣张。經(jīng)常有香客問我，道長关带，這世上最難降的妖魔是什么侥涵？我笑而不...
開封第一講書人閱讀 55,475評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮宋雏，結(jié)果婚禮上芜飘，老公的妹妹穿的比我還像新娘。我一直安慰自己磨总，他們只是感情好嗦明，可當(dāng)我...
茶點故事閱讀 64,458評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蚪燕，像睡著了一般娶牌。火紅的嫁衣襯著肌膚如雪奔浅。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,185評論 1贊 284
城市分裂傳說
那天诗良，我揣著相機(jī)與錄音汹桦，去河邊找鬼。笑死鉴裹，一個胖子當(dāng)著我的面吹牛舞骆，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播径荔，決...
沈念sama閱讀 38,451評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼督禽，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了猖凛？” 一聲冷哼從身側(cè)響起赂蠢，我...
開封第一講書人閱讀 37,112評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎辨泳，沒想到半個月后虱岂，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,609評論 1贊 300
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡菠红，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,083評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年第岖，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片试溯。...
茶點故事閱讀 38,163評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蔑滓，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出遇绞，到底是詐尸還是另有隱情键袱，我是刑警寧澤，帶...
沈念sama閱讀 33,803評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布摹闽，位于F島的核電站蹄咖，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏付鹿。R本人自食惡果不足惜澜汤，卻給世界環(huán)境...
茶點故事閱讀 39,357評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望舵匾。院中可真熱鬧俊抵，春花似錦、人聲如沸坐梯。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,357評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至谎替，卻和暖如春轩拨，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背院喜。一陣腳步聲響...
開封第一講書人閱讀 31,590評論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留晕翠，地道東北人喷舀。一個月前我還...
沈念sama閱讀 45,636評論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像淋肾，于是被迫代替她去往敵國和親硫麻。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,925評論 2贊 344