爬蟲框架Scrapy之多頁抓取

Scrapy的多頁抓取方式

一般有兩種:目標(biāo)URL循環(huán)抓取和在主頁連接上找規(guī)律位谋。

1.目標(biāo)URL循環(huán)抓取

start_urls = ["http://www.example.com/page/" + str(x) for x in range(1, 50, 1)]

2.在主頁連接上找規(guī)律

一般通過點擊目標(biāo)頁面的下一頁的方式獲取多頁資源
在 parse 函數(shù)結(jié)束時倘核,必須 yield 一個帶回調(diào)函數(shù) callback 的 Request 類的實例

以下實例:

首先創(chuàng)建project:

scrapy startproject CSDNBlog

一. items.py編寫

在這里為清晰說明拾徙,只提取文章名稱和文章網(wǎng)址屈梁。

# -*- coding:utf-8 -*- from scrapy.item import Item, Field class CsdnblogItem(Item):    """存儲提取信息數(shù)據(jù)結(jié)構(gòu)"""     article_name = Field()    article_url = Field()

二. pipelines.py編寫

import jsonimport codecs class CsdnblogPipeline(object):     def __init__(self):        self.file = codecs.open('CSDNBlog_data.json', mode='wb', encoding='utf-8')     def process_item(self, item, spider):        line = json.dumps(dict(item)) + '\n'        self.file.write(line.decode("unicode_escape"))         return item

其中它褪,構(gòu)造函數(shù)中以可寫方式創(chuàng)建并打開存儲文件旬迹。在process_item中實現(xiàn)對item處理弄贿,包含將得到的item寫入到j(luò)son形式的輸出文件中。

三. settings.py編寫

對于setting文件湿诊,他作為配置文件狱杰,主要是至執(zhí)行對spider的配置。一些容易被改變的配置參數(shù)可以放在spider類的編寫中厅须,而幾乎在爬蟲運行過程中不改變的參數(shù)在settings.py中進(jìn)行配置仿畸。

# -*- coding:utf-8 -*- BOT_NAME = 'CSDNBlog' SPIDER_MODULES = ['CSDNBlog.spiders']NEWSPIDER_MODULE = 'CSDNBlog.spiders' #禁止cookies,防止被banCOOKIES_ENABLED = False ITEM_PIPELINES = {    'CSDNBlog.pipelines.CsdnblogPipeline':300} # Crawl responsibly by identifying yourself (and your website) on the user-agent#USER_AGENT = 'CSDNBlog (+http://www.yourdomain.com)'

這里將COOKIES_ENABLED參數(shù)置為True,使根據(jù)cookies判斷訪問的站點不能發(fā)現(xiàn)爬蟲軌跡朗和,防止被ban错沽。

ITEM_PIPELINES類型為字典,用于設(shè)置啟動的pipeline眶拉,其中key為定義的pipeline類千埃,value為啟動順序,默認(rèn)0-1000忆植。

四. 爬蟲編寫

爬蟲編寫始終是重頭戲放可。原理是分析網(wǎng)頁得到“下一篇”的鏈接,并返回Request對象朝刊。進(jìn)而繼續(xù)爬取下一篇文章吴侦,直至沒有。

上碼:

#!/usr/bin/python# -*- coding:utf-8 -*- # from scrapy.contrib.spiders import  CrawlSpider,Rule from scrapy.spider import Spiderfrom scrapy.http import Requestfrom scrapy.selector import Selectorfrom CSDNBlog.items import CsdnblogItem  class CSDNBlogSpider(Spider):    """爬蟲CSDNBlogSpider"""     name = "CSDNBlog"     #減慢爬取速度 為1s    download_delay = 1    allowed_domains = ["blog.csdn.net"]    start_urls = [         #第一篇文章地址        "http://blog.csdn.net/u012150179/article/details/11749017"    ]     def parse(self, response):        sel = Selector(response)         #items = []        #獲得文章url和標(biāo)題        item = CsdnblogItem()         article_url = str(response.url)        article_name = sel.xpath('//div[@id="article_details"]/div/h1/span/a/text()').extract()         item['article_name'] = [n.encode('utf-8') for n in article_name]        item['article_url'] = article_url.encode('utf-8')         yield item         #獲得下一篇文章的url        urls = sel.xpath('//li[@class="next_article"]/a/@href').extract()        for url in urls:            print url            url = "http://blog.csdn.net" + url            print url            yield Request(url, callback=self.parse)

慢慢分析:

(1)download_delay參數(shù)設(shè)置為1坞古,將下載器下載下一個頁面前的等待時間設(shè)置為1s,也是防止被ban的策略之一劫樟。主要是減輕服務(wù)器端負(fù)載痪枫。

(2)從response中抽取文章鏈接與文章題目织堂,編碼為utf-8。注意yield的使用奶陈。

(3)抽取“下一篇”的url易阳,由于抽取后缺少http://blog.csdn.net部分,所以補充吃粒。兩個print只為調(diào)試潦俺,無實際意義。重點在于

yield Request(url, callback=self.parse)

也就是將新獲取的request返回給引擎徐勃,實現(xiàn)繼續(xù)循環(huán)事示。也就實現(xiàn)了“自動下一網(wǎng)頁的爬取”。

五. 執(zhí)行

scrapy crawl CSDNBlog
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末僻肖,一起剝皮案震驚了整個濱河市肖爵,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌臀脏,老刑警劉巖劝堪,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異揉稚,居然都是意外死亡秒啦,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進(jìn)店門搀玖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來余境,“玉大人,你說我怎么就攤上這事巷怜「鸪” “怎么了?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵延塑,是天一觀的道長绣张。 經(jīng)常有香客問我,道長关带,這世上最難降的妖魔是什么侥涵? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮宋雏,結(jié)果婚禮上芜飘,老公的妹妹穿的比我還像新娘。我一直安慰自己磨总,他們只是感情好嗦明,可當(dāng)我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蚪燕,像睡著了一般娶牌。 火紅的嫁衣襯著肌膚如雪奔浅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天诗良,我揣著相機(jī)與錄音汹桦,去河邊找鬼。 笑死鉴裹,一個胖子當(dāng)著我的面吹牛舞骆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播径荔,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼督禽,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了猖凛?” 一聲冷哼從身側(cè)響起赂蠢,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎辨泳,沒想到半個月后虱岂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡菠红,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年第岖,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片试溯。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡蔑滓,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出遇绞,到底是詐尸還是另有隱情键袱,我是刑警寧澤,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布摹闽,位于F島的核電站蹄咖,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏付鹿。R本人自食惡果不足惜澜汤,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望舵匾。 院中可真熱鬧俊抵,春花似錦、人聲如沸坐梯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至谎替,卻和暖如春轩拨,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背院喜。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留晕翠,地道東北人喷舀。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像淋肾,于是被迫代替她去往敵國和親硫麻。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容