Python學(xué)習(xí)八十九天：Crawl Spider 模板的使用

1.Spider模板

scrapy默認(rèn)創(chuàng)建的spider模板就是basic模板，創(chuàng)建spider文件的命令是：scrapy genspider dribbble dribbble.com桦山，查看spider模板的命令是：scrapy genspider --list攒射；
在項(xiàng)目中明確指明使用crawl生成模板生成spider的命令是：scrapy genspider -t crawl csdn www.csdn.net 醋旦；

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsdnSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider類介紹

CrawlSpider是Spider的派生類，目的是對(duì)全站信息爬取更加簡(jiǎn)單会放，爬取那些具有一定規(guī)則網(wǎng)站的常用的爬蟲(chóng)饲齐，它基于Spider并有一些獨(dú)特屬性；

3.rules規(guī)則列表

語(yǔ)法：Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)咧最，rules是Rule對(duì)象的集合捂人，用于匹配目標(biāo)網(wǎng)站并排除干擾；
link_extractor：是一個(gè)LinkExtractor對(duì)象窗市，其定義了如何從爬取到的頁(yè)面提取鏈接先慷；
callback：從link_extractor中每獲取到鏈接得到Responses時(shí)，會(huì)調(diào)用參數(shù)所指定的值作為回調(diào)函數(shù)咨察，該回調(diào) 函數(shù)接收一個(gè)response作為其一個(gè)參數(shù)论熙；
cb_kwargs：用于作為**kwargs參數(shù)，傳遞給callback摄狱；
follow：是一個(gè)布爾值脓诡，指爬取了之后，是否還繼續(xù)從該頁(yè)面提取鏈接媒役，然后繼續(xù)爬下去, 默認(rèn)是False祝谚；
process_links：指定spider中哪個(gè)的函數(shù)將會(huì)被調(diào)用，從link_extractor中獲取到鏈接列表時(shí)將會(huì)調(diào)用該函數(shù) 酣衷。該方法主要用來(lái)過(guò)濾交惯；
process_request：指定處理函數(shù)，根據(jù)該Rule提取到的每個(gè)Request時(shí)穿仪，該函數(shù)將會(huì)被調(diào)用席爽，可以對(duì)Request進(jìn) 行處理，該函數(shù)必須返回Request或者None啊片；

4.LinkExtractors

LinkExtractors 的目的是提取鏈接只锻，每個(gè)LinkExtractor有唯一的公共方法是extract_links()，它接收一個(gè) Response對(duì)象紫谷，并返回一個(gè)scrapy.link.Link對(duì)象齐饮；
Link Extractors要實(shí)例化一次，并且 extract_links 方法會(huì)根據(jù)不同的 response 調(diào)用多次提取鏈接笤昨；

主要參數(shù)：

allow：滿足括號(hào)中”正則表達(dá)式”的值會(huì)被提取祖驱，如果為空，則全部匹配瞒窒；
deny：與這個(gè)正則表達(dá)式(或正則表達(dá)式列表)不匹配的url一定不提雀拧；
allow_domains：會(huì)被提取的連接的根竿；
deny_domains：一定不會(huì)被提取鏈接的domains陵像；
restrict_xpaths：使用xpath表達(dá)式就珠，和allow共同作用過(guò)濾鏈接；

5.爬取CSDN的文章, 且提取URL和文章標(biāo)題

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定鏈接提取的規(guī)律
    rules = (
        # follow:是指爬取了之后醒颖，是否還繼續(xù)從該頁(yè)面提取鏈接妻怎，然后繼續(xù)爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h1::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

參考：https://www.9xkd.com/user/plan-view.html?id=3716132715

最后編輯于：2019.05.21 10:03:37

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市泞歉，隨后出現(xiàn)的幾起案子逼侦，更是在濱河造成了極大的恐慌，老刑警劉巖腰耙，帶你破解...
沈念sama閱讀 219,039評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件榛丢，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡挺庞，警方通過(guò)查閱死者的電腦和手機(jī)晰赞，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)选侨，“玉大人掖鱼，你說(shuō)我怎么就攤上這事≡疲” “怎么了戏挡？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,417評(píng)論 0贊 356
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)晨仑。經(jīng)常有香客問(wèn)我褐墅，道長(zhǎng)，這世上最難降的妖魔是什么洪己？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,868評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任妥凳，我火速辦了婚禮，結(jié)果婚禮上码泛，老公的妹妹穿的比我還像新娘猾封。我一直安慰自己澄耍，他們只是感情好噪珊，可當(dāng)我...
茶點(diǎn)故事閱讀 67,892評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著齐莲，像睡著了一般痢站。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上选酗，一...
開(kāi)封第一講書(shū)人閱讀 51,692評(píng)論 1贊 305
城市分裂傳說(shuō)
那天阵难，我揣著相機(jī)與錄音，去河邊找鬼芒填。笑死呜叫，一個(gè)胖子當(dāng)著我的面吹牛空繁，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播朱庆，決...
沈念sama閱讀 40,416評(píng)論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼盛泡，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了娱颊？” 一聲冷哼從身側(cè)響起傲诵，我...
開(kāi)封第一講書(shū)人閱讀 39,326評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎箱硕，沒(méi)想到半個(gè)月后拴竹，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,782評(píng)論 1贊 316
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡剧罩，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,957評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年栓拜，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片斑响。...
茶點(diǎn)故事閱讀 40,102評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡菱属，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出舰罚，到底是詐尸還是另有隱情纽门，我是刑警寧澤，帶...
沈念sama閱讀 35,790評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站奋蔚，受9級(jí)特大地震影響沉帮，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蝙搔，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,442評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望考传。院中可真熱鬧吃型，春花似錦、人聲如沸僚楞。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,996評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)泉褐。三九已至赐写，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間膜赃，已是汗流浹背挺邀。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,113評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人端铛。一個(gè)月前我還...
沈念sama閱讀 48,332評(píng)論 3贊 373
代替公主和親
正文我出身青樓泣矛，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親禾蚕。傳聞我的和親對(duì)象是個(gè)殘疾皇子乳蓄，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,044評(píng)論 2贊 355