爬蟲練手:crawl模板用法小例

爬取目標(biāo):糗事百科全部文章的內(nèi)容和網(wǎng)址蚕泽。
直接上代碼:

items.py

#糗事百科自動抓取
class QSBKAutoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    content = scrapy.Field()
    link = scrapy.Field()

爬蟲文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from testscrapy01.items import QSBKAutoItem


class QsbkautoSpider(CrawlSpider):
    name = 'qsbkauto'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['http://qiushibaike.com/']

    rules = (
        #指定鏈接提取的規(guī)律 r代表后面引號里面的字符均為非轉(zhuǎn)義
        #follow:是指爬取了之后鱼响,是否還繼續(xù)從該頁面提取鏈接,然后繼續(xù)爬下去
        Rule(LinkExtractor(allow=r'article'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        item = QSBKAutoItem()
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract()
        item["content"] = response.xpath("http://div[@class='content']/text()").extract()[0]
        item["link"] = response.xpath("http://link[@rel='canonical']/@href").extract()[0]
        print("內(nèi)容:",item["content"])
        print("鏈接:",item["link"])
        print("*************************************************************")
        yield item

對以上代碼的改進(jìn):

# coding=utf-8
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from testscrapy01.items import QSBKAutoItem
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

class QsbkautoSpider(CrawlSpider):
    name = 'qsbkauto1'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['http://www.qiushibaike.com/']

    rules = (

        Rule(LinkExtractor(allow=r'page/\d*/?s=\d*'), follow=True),
        Rule(LinkExtractor(allow=(r'article/.*')), callback='parse_item',follow=True),
    )

    def parse_item(self, response):
        item = QSBKAutoItem()
        item["content"] = response.xpath("http://div[@class='content']/text()").extract()[0]
        # item["link"] = response.xpath("http://link[@rel='canonical']/@href").extract()[0]
        item["link"] = response.url
        content = "內(nèi)容:" + item["content"]
        print(content.decode("utf-8"))
        link = "鏈接:" + item["link"]
        print(link.decode("utf-8"))
        print("*************************************************************")
        yield item


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末透乾,一起剝皮案震驚了整個濱河市爵卒,隨后出現(xiàn)的幾起案子妥曲,更是在濱河造成了極大的恐慌,老刑警劉巖吕世,帶你破解...
    沈念sama閱讀 211,948評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異梯投,居然都是意外死亡命辖,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評論 3 385
  • 文/潘曉璐 我一進(jìn)店門分蓖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來尔艇,“玉大人,你說我怎么就攤上這事么鹤≈胀蓿” “怎么了?”我有些...
    開封第一講書人閱讀 157,490評論 0 348
  • 文/不壞的土叔 我叫張陵蒸甜,是天一觀的道長棠耕。 經(jīng)常有香客問我,道長迅皇,這世上最難降的妖魔是什么昧辽? 我笑而不...
    開封第一講書人閱讀 56,521評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮登颓,結(jié)果婚禮上搅荞,老公的妹妹穿的比我還像新娘。我一直安慰自己框咙,他們只是感情好咕痛,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著喇嘱,像睡著了一般茉贡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上者铜,一...
    開封第一講書人閱讀 49,842評論 1 290
  • 那天腔丧,我揣著相機(jī)與錄音,去河邊找鬼作烟。 笑死愉粤,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的拿撩。 我是一名探鬼主播衣厘,決...
    沈念sama閱讀 38,997評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了影暴?” 一聲冷哼從身側(cè)響起错邦,我...
    開封第一講書人閱讀 37,741評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎型宙,沒想到半個月后撬呢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,203評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡早歇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評論 2 327
  • 正文 我和宋清朗相戀三年倾芝,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片箭跳。...
    茶點(diǎn)故事閱讀 38,673評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡晨另,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出谱姓,到底是詐尸還是另有隱情借尿,我是刑警寧澤,帶...
    沈念sama閱讀 34,339評論 4 330
  • 正文 年R本政府宣布屉来,位于F島的核電站路翻,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏茄靠。R本人自食惡果不足惜茂契,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望慨绳。 院中可真熱鬧掉冶,春花似錦、人聲如沸脐雪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽战秋。三九已至璧亚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間脂信,已是汗流浹背癣蟋。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留狰闪,地道東北人梢薪。 一個月前我還...
    沈念sama閱讀 46,394評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像尝哆,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子甜攀,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評論 2 349

推薦閱讀更多精彩內(nèi)容

  • 1 前言 作為一名合格的數(shù)據(jù)分析師秋泄,其完整的技術(shù)知識體系必須貫穿數(shù)據(jù)獲取琐馆、數(shù)據(jù)存儲、數(shù)據(jù)提取恒序、數(shù)據(jù)分析瘦麸、數(shù)據(jù)挖掘、...
    whenif閱讀 18,064評論 45 523
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,796評論 25 707
  • 第一期 我第一次遇見大圣的時候屠缭,他正在去和天兵天將決戰(zhàn)的路上。 那時他意氣風(fēng)發(fā)崭参,桀驁張揚(yáng)呵曹,從妖怪的嘴里救下了我,在...
    舊書攤的雜志落了灰閱讀 4,180評論 10 23
  • 2017.2.28 農(nóng)歷二月初三 晴 星期二 1《易經(jīng)》57~64 第二天 2運(yùn)動:蹲墻100個何暮,掄胳膊1500...
    b0a4ca4b06a4閱讀 172評論 1 2
  • 學(xué)習(xí)第二天奄喂,陳爸比發(fā)來紅色月季開花的圖片,心情大好海洼!花兒的開放自有花期跨新! 今天導(dǎo)師教學(xué)溝通技巧,學(xué)員們都覺得溝通十...
    可愛豬媽媽閱讀 176評論 0 0