【scrapy爬蟲(chóng)實(shí)戰(zhàn)】糗事百科段子獲取

爬取糗事百科實(shí)驗(yàn)

1. 創(chuàng)建工程


scrapy startproject qsbk

cd qsbk

2. 創(chuàng)建爬蟲(chóng)


scrapy genspider qsbk_spider qiushibaike.com

3. 分析頁(yè)面

入口地址

https://www.qiushibaike.com/text/page/1/

image

通過(guò)page路由分頁(yè)

4. ### 單頁(yè)面爬取

qsbk_spider.py


# -*- coding: utf-8 -*-

import scrapy

from qsbk.items import QsbkItem

class QsbkSpiderSpider(scrapy.Spider):

    name = 'qsbk_spider'                    # 爬蟲(chóng)名稱

    allowed_domains = ['qiushibaike.com']  # 爬取的域名

    start_urls = ['https://www.qiushibaike.com/text/page/1/']  # 入口地址

    def parse(self, response):

        # 獲取所有段子

        content_list = response.xpath("http://div[@class='col1 old-style-col1']/div")

        # 遍歷列表獲取到每個(gè)段子

        for content in content_list:

            # 得到作者

            author = content.xpath(".//h2/text()").get().strip()

            # 得到文字內(nèi)容

            content_text = content.xpath('.//div[@class="content"]/span//text()').getall()

            # 使用getall獲取的內(nèi)容為列表形式 需要轉(zhuǎn)為字符串

            content_text = "".join(content_text).strip()

            # 新的item對(duì)象 從item文件中定義 需要配置 ITEM_PIPELINES 參數(shù)

            item = QsbkItem(author=author,content = content_text)

            # 傳遞這個(gè)對(duì)象給 pipelines

            yield item

item.py


# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

# 定義每個(gè)元素的存儲(chǔ)模板

class QsbkItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    author = scrapy.Field()

    content = scrapy.Field()

  • 需要注冊(cè) ITEM_PIPELINES配置才能生效

pipelines.py


import json

from scrapy.exporters import JsonItemExporter,JsonLinesItemExporter

# 以行的方式保存每個(gè)json對(duì)象 優(yōu)點(diǎn)可以按行讀取缺點(diǎn)不能一下讀取

class QsbkPipeline:

    # 存儲(chǔ)為json文件 需要打開(kāi)一個(gè)文件

    # 使用JsonLinesItemExporter或JsonItemExporter 需要wb方式打開(kāi)

    def __init__(self):

        # 打開(kāi)文件

        self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding="utf-8", indent=4)

        self.fp = open("duanzi.json", 'wb')

        # 注冊(cè)文件對(duì)象

    def open_spider(self, spider):

        # 爬取開(kāi)始時(shí)

        pass

    def close_spider(self, spider):

        # 爬取結(jié)束時(shí)關(guān)閉文件

        self.fp.close()

    def process_item(self, item, spider):

        # 將每一項(xiàng)以行的方式寫(xiě)入文件

        self.exporter.export_item(item)

        return item

另一種存儲(chǔ)形式


# 按列表方式儲(chǔ)存json 優(yōu)點(diǎn) 可以一下讀取,缺點(diǎn) 不能按行讀取

class QsbkPipeline:

    def __init__(self):

        self.fp = open("duanzi.json", 'wb')

    def open_spider(self, spider):

        self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding="utf-8",indent=4)

        # 要寫(xiě)入到j(luò)son文件

        self.exporter.start_exporting()

    def close_spider(self, spider):

        self.exporter.finish_exporting()

        self.fp.close()

    def process_item(self, item, spider):

        self.exporter.export_item(item)

        return item

還有一種存儲(chǔ)方式就是把爬取到的每一條都存進(jìn)列表然后返回列表給pipelines統(tǒng)一存儲(chǔ)到文件但是占內(nèi)存多

爬取到的數(shù)據(jù)

5. 運(yùn)行爬蟲(chóng)


scrapy crawl qsbk_spider

保存的duanzi.json

image

通過(guò)行的形式寫(xiě)入可以以行的形式進(jìn)行讀取,缺點(diǎn)是不能一下讀取為字典對(duì)象不滿足json規(guī)則

5. ### 多頁(yè)爬取

6. 分析下一頁(yè)的鏈接在 類名是pagination 的ul的最后一個(gè)li的a標(biāo)簽中

image

qsbk_spider.py


# -*- coding: utf-8 -*-

import scrapy

from qsbk.items import QsbkItem

class QsbkSpiderSpider(scrapy.Spider):

    name = 'qsbk_spider'                    # 爬蟲(chóng)名稱

    allowed_domains = ['qiushibaike.com']  # 爬取的域名

    base_url = "https://www.qiushibaike.com"    # 定義基礎(chǔ)url 和分頁(yè)url相加

    start_urls = [base_url+'/text/page/1/']  # 入口地址

    def parse(self, response):

        # 獲取所有段子

        content_list = response.xpath("http://div[@class='col1 old-style-col1']/div")

        # 遍歷列表獲取到每個(gè)段子

        for content in content_list:

            # 得到作者

            author = content.xpath(".//h2/text()").get().strip()

            # 得到文字內(nèi)容

            content_text = content.xpath('.//div[@class="content"]/span//text()').getall()

            # 使用getall獲取的內(nèi)容為列表形式 需要轉(zhuǎn)為字符串

            content_text = "".join(content_text).strip()

            # 新的item對(duì)象 從item文件中定義 需要配置 ITEM_PIPELINES 參數(shù)

            item = QsbkItem(author=author,content = content_text)

            # 傳遞這個(gè)對(duì)象給 pipelines

            yield item

            # 獲取下一頁(yè)的鏈接

            next_link = content.xpath('//ul[@class="pagination"]/li[last()]/a/@href').get()

            if not next_link:

                # 如果沒(méi)有及返回程序結(jié)束 共計(jì)13頁(yè)

                return

            else:

                # 分發(fā)新任務(wù)到

                yield scrapy.Request(self.base_url + next_link, callback=self.parse)

運(yùn)行結(jié)果


共計(jì)301行 的json

image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末谒撼,一起剝皮案震驚了整個(gè)濱河市慧妄,隨后出現(xiàn)的幾起案子牲剃,更是在濱河造成了極大的恐慌,老刑警劉巖雌贱,帶你破解...
    沈念sama閱讀 216,470評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拇囊,死亡現(xiàn)場(chǎng)離奇詭異盗誊,居然都是意外死亡甩栈,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門屑那,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拱镐,“玉大人艘款,你說(shuō)我怎么就攤上這事∥掷牛” “怎么了哗咆?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,577評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)阵难。 經(jīng)常有香客問(wèn)我岳枷,道長(zhǎng)芒填,這世上最難降的妖魔是什么呜叫? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,176評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮殿衰,結(jié)果婚禮上朱庆,老公的妹妹穿的比我還像新娘。我一直安慰自己闷祥,他們只是感情好娱颊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著凯砍,像睡著了一般箱硕。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上悟衩,一...
    開(kāi)封第一講書(shū)人閱讀 51,155評(píng)論 1 299
  • 那天剧罩,我揣著相機(jī)與錄音,去河邊找鬼座泳。 笑死惠昔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的挑势。 我是一名探鬼主播镇防,決...
    沈念sama閱讀 40,041評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼潮饱!你這毒婦竟也來(lái)了来氧?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,903評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤香拉,失蹤者是張志新(化名)和其女友劉穎啦扬,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體缕溉,經(jīng)...
    沈念sama閱讀 45,319評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡考传,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了证鸥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片僚楞。...
    茶點(diǎn)故事閱讀 39,703評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡勤晚,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出泉褐,到底是詐尸還是另有隱情赐写,我是刑警寧澤,帶...
    沈念sama閱讀 35,417評(píng)論 5 343
  • 正文 年R本政府宣布膜赃,位于F島的核電站挺邀,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏跳座。R本人自食惡果不足惜端铛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望疲眷。 院中可真熱鬧禾蚕,春花似錦、人聲如沸狂丝。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,664評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)几颜。三九已至倍试,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蛋哭,已是汗流浹背县习。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,818評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留具壮,地道東北人准颓。 一個(gè)月前我還...
    沈念sama閱讀 47,711評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像棺妓,于是被迫代替她去往敵國(guó)和親攘已。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評(píng)論 2 353