【scrapy爬蟲(chóng)實(shí)戰(zhàn)】糗事百科段子獲取

爬取糗事百科實(shí)驗(yàn)

1. 創(chuàng)建工程


scrapy startproject qsbk

cd qsbk

2. 創(chuàng)建爬蟲(chóng)


scrapy genspider qsbk_spider qiushibaike.com

3. 分析頁(yè)面

入口地址

https://www.qiushibaike.com/text/page/1/

image

通過(guò)page路由分頁(yè)

4. ### 單頁(yè)面爬取

qsbk_spider.py


# -*- coding: utf-8 -*-

import scrapy

from qsbk.items import QsbkItem

class QsbkSpiderSpider(scrapy.Spider):

    name = 'qsbk_spider'                    # 爬蟲(chóng)名稱

    allowed_domains = ['qiushibaike.com']  # 爬取的域名

    start_urls = ['https://www.qiushibaike.com/text/page/1/']  # 入口地址

    def parse(self, response):

        # 獲取所有段子

        content_list = response.xpath("http://div[@class='col1 old-style-col1']/div")

        # 遍歷列表獲取到每個(gè)段子

        for content in content_list:

            # 得到作者

            author = content.xpath(".//h2/text()").get().strip()

            # 得到文字內(nèi)容

            content_text = content.xpath('.//div[@class="content"]/span//text()').getall()

            # 使用getall獲取的內(nèi)容為列表形式 需要轉(zhuǎn)為字符串

            content_text = "".join(content_text).strip()

            # 新的item對(duì)象 從item文件中定義 需要配置 ITEM_PIPELINES 參數(shù)

            item = QsbkItem(author=author,content = content_text)

            # 傳遞這個(gè)對(duì)象給 pipelines

            yield item

item.py


# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

# 定義每個(gè)元素的存儲(chǔ)模板

class QsbkItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    author = scrapy.Field()

    content = scrapy.Field()

需要注冊(cè) ITEM_PIPELINES配置才能生效

pipelines.py


import json

from scrapy.exporters import JsonItemExporter,JsonLinesItemExporter

# 以行的方式保存每個(gè)json對(duì)象 優(yōu)點(diǎn)可以按行讀取缺點(diǎn)不能一下讀取

class QsbkPipeline:

    # 存儲(chǔ)為json文件 需要打開(kāi)一個(gè)文件

    # 使用JsonLinesItemExporter或JsonItemExporter 需要wb方式打開(kāi)

    def __init__(self):

        # 打開(kāi)文件

        self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding="utf-8", indent=4)

        self.fp = open("duanzi.json", 'wb')

        # 注冊(cè)文件對(duì)象

    def open_spider(self, spider):

        # 爬取開(kāi)始時(shí)

        pass

    def close_spider(self, spider):

        # 爬取結(jié)束時(shí)關(guān)閉文件

        self.fp.close()

    def process_item(self, item, spider):

        # 將每一項(xiàng)以行的方式寫(xiě)入文件

        self.exporter.export_item(item)

        return item

另一種存儲(chǔ)形式


# 按列表方式儲(chǔ)存json 優(yōu)點(diǎn) 可以一下讀取,缺點(diǎn) 不能按行讀取

class QsbkPipeline:

    def __init__(self):

        self.fp = open("duanzi.json", 'wb')

    def open_spider(self, spider):

        self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding="utf-8",indent=4)

        # 要寫(xiě)入到j(luò)son文件

        self.exporter.start_exporting()

    def close_spider(self, spider):

        self.exporter.finish_exporting()

        self.fp.close()

    def process_item(self, item, spider):

        self.exporter.export_item(item)

        return item

還有一種存儲(chǔ)方式就是把爬取到的每一條都存進(jìn)列表然后返回列表給pipelines統(tǒng)一存儲(chǔ)到文件但是占內(nèi)存多

爬取到的數(shù)據(jù)

5. 運(yùn)行爬蟲(chóng)


scrapy crawl qsbk_spider

保存的duanzi.json

image

通過(guò)行的形式寫(xiě)入可以以行的形式進(jìn)行讀取,缺點(diǎn)是不能一下讀取為字典對(duì)象不滿足json規(guī)則

5. ### 多頁(yè)爬取

6. 分析下一頁(yè)的鏈接在類名是pagination 的ul的最后一個(gè)li的a標(biāo)簽中

image

qsbk_spider.py


# -*- coding: utf-8 -*-

import scrapy

from qsbk.items import QsbkItem

class QsbkSpiderSpider(scrapy.Spider):

    name = 'qsbk_spider'                    # 爬蟲(chóng)名稱

    allowed_domains = ['qiushibaike.com']  # 爬取的域名

    base_url = "https://www.qiushibaike.com"    # 定義基礎(chǔ)url 和分頁(yè)url相加

    start_urls = [base_url+'/text/page/1/']  # 入口地址

    def parse(self, response):

        # 獲取所有段子

        content_list = response.xpath("http://div[@class='col1 old-style-col1']/div")

        # 遍歷列表獲取到每個(gè)段子

        for content in content_list:

            # 得到作者

            author = content.xpath(".//h2/text()").get().strip()

            # 得到文字內(nèi)容

            content_text = content.xpath('.//div[@class="content"]/span//text()').getall()

            # 使用getall獲取的內(nèi)容為列表形式 需要轉(zhuǎn)為字符串

            content_text = "".join(content_text).strip()

            # 新的item對(duì)象 從item文件中定義 需要配置 ITEM_PIPELINES 參數(shù)

            item = QsbkItem(author=author,content = content_text)

            # 傳遞這個(gè)對(duì)象給 pipelines

            yield item

            # 獲取下一頁(yè)的鏈接

            next_link = content.xpath('//ul[@class="pagination"]/li[last()]/a/@href').get()

            if not next_link:

                # 如果沒(méi)有及返回程序結(jié)束 共計(jì)13頁(yè)

                return

            else:

                # 分發(fā)新任務(wù)到

                yield scrapy.Request(self.base_url + next_link, callback=self.parse)

運(yùn)行結(jié)果


共計(jì)301行 的json

image

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末谒撼，一起剝皮案震驚了整個(gè)濱河市慧妄，隨后出現(xiàn)的幾起案子牲剃，更是在濱河造成了極大的恐慌，老刑警劉巖雌贱，帶你破解...
沈念sama閱讀 216,470評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件拇囊，死亡現(xiàn)場(chǎng)離奇詭異盗誊，居然都是意外死亡甩栈，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,393評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門屑那，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拱镐，“玉大人艘款，你說(shuō)我怎么就攤上這事∥掷牛” “怎么了哗咆？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,577評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)阵难。經(jīng)常有香客問(wèn)我岳枷，道長(zhǎng)芒填，這世上最難降的妖魔是什么呜叫？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,176評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮殿衰，結(jié)果婚禮上朱庆，老公的妹妹穿的比我還像新娘。我一直安慰自己闷祥，他們只是感情好娱颊，可當(dāng)我...
茶點(diǎn)故事閱讀 67,189評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著凯砍，像睡著了一般箱硕。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上悟衩，一...
開(kāi)封第一講書(shū)人閱讀 51,155評(píng)論 1贊 299
城市分裂傳說(shuō)
那天剧罩，我揣著相機(jī)與錄音，去河邊找鬼座泳。笑死惠昔，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的挑势。我是一名探鬼主播镇防，決...
沈念sama閱讀 40,041評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼潮饱！你這毒婦竟也來(lái)了来氧？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,903評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤香拉，失蹤者是張志新（化名）和其女友劉穎啦扬，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體缕溉，經(jīng)...
沈念sama閱讀 45,319評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡考传，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,539評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了证鸥。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片僚楞。...
茶點(diǎn)故事閱讀 39,703評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡勤晚，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出泉褐，到底是詐尸還是另有隱情赐写，我是刑警寧澤，帶...
沈念sama閱讀 35,417評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布膜赃，位于F島的核電站挺邀，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏跳座。R本人自食惡果不足惜端铛，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,013評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望疲眷。院中可真熱鬧禾蚕，春花似錦、人聲如沸狂丝。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,664評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)几颜。三九已至倍试，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間蛋哭，已是汗流浹背县习。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,818評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留具壮，地道東北人准颓。一個(gè)月前我還...
沈念sama閱讀 47,711評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像棺妓，于是被迫代替她去往敵國(guó)和親攘已。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,601評(píng)論 2贊 353