使用FilesPipeline和ImagesPipeline

除了爬取文本实牡,我們可能還需要下載文件斋荞、視頻悴务、圖片、壓縮包等譬猫,這也是一些常見的需求讯檐。scrapy提供了FilesPipeline和ImagesPipeline,專門用于下載普通文件及圖片染服。兩者的使用方法也十分簡(jiǎn)單别洪,首先看下FilesPipeline的使用方式。

FilesPipeline

FilesPipeline的工作流如下:

  1. spider中爬取要下載的文件鏈接柳刮,將其放置于item中的file_urls挖垛;
  2. spider將其返回并傳送至pipeline鏈;
  3. 當(dāng)FilesPipeline處理時(shí)秉颗,它會(huì)檢測(cè)是否有file_urls字段痢毒,如果有的話,會(huì)將url傳送給scarpy調(diào)度器和下載器蚕甥;
  4. 下載完成之后哪替,會(huì)將結(jié)果寫入item的另一字段filesfiles包含了文件現(xiàn)在的本地路徑(相對(duì)于配置FILE_STORE的路徑)菇怀、文件校驗(yàn)和checksum凭舶、文件的url

從上面的過程可以看出使用FilesPipeline的幾個(gè)必須項(xiàng):

  1. Item要包含file_urlsfiles兩個(gè)字段爱沟;
  2. 打開FilesPipeline配置帅霜;
  3. 配置文件下載目錄FILE_STORE

下面以下載https://twistedmatrix.com/documents/current/core/examples/頁面下的python代碼為例:

# items.py
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class ExamplesItem(scrapy.Item):
    file_urls = scrapy.Field()  # 指定文件下載的連接
    files = scrapy.Field()      #文件下載完成后會(huì)往里面寫相關(guān)的信息
#example.py
# -*- coding: utf-8 -*-
import scrapy
from ..items import ExamplesItem

class ExamplesSpider(scrapy.Spider):
    name = 'examples'
    allowed_domains = ['twistedmatrix.com']
    start_urls = ['https://twistedmatrix.com/documents/current/core/examples/']

    def parse(self, response):
        urls  = response.css('a.reference.download.internal::attr(href)').extract()
        for url in urls:
            yield ExamplesItem(file_urls = [response.urljoin(url)])
#setting.py
#...
FILES_STORE = '/root/TwistedExamples/file_store'
#...

運(yùn)行scrapy crawl examples呼伸,然后在FILES_STORE/full目錄下身冀,可以看到已經(jīng)下載了文件,此時(shí)用url的SHA1 hash來作為文件的名稱,后面會(huì)講到如何自定義自己想要的名稱搂根。先來看看ImagesPipeline蝶怔。

FilesPipeline.png

ImagesPipeline

IMagesPipeline的過程與FilePipeline差不多,參數(shù)名稱和配置不一樣兄墅;如下:

FilesPipelin ImagesPipeline
Package scrapy.pipelines.files.FilesPipeline scrapy.pipelines.images.ImagesPipeline
Item file_urls
files
image_urls
images
存儲(chǔ)路徑配置參數(shù) FILES_STROE IMAGES_STORE

除此之外,ImagesPipeline還支持以下特別功能:

  1. 生成縮略圖澳叉,通過配置IMAGES_THUMBS = {'size_name': (width_size,heigh_size),}
  2. 過濾過小圖片隙咸,通過配置IMAGES_MIN_HEIGHTIMAGES_MIN_WIDTH來過濾過小的圖片。

下面我們以爬取http://image.so.com/z?ch=beauty下美女的圖片為例成洗,看下ImagePipeline是如何生效的五督。
通過抓取該網(wǎng)站地址的請(qǐng)求,可以發(fā)現(xiàn)圖片地址是通過接口http://image.so.com/zj?ch=beauty&sn=0&listtype=new&temp=1來獲取圖片地址的瓶殃,其中sn=0表示圖片數(shù)據(jù)的偏移量充包,默認(rèn)每次返回30個(gè)圖片信息,其返回包是一個(gè)json字符串遥椿,如下:


    "end": false,
    "count": 30,
    "lastid": 30,
    "list": [{
        "id": "b0cd2c3beced890b801b845a7d2de081",
        "imageid": "f90d2737a6d14cbcb2f1f2d5192356dc",
        "group_title": "清純美女戶外迷人寫真笑顏迷人",
        "tag": "萌女",
        "grpseq": 1,
        "cover_imgurl": "http:\/\/i1.umei.cc\/uploads\/tu\/201608\/80\/0dexb2tjurx.jpg",
        "cover_height": 960,
        "cover_width": 640,
        "total_count": 8,
        "index": 1,
        "qhimg_url": "http:\/\/p0.so.qhmsg.com\/t017d478b5ab2f639ff.jpg",
        "qhimg_thumb_url": "http:\/\/p0.so.qhmsg.com\/sdr\/238__\/t017d478b5ab2f639ff.jpg",
        "qhimg_width": 238,
        "qhimg_height": 357,
        "dsptime": ""
    },
    ......省略
    , {
        "id": "37f6474ea039f34b5936eb70d77c057c",
        "imageid": "3125c84c138f1d31096f620c29b94512",
        "group_title": "美女蘿莉鐵路制服寫真清純動(dòng)人",
        "tag": "萌女",
        "grpseq": 1,
        "cover_imgurl": "http:\/\/i1.umei.cc\/uploads\/tu\/201701\/798\/kuojthsyf1j.jpg",
        "cover_height": 587,
        "cover_width": 880,
        "total_count": 8,
        "index": 30,
        "qhimg_url": "http:\/\/p2.so.qhimgs1.com\/t0108dc82794264fe32.jpg",
        "qhimg_thumb_url": "http:\/\/p2.so.qhimgs1.com\/sdr\/238__\/t0108dc82794264fe32.jpg",
        "qhimg_width": 238,
        "qhimg_height": 159,
        "dsptime": ""
    }]
}

我們可以通過返回包的qhimg_url獲取圖片的鏈接基矮,具體代碼如下:

#items.py
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class BeautyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    image_urls = scrapy.Field()
    images = scrapy.Field()
#beauty.py
# -*- coding: utf-8 -*-
import scrapy
import json
from ..items import BeautyItem

class BeautypicSpider(scrapy.Spider):
    name = 'beautypic'
    allowed_domains = ['image.so.com']
    url_pattern = 'http://image.so.com/zj?ch=beauty&sn={offset}&listtype=new&temp=1'
#    start_urls = ['http://image.so.com/']
    def start_requests(self):
        step = 30
        for page in range(0,3):
            url = self.url_pattern.format(offset = page*step)
            yield scrapy.Request(url, callback = self.parse)

    def parse(self, response):
        ret = json.loads(response.body)
        for row in ret['list']:
            yield BeautyItem(image_urls=[row['qhimg_url']], name = row['group_title'])
#settings.py
# Obey robots.txt rules
ROBOTSTXT_OBEY =False

ITEM_PIPELINES = {
     'scrapy.pipelines.images.ImagesPipeline':5,
}
IMAGES_STORE = '/root/beauty/store_file'

下載下來的圖片文件如下:


ImagesPipeline.png
修改文件默認(rèn)名

從FilePipeline和ImagePipeline中可以看到下載的文件名都比較怪異,不太直觀冠场,這些文件名使用的是url地址的sha1散列值家浇,主要用于防止重名的文件相互覆蓋,但有時(shí)我們想文件按照我們的期望來命名碴裙。比如對(duì)于下載文件钢悲,通過查看FilesPipeline的源碼,可以發(fā)現(xiàn)文件名主要由FilesPipeline.file_path來決定的舔株,部分代碼如下:

class FilesPipeline(MediaPipeline):
   ...
   def file_path(self, request, response=None, info=None):
        ## start of deprecation warning block (can be removed in the future)
        def _warn():
            from scrapy.exceptions import ScrapyDeprecationWarning
            import warnings
            warnings.warn('FilesPipeline.file_key(url) method is deprecated, please use '
                          'file_path(request, response=None, info=None) instead',
                          category=ScrapyDeprecationWarning, stacklevel=1)

        # check if called from file_key with url as first argument
        if not isinstance(request, Request):
            _warn()
            url = request
        else:
            url = request.url

        # detect if file_key() method has been overridden
        if not hasattr(self.file_key, '_base'):
            _warn()
            return self.file_key(url)
        ## end of deprecation warning block

        media_guid = hashlib.sha1(to_bytes(url)).hexdigest()  # change to request.url after deprecation
        media_ext = os.path.splitext(url)[1]  # change to request.url after deprecation
        return 'full/%s%s' % (media_guid, media_ext)
    ...

因此我們可以通過繼承FilesPipeline重寫file_path()方法來重定義文件名莺琳,新的自定義SelfDefineFilePipline如下:

#pipelines.py
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
from scrapy.pipelines.files import FilesPipeline
from urllib.parse import urlparse
import os
class MatplotlibExamplesPipeline(object):
    def process_item(self, item, spider):
        return item


class SelfDefineFilePipline(FilesPipeline):
    """
    繼承FilesPipeline,更改其存儲(chǔ)文件的方式
    """
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def file_path(self, request, response=None, info=None):
        parse_result = urlparse(request.url)
        path = parse_result.path
        basename = os.path.basename(path)
        return basename

在配置文件settings.py中打開SelfDefineFilePipline并運(yùn)行爬蟲载慈,以下為下載結(jié)果惭等。

SelfDefineFilePipline.png

這里講的只是其中一種方法,主要是為了提供一種思路办铡,更改文件名的方法有很多咕缎,要看具體場(chǎng)景,比如下載圖片那一節(jié)料扰,url并沒有帶圖片的名稱凭豪,那么通過只更改file_path()方法來命名應(yīng)該不可能,因?yàn)閕tem['name']并沒有傳進(jìn)來晒杈,通過查找源碼嫂伞,發(fā)現(xiàn)在get_media_requests()方法中是通過Request來下載圖片的,這個(gè)方法里面也有帶item信息,可以將item['name']在Request的meta參數(shù)傳遞帖努,在file_path()方法就能獲取到外部傳進(jìn)來的名字撰豺。所以看源碼其實(shí)也是學(xué)習(xí)框架的一種方式。

總結(jié)

本篇講了如何使用scrapy自帶的FilesPipeline和ImagesPipeline來下載文件和圖片拼余,然后講了如何通過繼承并重寫上述類的方法來重定義文件名的命名方法污桦。下一篇主要學(xué)習(xí)下LineExtractor快速提前鏈接和Exporter導(dǎo)出結(jié)果到文件。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末匙监,一起剝皮案震驚了整個(gè)濱河市凡橱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌亭姥,老刑警劉巖稼钩,帶你破解...
    沈念sama閱讀 219,427評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異达罗,居然都是意外死亡坝撑,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門粮揉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來巡李,“玉大人,你說我怎么就攤上這事扶认』骼埽” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵蝠引,是天一觀的道長(zhǎng)阳谍。 經(jīng)常有香客問我,道長(zhǎng)螃概,這世上最難降的妖魔是什么矫夯? 我笑而不...
    開封第一講書人閱讀 58,939評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮吊洼,結(jié)果婚禮上训貌,老公的妹妹穿的比我還像新娘。我一直安慰自己冒窍,他們只是感情好递沪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著综液,像睡著了一般款慨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谬莹,一...
    開封第一講書人閱讀 51,737評(píng)論 1 305
  • 那天檩奠,我揣著相機(jī)與錄音桩了,去河邊找鬼。 笑死埠戳,一個(gè)胖子當(dāng)著我的面吹牛井誉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播整胃,決...
    沈念sama閱讀 40,448評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼颗圣,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了屁使?” 一聲冷哼從身側(cè)響起在岂,我...
    開封第一講書人閱讀 39,352評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎屋灌,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體应狱,經(jīng)...
    沈念sama閱讀 45,834評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡共郭,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了疾呻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片除嘹。...
    茶點(diǎn)故事閱讀 40,133評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖岸蜗,靈堂內(nèi)的尸體忽然破棺而出尉咕,到底是詐尸還是另有隱情,我是刑警寧澤璃岳,帶...
    沈念sama閱讀 35,815評(píng)論 5 346
  • 正文 年R本政府宣布年缎,位于F島的核電站,受9級(jí)特大地震影響铃慷,放射性物質(zhì)發(fā)生泄漏单芜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評(píng)論 3 331
  • 文/蒙蒙 一犁柜、第九天 我趴在偏房一處隱蔽的房頂上張望洲鸠。 院中可真熱鬧,春花似錦馋缅、人聲如沸扒腕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瘾腰。三九已至,卻和暖如春覆履,著一層夾襖步出監(jiān)牢的瞬間居灯,已是汗流浹背祭务。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留怪嫌,地道東北人义锥。 一個(gè)月前我還...
    沈念sama閱讀 48,398評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像岩灭,于是被迫代替她去往敵國和親拌倍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容