Scrapy框架之利用ImagesPipeline下載圖片

1.ImagesPipeline簡介

Scrapy用ImagesPipeline類提供一種方便的方式來下載和存儲圖片。

特點(diǎn):

  • 將下載圖片轉(zhuǎn)換成通用的JPG和RGB格式
  • 避免重復(fù)下載
  • 縮略圖生成
  • 圖片大小過濾

2.ImagesPipeline工作流程

當(dāng)使用圖片管道 ImagePipeline,典型的工作流程如下:

  • 在一個爬蟲里,你抓取一個項(xiàng)目,把其中圖片的URL放入image_urls組內(nèi)指黎。
  • 項(xiàng)目從爬蟲內(nèi)返回,進(jìn)入項(xiàng)目管道。
  • 當(dāng)項(xiàng)目進(jìn)入ImagePipeline, image_urls組內(nèi)的URLs將被Scrapy的調(diào)度器和下載器安排下載(這意味著調(diào)度器和中間件可以復(fù)用),當(dāng)優(yōu)先級更高,會在其他頁面被抓取前處理. 項(xiàng)目會在這個特定的管道階段保持"locker"的狀態(tài),直到完成圖片的下載(或者由于某些原因未完成下載)且改。
  • 當(dāng)圖片下載完, 另一個組(images)將被更新到結(jié)構(gòu)中,這個組將包含一個字典列表,其中包括下載圖片的信息,比如下載路徑,源抓取地址(從image_urls組獲得)和圖片的校驗(yàn)碼. images列表中的圖片順序?qū)⒑驮磇mage_urls組保持一致.如果某個圖片下載失敗,將會記錄下錯誤信息,圖片也不會出現(xiàn)在images組中掀抹。

3.操作過程

項(xiàng)目目錄結(jié)構(gòu):

這里寫圖片描述

<font size=5>要想成功爬取圖片蹬竖,需要經(jīng)過以下幾個步驟:

(1) 在items.py中添加image_urls、images和image_paths字段丈冬,代碼如下:

class DoubanImgsItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    image_urls = Field()
    images = Field()
    image_paths = Field()

(2)在settings.py中設(shè)置條件和屬性嘱函,代碼如下:

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html

# ImagePipeline的自定義實(shí)現(xiàn)類
ITEM_PIPELINES = {
    'douban_imgs.pipelines.DoubanImgDownloadPipeline': 300,
}
#設(shè)置圖片下載路徑
IMAGES_STORE = 'D:\\doubanimgs'
# 過期天數(shù)
IMAGES_EXPIRES = 90  #90天內(nèi)抓取的都不會被重抓

(3)在spiders/download_douban.py中書寫ImageSpider的代碼:

# coding=utf-8
from scrapy.spiders import Spider
import re
from scrapy import Request
from ..items import DoubanImgsItem


class download_douban(Spider):
    name = 'download_douban'

    default_headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, sdch, br',
        'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',
        'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive',
        'Host': 'www.douban.com',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',
    }

    def __init__(self, url='1638835355', *args, **kwargs):
        self.allowed_domains = ['douban.com']
        self.start_urls = [
            'http://www.douban.com/photos/album/%s/' % (url)]
        self.url = url
        # call the father base function

        # super(download_douban, self).__init__(*args, **kwargs)

    def start_requests(self):

        for url in self.start_urls:
            yield Request(url=url, headers=self.default_headers, callback=self.parse)

    def parse(self, response):
        list_imgs = response.xpath('//div[@class="photolst clearfix"]//img/@src').extract()
        if list_imgs:
            item = DoubanImgsItem()
            item['image_urls'] = list_imgs
            yield item

(4)在pipelines.py中自定義ImagePipeline代碼:

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
from scrapy import Request
from scrapy import log


class DoubanImgsPipeline(object):
    def process_item(self, item, spider):
        return item


class DoubanImgDownloadPipeline(ImagesPipeline):
    default_headers = {
        'accept': 'image/webp,image/*,*/*;q=0.8',
        'accept-encoding': 'gzip, deflate, sdch, br',
        'accept-language': 'zh-CN,zh;q=0.8,en;q=0.6',
        'cookie': 'bid=yQdC/AzTaCw',
        'referer': 'https://www.douban.com/photos/photo/2370443040/',
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',
    }

    def get_media_requests(self, item, info):
        for image_url in item['image_urls']:
            self.default_headers['referer'] = image_url
            yield Request(image_url, headers=self.default_headers)

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        item['image_paths'] = image_paths
        return item

在自定義ImagePipeline代碼中,作為重要的是要重載get_media_requests(self, item, info)item_completed(self, results, item, info)這兩個函數(shù)埂蕊。

  • get_media_requests(self,item, info):

ImagePipeline根據(jù)image_urls中指定的url進(jìn)行爬取往弓,可以通過get_media_requests為每個url生成一個Request。如:

for image_url in item['image_urls']:
            self.default_headers['referer'] = image_url
            yield Request(image_url, headers=self.default_headers)

  • item_completed(self, results, item, info):

圖片下載完畢后粒梦,處理結(jié)果會以二元組的方式返回給item_completed()函數(shù)亮航。這個二元組定義如下:

(success, image_info_or_failure)

其中,第一個元素表示圖片是否下載成功匀们;第二個元素是一個字典缴淋。如:

 def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        item['image_paths'] = image_paths
        return item

4.爬取結(jié)果

運(yùn)行結(jié)果如下:

這里寫圖片描述

下載成功以后,你就會在剛才設(shè)置的保存圖片的路徑里看到下載完成的圖片:IMAGES_STORE = 'D:\doubanimgs'

這里寫圖片描述

5.擴(kuò)展

默認(rèn)情況下泄朴,使用ImagePipeline組件下載圖片的時候重抖,圖片名稱是以圖片URL的SHA1值進(jìn)行保存的。

如:
圖片URL:http://www.example.com/image.jpg
SHA1結(jié)果:3afec3b4765f8f0a07b78f98c07b83f013567a0a
則圖片名稱:3afec3b4765f8f0a07b78f98c07b83f013567a0a.jpg

如果想進(jìn)行更改祖灰,請參考:使用scrapy框架的ImagesPipeline下載圖片如何保持原文件名呢钟沛?


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市局扶,隨后出現(xiàn)的幾起案子恨统,更是在濱河造成了極大的恐慌,老刑警劉巖三妈,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件畜埋,死亡現(xiàn)場離奇詭異,居然都是意外死亡畴蒲,警方通過查閱死者的電腦和手機(jī)悠鞍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來模燥,“玉大人咖祭,你說我怎么就攤上這事掩宜。” “怎么了么翰?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵牺汤,是天一觀的道長。 經(jīng)常有香客問我浩嫌,道長慧瘤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任固该,我火速辦了婚禮,結(jié)果婚禮上糖儡,老公的妹妹穿的比我還像新娘伐坏。我一直安慰自己,他們只是感情好握联,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布桦沉。 她就那樣靜靜地躺著,像睡著了一般金闽。 火紅的嫁衣襯著肌膚如雪纯露。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天代芜,我揣著相機(jī)與錄音埠褪,去河邊找鬼。 笑死挤庇,一個胖子當(dāng)著我的面吹牛钞速,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播嫡秕,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼渴语,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了昆咽?” 一聲冷哼從身側(cè)響起驾凶,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎掷酗,沒想到半個月后调违,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡汇在,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年翰萨,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片糕殉。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡亩鬼,死狀恐怖殖告,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情雳锋,我是刑警寧澤黄绩,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站玷过,受9級特大地震影響爽丹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜辛蚊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一粤蝎、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧袋马,春花似錦初澎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至桑谍,卻和暖如春延柠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背锣披。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工贞间, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人雹仿。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓榜跌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親盅粪。 傳聞我的和親對象是個殘疾皇子钓葫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容