(2018-05-21.Python從Zero到One)5燥爷、(爬蟲)scrapy實戰(zhàn)項目__1.5.4(實戰(zhàn)項目四)圖片下載器爬蟲

items.py

class CoserItem(scrapy.Item):
    url = scrapy.Field()
    name = scrapy.Field()
    info = scrapy.Field()
    image_urls = scrapy.Field()
    images = scrapy.Field()

spiders/coser.py

# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader
from Cosplay.items import CoserItem


class CoserSpider(scrapy.Spider):
    name = "coser"
    allowed_domains = ["bcy.net"]
    start_urls = (
        'http://bcy.net/cn125101',
        'http://bcy.net/cn126487',
        'http://bcy.net/cn126173'
    )

    def parse(self, response):
        sel = Selector(response)

        for link in sel.xpath("http://ul[@class='js-articles l-works']/li[@class='l-work--big']/article[@class='work work--second-created']/h2[@class='work__title']/a/@href").extract():
            link = 'http://bcy.net%s' % link
            request = scrapy.Request(link, callback=self.parse_item)
            yield request

    def parse_item(self, response):
        l = ItemLoader(item=CoserItem(), response=response)
        l.add_xpath('name', "http://h1[@class='js-post-title']/text()")
        l.add_xpath('info', "http://div[@class='post__info']/div[@class='post__type post__info-group']/span/text()")
        urls = l.get_xpath('//img[@class="detail_std detail_clickable"]/@src')
        urls = [url.replace('/w650', '') for url in urls]
        l.add_value('image_urls', urls)
        l.add_value('url', response.url)

        return l.load_item()

pipelines.py

import requests
from Cosplay import settings
import os


class ImageDownloadPipeline(object):
    def process_item(self, item, spider):
        if 'image_urls' in item:
            images = []
            dir_path = '%s/%s' % (settings.IMAGES_STORE, spider.name)

            if not os.path.exists(dir_path):
                os.makedirs(dir_path)
            for image_url in item['image_urls']:
                us = image_url.split('/')[3:]
                image_file_name = '_'.join(us)
                file_path = '%s/%s' % (dir_path, image_file_name)
                images.append(file_path)
                if os.path.exists(file_path):
                    continue

                with open(file_path, 'wb') as handle:
                    response = requests.get(image_url, stream=True)
                    for block in response.iter_content(1024):
                        if not block:
                            break

                        handle.write(block)

            item['images'] = images
        return item

settings.py

ITEM_PIPELINES = {'Cosplay.pipelines.ImageDownloadPipeline': 1}

IMAGES_STORE = '../Images'

DOWNLOAD_DELAY = 0.25    # 250 ms of delay

在項目根目錄下新建main.py文件,用于調(diào)試

from scrapy import cmdline
cmdline.execute('scrapy crawl coser'.split())

執(zhí)行程序

py2 main.py
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末妈踊,一起剝皮案震驚了整個濱河市矾削,隨后出現(xiàn)的幾起案子碗殷,更是在濱河造成了極大的恐慌肩刃,老刑警劉巖祟霍,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異盈包,居然都是意外死亡沸呐,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進(jìn)店門呢燥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來崭添,“玉大人,你說我怎么就攤上這事叛氨『粼” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵力试,是天一觀的道長徙邻。 經(jīng)常有香客問我,道長畸裳,這世上最難降的妖魔是什么缰犁? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上帅容,老公的妹妹穿的比我還像新娘颇象。我一直安慰自己,他們只是感情好并徘,可當(dāng)我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布遣钳。 她就那樣靜靜地躺著,像睡著了一般麦乞。 火紅的嫁衣襯著肌膚如雪蕴茴。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天姐直,我揣著相機(jī)與錄音倦淀,去河邊找鬼。 笑死声畏,一個胖子當(dāng)著我的面吹牛撞叽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播插龄,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼愿棋,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了均牢?” 一聲冷哼從身側(cè)響起糠雨,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎膨处,沒想到半個月后见秤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡真椿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年鹃答,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片突硝。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡测摔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出解恰,到底是詐尸還是另有隱情锋八,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布护盈,位于F島的核電站挟纱,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏腐宋。R本人自食惡果不足惜紊服,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一檀轨、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧欺嗤,春花似錦参萄、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至吆玖,卻和暖如春筒溃,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背衰伯。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工铡羡, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留积蔚,地道東北人意鲸。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像尽爆,于是被迫代替她去往敵國和親怎顾。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容