練習(xí)(四)
目標(biāo)抓取
- 抓取用戶頭像圖片
圖像處理支持
官方推薦使用Pillow替代PIL
#安裝pillow
pip install Pillow
新建一個(gè)spider用于爬取用戶頭像
scrapy genspider head segmentfault.com
修改保存圖像配置
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline': 300 #圖片處理Pipeline
}
#圖片保存位置
IMAGES_STORE = 'E:\\coding\\segmentfault\\head image'
#下面是可選設(shè)置
# 30天圖像過(guò)期時(shí)間
IMAGES_EXPIRES = 30
#縮率圖設(shè)置
IMAGES_THUMBS = {
'small': (50, 50),
'big': (270, 270),
}
#過(guò)濾圖片最小寬(高)度
IMAGES_MIN_HEIGHT = 110
IMAGES_MIN_WIDTH = 110
修改parse方法
def parse(self, response):
images = response.css('img.program-avatar64') #提取所有圖片元素
for img in images:
#image_urls屬性為默認(rèn)屬性用于收集圖片地址集合,可以是item的字段也可以是dict的關(guān)鍵字
yield {"image_urls" : img.css("::attr(src)").extract()}
執(zhí)行后我們可以在我們配置的圖像保存目錄(E:\coding\segmentfault\head image)中看到爬取的圖片