[爬蟲]Scrapy爬取百度圖片并保存到本地

安裝scrapy

pip install Scrapy

進(jìn)入終端戳玫，切換到自己項(xiàng)目代碼的工作空間下，執(zhí)行

scrapy startproject baidu_pic_spider

image.png

生成如下工程文件：

images是自己創(chuàng)建的用于存放爬到的圖片目錄肃拜。

image.png

在spiders目錄下創(chuàng)建baidu_pic_spider爬蟲文件，search_word可改成自己需要的搜索詞。

baidu_pic_spider.py

# -*- coding: utf-8 -*-

import scrapy, json
from scrapy.http import Request
from PicSpider.items import PicItem  # 導(dǎo)入item


class PicSpider(scrapy.Spider):
    name = "pic_spider"
    allowed_domains = ["http://image.baidu.com/"]
    start_urls = ["http://image.baidu.com"]

    def parse(self, response):  # 定義解析函數(shù)
        search_word = '哈士奇'  # 查找詞包吝，可修改
        baidu_pic_url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={0}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=60&rn=30&gsm=3c&1507915209449=".format(
            search_word)  # 百度圖片url

        # 將帶關(guān)鍵詞參數(shù)的url交給request函數(shù)解析锥余，返回的response通過(guò)get_pic回調(diào)函數(shù)進(jìn)一步分析
        yield Request(baidu_pic_url, meta={"search_word": search_word}, callback=self.get_pic, dont_filter=True)

    def get_pic(self, response):  # 從圖片list中獲取每個(gè)pic的信息

        item = PicItem()  # 實(shí)例化item
        response_json = response.text  # 存儲(chǔ)返回的json數(shù)據(jù)
        response_dict = json.loads(response_json)  # 轉(zhuǎn)化為字典
        response_dict_data = response_dict['data']  # 圖片的有效數(shù)據(jù)在data參數(shù)中

        for pic in response_dict_data:  # pic為每個(gè)圖片的信息數(shù)據(jù)腹纳，dict類型
            if pic:
                item['search_word'] = response.meta['search_word']  # 搜索關(guān)鍵詞賦值
                item['pic_url'] = [pic['middleURL']]  # 百度圖片搜索結(jié)果url (setting中pic_url應(yīng)該為數(shù)組形式)
                item['pic_name'] = pic['fromPageTitleEnc']  # 百度圖片搜索結(jié)果對(duì)應(yīng)的title
                yield item

新建main.py文件，方便在pycharm中運(yùn)行和調(diào)試爬蟲驱犹。

main.py

# _*_ coding: utf-8 _*_

from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__))) #設(shè)置工程目錄
print(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","pic_spider"]).strip()

定義item字段

item.py

# -*- coding: utf-8 -*-

import scrapy

class PicItem(scrapy.Item) :
    search_word = scrapy.Field() #搜索關(guān)鍵字
    pic_name = scrapy.Field() #圖片標(biāo)題
    pic_url = scrapy.Field() #圖片url
    pass

定義pipeline

pipeline.py

# -*- coding: utf-8 -*-


class PicspiderPipeline(object):
    def process_item(self, item, spider):
        return item

在setting中對(duì)應(yīng)部分修改ITEM_PIPELINES嘲恍，并增加圖片處理代碼

settings.py

ITEM_PIPELINES = {

    'PicSpider.pipelines.PicspiderPipeline': 300,
    'scrapy.pipelines.images.ImagesPipeline' : 1,
}
#配置pipeline，設(shè)定需要進(jìn)行處理的圖片路徑
IMAGES_URLS_FIELD = "pic_url"
# 設(shè)置圖片下載后的存儲(chǔ)路徑雄驹，放到工程目錄下images文件夾
# 獲取當(dāng)前目錄絕對(duì)路徑
project_dir = os.path.abspath(os.path.dirname(__file__))
# 獲取images存儲(chǔ)路徑
IMAGES_STORE = os.path.join(project_dir,'images')

# 設(shè)定處理圖片的最小高度佃牛，寬度
IMAGES_MIN_HEIGHT = 100
IMAGES_MIN_WIDTH = 100

運(yùn)行

run main.py

image.png

最后編輯于：2018.11.25 21:01:51

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市医舆，隨后出現(xiàn)的幾起案子俘侠，更是在濱河造成了極大的恐慌，老刑警劉巖蔬将，帶你破解...
沈念sama閱讀 218,640評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件爷速，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡霞怀，警方通過(guò)查閱死者的電腦和手機(jī)惫东，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,254評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)毙石，“玉大人廉沮，你說(shuō)我怎么就攤上這事⌒炀兀” “怎么了滞时？”我有些...
開(kāi)封第一講書人閱讀 165,011評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)滤灯。經(jīng)常有香客問(wèn)我坪稽，道長(zhǎng)，這世上最難降的妖魔是什么力喷？我笑而不...
開(kāi)封第一講書人閱讀 58,755評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任刽漂，我火速辦了婚禮，結(jié)果婚禮上弟孟，老公的妹妹穿的比我還像新娘贝咙。我一直安慰自己，他們只是感情好拂募，可當(dāng)我...
茶點(diǎn)故事閱讀 67,774評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布庭猩。她就那樣靜靜地躺著窟她，像睡著了一般。火紅的嫁衣襯著肌膚如雪蔼水。梳的紋絲不亂的頭發(fā)上震糖，一...
開(kāi)封第一講書人閱讀 51,610評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音趴腋，去河邊找鬼吊说。笑死，一個(gè)胖子當(dāng)著我的面吹牛优炬，可吹牛的內(nèi)容都是我干的颁井。我是一名探鬼主播，決...
沈念sama閱讀 40,352評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼蠢护，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼雅宾！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起葵硕，我...
開(kāi)封第一講書人閱讀 39,257評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤眉抬，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后懈凹，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蜀变，經(jīng)...
沈念sama閱讀 45,717評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,894評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年蘸劈，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了昏苏。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,021評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡威沫，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出洼专，到底是詐尸還是另有隱情棒掠，我是刑警寧澤，帶...
沈念sama閱讀 35,735評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布屁商，位于F島的核電站烟很，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏蜡镶。R本人自食惡果不足惜雾袱，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,354評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望官还。院中可真熱鬧芹橡，春花似錦、人聲如沸望伦。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,936評(píng)論 0贊 22
一樁弒父案煎殷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至腿箩，卻和暖如春豪直，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背珠移。一陣腳步聲響...
開(kāi)封第一講書人閱讀 33,054評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工弓乙，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人钧惧。一個(gè)月前我還...
沈念sama閱讀 48,224評(píng)論 3贊 371
代替公主和親
正文我出身青樓唆貌，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親垢乙。傳聞我的和親對(duì)象是個(gè)殘疾皇子锨咙，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,974評(píng)論 2贊 355