[爬蟲]Scrapy爬取百度圖片并保存到本地

安裝scrapy

pip install Scrapy

進(jìn)入終端戳玫,切換到自己項(xiàng)目代碼的工作空間下,執(zhí)行

scrapy startproject baidu_pic_spider

image.png
生成如下工程文件:

images是自己創(chuàng)建的用于存放爬到的圖片目錄肃拜。

image.png

在spiders目錄下創(chuàng)建baidu_pic_spider爬蟲文件,search_word可改成自己需要的搜索詞。

baidu_pic_spider.py
# -*- coding: utf-8 -*-

import scrapy, json
from scrapy.http import Request
from PicSpider.items import PicItem  # 導(dǎo)入item


class PicSpider(scrapy.Spider):
    name = "pic_spider"
    allowed_domains = ["http://image.baidu.com/"]
    start_urls = ["http://image.baidu.com"]

    def parse(self, response):  # 定義解析函數(shù)
        search_word = '哈士奇'  # 查找詞包吝,可修改
        baidu_pic_url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={0}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=60&rn=30&gsm=3c&1507915209449=".format(
            search_word)  # 百度圖片url

        # 將帶關(guān)鍵詞參數(shù)的url交給request函數(shù)解析锥余,返回的response通過(guò)get_pic回調(diào)函數(shù)進(jìn)一步分析
        yield Request(baidu_pic_url, meta={"search_word": search_word}, callback=self.get_pic, dont_filter=True)

    def get_pic(self, response):  # 從圖片list中獲取每個(gè)pic的信息

        item = PicItem()  # 實(shí)例化item
        response_json = response.text  # 存儲(chǔ)返回的json數(shù)據(jù)
        response_dict = json.loads(response_json)  # 轉(zhuǎn)化為字典
        response_dict_data = response_dict['data']  # 圖片的有效數(shù)據(jù)在data參數(shù)中

        for pic in response_dict_data:  # pic為每個(gè)圖片的信息數(shù)據(jù)腹纳,dict類型
            if pic:
                item['search_word'] = response.meta['search_word']  # 搜索關(guān)鍵詞賦值
                item['pic_url'] = [pic['middleURL']]  # 百度圖片搜索結(jié)果url (setting中pic_url應(yīng)該為數(shù)組形式)
                item['pic_name'] = pic['fromPageTitleEnc']  # 百度圖片搜索結(jié)果對(duì)應(yīng)的title
                yield item

新建main.py文件,方便在pycharm中運(yùn)行和調(diào)試爬蟲驱犹。

main.py
# _*_ coding: utf-8 _*_

from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__))) #設(shè)置工程目錄
print(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","pic_spider"]).strip()

定義item字段

item.py
# -*- coding: utf-8 -*-

import scrapy

class PicItem(scrapy.Item) :
    search_word = scrapy.Field() #搜索關(guān)鍵字
    pic_name = scrapy.Field() #圖片標(biāo)題
    pic_url = scrapy.Field() #圖片url
    pass

定義pipeline

pipeline.py
# -*- coding: utf-8 -*-


class PicspiderPipeline(object):
    def process_item(self, item, spider):
        return item


在setting中對(duì)應(yīng)部分修改ITEM_PIPELINES嘲恍,并增加圖片處理代碼

settings.py
ITEM_PIPELINES = {

    'PicSpider.pipelines.PicspiderPipeline': 300,
    'scrapy.pipelines.images.ImagesPipeline' : 1,
}
#配置pipeline,設(shè)定需要進(jìn)行處理的圖片路徑
IMAGES_URLS_FIELD = "pic_url"
# 設(shè)置圖片下載后的存儲(chǔ)路徑雄驹,放到工程目錄下images文件夾
# 獲取當(dāng)前目錄絕對(duì)路徑
project_dir = os.path.abspath(os.path.dirname(__file__))
# 獲取images存儲(chǔ)路徑
IMAGES_STORE = os.path.join(project_dir,'images')

# 設(shè)定處理圖片的最小高度佃牛,寬度
IMAGES_MIN_HEIGHT = 100
IMAGES_MIN_WIDTH = 100

運(yùn)行

run main.py

image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市医舆,隨后出現(xiàn)的幾起案子俘侠,更是在濱河造成了極大的恐慌,老刑警劉巖蔬将,帶你破解...
    沈念sama閱讀 218,640評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件爷速,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡霞怀,警方通過(guò)查閱死者的電腦和手機(jī)惫东,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)毙石,“玉大人廉沮,你說(shuō)我怎么就攤上這事⌒炀兀” “怎么了滞时?”我有些...
    開(kāi)封第一講書人閱讀 165,011評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)滤灯。 經(jīng)常有香客問(wèn)我坪稽,道長(zhǎng),這世上最難降的妖魔是什么力喷? 我笑而不...
    開(kāi)封第一講書人閱讀 58,755評(píng)論 1 294
  • 正文 為了忘掉前任刽漂,我火速辦了婚禮,結(jié)果婚禮上弟孟,老公的妹妹穿的比我還像新娘贝咙。我一直安慰自己,他們只是感情好拂募,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,774評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布庭猩。 她就那樣靜靜地躺著窟她,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蔼水。 梳的紋絲不亂的頭發(fā)上震糖,一...
    開(kāi)封第一講書人閱讀 51,610評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音趴腋,去河邊找鬼吊说。 笑死,一個(gè)胖子當(dāng)著我的面吹牛优炬,可吹牛的內(nèi)容都是我干的颁井。 我是一名探鬼主播,決...
    沈念sama閱讀 40,352評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼蠢护,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼雅宾!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起葵硕,我...
    開(kāi)封第一講書人閱讀 39,257評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤眉抬,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后懈凹,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蜀变,經(jīng)...
    沈念sama閱讀 45,717評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,894評(píng)論 3 336
  • 正文 我和宋清朗相戀三年蘸劈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了昏苏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,021評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡威沫,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出洼专,到底是詐尸還是另有隱情棒掠,我是刑警寧澤,帶...
    沈念sama閱讀 35,735評(píng)論 5 346
  • 正文 年R本政府宣布屁商,位于F島的核電站烟很,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏蜡镶。R本人自食惡果不足惜雾袱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,354評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望官还。 院中可真熱鬧芹橡,春花似錦、人聲如沸望伦。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,936評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至腿箩,卻和暖如春豪直,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背珠移。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,054評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工弓乙, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人钧惧。 一個(gè)月前我還...
    沈念sama閱讀 48,224評(píng)論 3 371
  • 正文 我出身青樓唆貌,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親垢乙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锨咙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,974評(píng)論 2 355