Scrapy爬蟲實(shí)戰(zhàn)項(xiàng)目【002】 - 抓取360攝影美圖

爬取360攝影美圖

參考來源:《Python3網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)》 第497頁 作者:崔慶才

目的:使用Scrapy爬取360攝影美圖全闷,保存至MONGODB數(shù)據(jù)庫并將圖片下載至本地

目標(biāo)網(wǎng)址:http://image.so.com/z?ch=photography

分析/知識點(diǎn):

  1. 爬取難度:
    a. 入門級叉寂,靜態(tài)網(wǎng)頁中不含圖片信息,通過AJAX動態(tài)獲取圖片并渲染总珠,返回結(jié)果為JSON格式屏鳍;

  2. 圖片下載處理:使用內(nèi)置的ImagesPipeline,進(jìn)行少量方法改寫局服;

  3. MONGODB存儲钓瞭;

實(shí)際步驟:

  1. 創(chuàng)建Scrapy項(xiàng)目/images(spider)
Terminal: > scrapy startproject images360
Terminal: > scrapy genspider images image.so.com
  1. 配置settings.py文件
# MONGODB配置
MONGO_URI = 'localhost'
MONGO_DB = 'images360'

# 下載圖片默認(rèn)保存目錄(ImagePipelin要用到)
IMAGES_STORE = './images'

# 嘿嘿嘿...
ROBOTSTXT_OBEY = False

# headers
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}

# 啟用Pipeline(ImagePipeline優(yōu)先級要最高)
ITEM_PIPELINES = {
    'images360.pipelines.ImagePipeline': 300,
    'images360.pipelines.MongoPipeline': 301,
}
  1. 編寫items.py文件
from scrapy import Item, Field

# 圖片信息全部獲取
class MovieItem(Item):
    cover_height = Field()
    cover_imgurl = Field()
    cover_width = Field()
    dsptime = Field()
    group_title = Field()
    grpseq = Field()
    id = Field()
    imageid = Field()
    index = Field()
    label = Field()
    qhimg_height = Field()
    qhimg_thumb_url = Field()
    qhimg_url = Field()
    qhimg_width = Field()
    tag = Field()
    total_count = Field()
  1. 編寫pipelines.py文件
    a) ImagePipeline: 根據(jù)Scrapy官方文檔修改:
    Downloading and processing files and images
# 圖片下載Pipeline
class ImagePipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None):
        '''
        重寫file_path方法,獲取圖片名
        '''
        url = request.url
        file_name = url.split('/')[-1]
        return file_name

    def item_completed(self, results, item, info):
        '''
        將下載失敗的圖片剔除淫奔,不保存至數(shù)據(jù)庫
        '''
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem('Image Downloaded Failed')
        return item


    def get_media_requests(self, item, info):
        '''
        重新請求圖片url山涡,調(diào)度器重新安排下載
        '''
        yield Request(url=item['qhimg_url'])

b) MongoPipeline: 根據(jù)Scrapy官方文檔修改:https://doc.scrapy.org/en/latest/topics/item-pipeline.html?highlight=mongo 代碼略

5. 編寫spiders > images.py文件
注意:
a) 重寫start_requests(self);
b) 動態(tài)獲取請求url唆迁;動態(tài)Field賦值并生成對應(yīng)的ImageItem

# 每張圖片動態(tài)賦值并生產(chǎn)ImageItem
for image in images:
    item = ImageItem()
    for field in item.fields:
        if field in image.keys():
            item[field] = image.get(field)
    yield item

c) 完整代碼如下:

import json
from scrapy import Spider, Request
from images360.items import ImageItem

class ImagesSpider(Spider):
    name = 'images'
    # allowed_domains = ['image.so.com']
    # start_urls = ['http://image.so.com/z?ch=photography']

    url = 'http://image.so.com/zj?ch=photography&sn={sn}&listtype=new&temp=1'

    # 重寫
    def start_requests(self):
        # 循環(huán)生產(chǎn)請求前1200張照片(sn = [1-41])
        for sn in range(1, 41):
            yield Request(url=self.url.format(sn=sn * 30), callback=self.parse)

    def parse(self, response):
        results = json.loads(response.text)
        # 判斷l(xiāng)ist是否在results的keys中
        if 'list' in results.keys():
            images = results.get('list')

        # 每張圖片動態(tài)賦值并生產(chǎn)ImageItem
        for image in images:
            item = ImageItem()
            for field in item.fields:
                if field in image.keys():
                    item[field] = image.get(field)
            yield item

6. 運(yùn)行結(jié)果

temp-1.png

temp-2.png

小結(jié)

  1. 入門級項(xiàng)目鸭丛,進(jìn)一步熟悉Scrapy的使用流程媒惕;
  2. 熟悉網(wǎng)頁AJAX返回結(jié)果的獲取和解析系吩;
  3. 初步了解ImagesPipeline的使用方法,以及學(xué)會如何根據(jù)需要進(jìn)行改寫妒蔚。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末穿挨,一起剝皮案震驚了整個(gè)濱河市月弛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌科盛,老刑警劉巖帽衙,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異贞绵,居然都是意外死亡厉萝,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進(jìn)店門榨崩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來谴垫,“玉大人,你說我怎么就攤上這事母蛛◆婕簦” “怎么了?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵彩郊,是天一觀的道長前弯。 經(jīng)常有香客問我,道長秫逝,這世上最難降的妖魔是什么恕出? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮违帆,結(jié)果婚禮上浙巫,老公的妹妹穿的比我還像新娘。我一直安慰自己前方,他們只是感情好狈醉,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著惠险,像睡著了一般苗傅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上班巩,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天渣慕,我揣著相機(jī)與錄音,去河邊找鬼抱慌。 笑死逊桦,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的抑进。 我是一名探鬼主播强经,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼寺渗!你這毒婦竟也來了匿情?” 一聲冷哼從身側(cè)響起兰迫,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎炬称,沒想到半個(gè)月后汁果,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡玲躯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年据德,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片跷车。...
    茶點(diǎn)故事閱讀 39,926評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡棘利,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出姓赤,到底是詐尸還是另有隱情赡译,我是刑警寧澤仲吏,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布不铆,位于F島的核電站,受9級特大地震影響裹唆,放射性物質(zhì)發(fā)生泄漏誓斥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一许帐、第九天 我趴在偏房一處隱蔽的房頂上張望劳坑。 院中可真熱鬧,春花似錦成畦、人聲如沸距芬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽框仔。三九已至,卻和暖如春拄养,著一層夾襖步出監(jiān)牢的瞬間离斩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工瘪匿, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留跛梗,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓棋弥,卻偏偏與公主長得像核偿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子顽染,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內(nèi)容