Scrapy爬蟲實(shí)戰(zhàn)項(xiàng)目【002】 - 抓取360攝影美圖

爬取360攝影美圖

參考來源：《Python3網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)》第497頁作者：崔慶才

目的：使用Scrapy爬取360攝影美圖全闷，保存至MONGODB數(shù)據(jù)庫并將圖片下載至本地

目標(biāo)網(wǎng)址：http://image.so.com/z?ch=photography

分析/知識點(diǎn)：

爬取難度：
a. 入門級叉寂，靜態(tài)網(wǎng)頁中不含圖片信息，通過AJAX動態(tài)獲取圖片并渲染总珠，返回結(jié)果為JSON格式屏鳍；
圖片下載處理：使用內(nèi)置的ImagesPipeline，進(jìn)行少量方法改寫局服；
MONGODB存儲钓瞭；

實(shí)際步驟：

創(chuàng)建Scrapy項(xiàng)目/images(spider)

Terminal: > scrapy startproject images360
Terminal: > scrapy genspider images image.so.com

配置settings.py文件

# MONGODB配置
MONGO_URI = 'localhost'
MONGO_DB = 'images360'

# 下載圖片默認(rèn)保存目錄(ImagePipelin要用到)
IMAGES_STORE = './images'

# 嘿嘿嘿...
ROBOTSTXT_OBEY = False

# headers
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}

# 啟用Pipeline(ImagePipeline優(yōu)先級要最高)
ITEM_PIPELINES = {
    'images360.pipelines.ImagePipeline': 300,
    'images360.pipelines.MongoPipeline': 301,
}

編寫items.py文件

from scrapy import Item, Field

# 圖片信息全部獲取
class MovieItem(Item):
    cover_height = Field()
    cover_imgurl = Field()
    cover_width = Field()
    dsptime = Field()
    group_title = Field()
    grpseq = Field()
    id = Field()
    imageid = Field()
    index = Field()
    label = Field()
    qhimg_height = Field()
    qhimg_thumb_url = Field()
    qhimg_url = Field()
    qhimg_width = Field()
    tag = Field()
    total_count = Field()

編寫pipelines.py文件
a) ImagePipeline: 根據(jù)Scrapy官方文檔修改：
Downloading and processing files and images：

# 圖片下載Pipeline
class ImagePipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None):
        '''
        重寫file_path方法，獲取圖片名
        '''
        url = request.url
        file_name = url.split('/')[-1]
        return file_name

    def item_completed(self, results, item, info):
        '''
        將下載失敗的圖片剔除淫奔，不保存至數(shù)據(jù)庫
        '''
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem('Image Downloaded Failed')
        return item


    def get_media_requests(self, item, info):
        '''
        重新請求圖片url山涡，調(diào)度器重新安排下載
        '''
        yield Request(url=item['qhimg_url'])

b) MongoPipeline: 根據(jù)Scrapy官方文檔修改：https://doc.scrapy.org/en/latest/topics/item-pipeline.html?highlight=mongo 代碼略

5. 編寫spiders > images.py文件
注意：
a) 重寫start_requests(self)；
b) 動態(tài)獲取請求url唆迁；動態(tài)Field賦值并生成對應(yīng)的ImageItem

# 每張圖片動態(tài)賦值并生產(chǎn)ImageItem
for image in images:
    item = ImageItem()
    for field in item.fields:
        if field in image.keys():
            item[field] = image.get(field)
    yield item

c) 完整代碼如下：

import json
from scrapy import Spider, Request
from images360.items import ImageItem

class ImagesSpider(Spider):
    name = 'images'
    # allowed_domains = ['image.so.com']
    # start_urls = ['http://image.so.com/z?ch=photography']

    url = 'http://image.so.com/zj?ch=photography&sn={sn}&listtype=new&temp=1'

    # 重寫
    def start_requests(self):
        # 循環(huán)生產(chǎn)請求前1200張照片（sn = [1-41]）
        for sn in range(1, 41):
            yield Request(url=self.url.format(sn=sn * 30), callback=self.parse)

    def parse(self, response):
        results = json.loads(response.text)
        # 判斷l(xiāng)ist是否在results的keys中
        if 'list' in results.keys():
            images = results.get('list')

        # 每張圖片動態(tài)賦值并生產(chǎn)ImageItem
        for image in images:
            item = ImageItem()
            for field in item.fields:
                if field in image.keys():
                    item[field] = image.get(field)
            yield item

6. 運(yùn)行結(jié)果

temp-1.png

temp-2.png

小結(jié)

入門級項(xiàng)目鸭丛，進(jìn)一步熟悉Scrapy的使用流程媒惕；
熟悉網(wǎng)頁AJAX返回結(jié)果的獲取和解析系吩；
初步了解ImagesPipeline的使用方法，以及學(xué)會如何根據(jù)需要進(jìn)行改寫妒蔚。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末穿挨，一起剝皮案震驚了整個(gè)濱河市月弛，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌科盛，老刑警劉巖帽衙，帶你破解...
沈念sama閱讀 217,826評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異贞绵，居然都是意外死亡厉萝，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,968評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門榨崩，熙熙樓的掌柜王于貴愁眉苦臉地迎上來谴垫，“玉大人，你說我怎么就攤上這事母蛛◆婕簦” “怎么了？”我有些...
開封第一講書人閱讀 164,234評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵彩郊，是天一觀的道長前弯。經(jīng)常有香客問我，道長秫逝，這世上最難降的妖魔是什么恕出？我笑而不...
開封第一講書人閱讀 58,562評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮违帆，結(jié)果婚禮上浙巫，老公的妹妹穿的比我還像新娘。我一直安慰自己前方，他們只是感情好狈醉，可當(dāng)我...
茶點(diǎn)故事閱讀 67,611評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著惠险，像睡著了一般苗傅。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上班巩，一...
開封第一講書人閱讀 51,482評論 1贊 302
城市分裂傳說
那天渣慕，我揣著相機(jī)與錄音，去河邊找鬼抱慌。笑死逊桦，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的抑进。我是一名探鬼主播强经，決...
沈念sama閱讀 40,271評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼寺渗！你這毒婦竟也來了匿情？” 一聲冷哼從身側(cè)響起兰迫，我...
開封第一講書人閱讀 39,166評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎炬称，沒想到半個(gè)月后汁果，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,608評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡玲躯，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,814評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年据德，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片跷车。...
茶點(diǎn)故事閱讀 39,926評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡棘利，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出姓赤，到底是詐尸還是另有隱情赡译，我是刑警寧澤仲吏，帶...
沈念sama閱讀 35,644評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布不铆，位于F島的核電站，受9級特大地震影響裹唆，放射性物質(zhì)發(fā)生泄漏誓斥。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,249評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一许帐、第九天我趴在偏房一處隱蔽的房頂上張望劳坑。院中可真熱鬧，春花似錦成畦、人聲如沸距芬。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,866評論 0贊 22
一樁弒父案循帐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽框仔。三九已至，卻和暖如春拄养，著一層夾襖步出監(jiān)牢的瞬間离斩，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,991評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工瘪匿，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留跛梗，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,063評論 3贊 370
代替公主和親
正文我出身青樓棋弥，卻偏偏與公主長得像核偿，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子顽染，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,871評論 2贊 354