Scrapy(python爬蟲(chóng)框架)入門筆記

本文章僅作為個(gè)人筆記

Scrpy官網(wǎng)

Scrpy官方文檔

Scrpy中文文檔

個(gè)人ScrapyDemo項(xiàng)目地址

python環(huán)境安裝

win下安裝：
- python：下載python安裝包直接安裝即可
- pip： easy_install pip
mac下安裝：
- python：mac下自帶python2.7
- pip： easy_install pip
centos7下安裝：
- python：centos7下自帶python2.7
- pip： easy_install pip

scrapy 安裝

pip install Scrapy

創(chuàng)建項(xiàng)目

scrapy startproject <project_name>

創(chuàng)建爬蟲(chóng)

scrapy genspider <spider_name> <host_name>

在文件夾根目錄創(chuàng)建 requirements.txt文件并加入需要的組件浮定，例如：

Scrapy==1.5.0
beautifulsoup4==4.6.0
requests==2.18.4

項(xiàng)目環(huán)境搭建

pip install -r requirements.txt

運(yùn)行單個(gè)爬蟲(chóng)

scrapy crawl <spider_name>

運(yùn)行多個(gè)爬蟲(chóng)（Scrapy本身并不支持命令行直接運(yùn)行多個(gè)Spiders降盹，創(chuàng)建一個(gè)新的python文件加入如下內(nèi)容運(yùn)行此python文件便可）（需按需更改）

# -*- coding: utf-8 -*-
import sys
    from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from ScrapyDemo.spiders.news_estadao import EstadaoSpider
from ScrapyDemo.spiders.news_gazetaesportiva import DemoSpider
from ScrapyDemo.spiders.news_megacurioso import MegacuriosoSpider

if sys.getdefaultencoding != 'utf-8':
    reload(sys)
    sys.setdefaultencoding('utf-8')

process = CrawlerProcess(get_project_settings())
process.crawl(EstadaoSpider)
process.crawl(DemoSpider)
process.crawl(MegacuriosoSpider)
process.start()

啟用pipelines用于處理結(jié)果

打開(kāi)settings.py文件在ITEM_PIPELINES選項(xiàng)下加入peline并賦值彤敛，0-1000，數(shù)字越小越優(yōu)先

輸出單個(gè)spider運(yùn)行結(jié)果到文件

scrapy crawl demo -o /path/to/demo.json

多個(gè)spider的結(jié)果混合處理：

上面的運(yùn)行多個(gè)爬蟲(chóng)腳本并不能將多個(gè)spider的結(jié)果混合處理

因?yàn)闃I(yè)務(wù)需要，只可退而求其次

思路：借助commands庫(kù)運(yùn)行l(wèi)inux命令順序運(yùn)行并輸出結(jié)果到文件毙替，最后讀取文件內(nèi)容解析為對(duì)象進(jìn)行混合處理

代碼（需按需更改）：

#!/usr/bin/env python
# encoding: utf-8
import commands

def test():
  result = []
  try:
      commands.getoutput("echo '' > /path/to/megacurioso.json") #清空上次運(yùn)行結(jié)果
      commands.getoutput("scrapy crawl demo -o /path/to/demo.json") # 運(yùn)行結(jié)果并輸出
      result = json.loads(commands.getoutput("cat /path/to/megacurioso.json")) # 獲取運(yùn)行結(jié)果
  except:
      print "Get megacurioso error."
  return result

解決結(jié)果爬蟲(chóng)信息亂碼問(wèn)題：

在有亂碼問(wèn)題python文件頂部加入如下代碼：

if sys.getdefaultencoding != 'utf-8':
  reload(sys)
  sys.setdefaultencoding('utf-8')

爬蟲(chóng)示例叉谜，也可以使用文頂給出的github鏈接：

item示例(items.py)：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ScrapydemoItem(scrapy.Item):
    title = scrapy.Field()
    imageUrl = scrapy.Field()
    des = scrapy.Field()
    source = scrapy.Field()
    actionUrl = scrapy.Field()
    contentType = scrapy.Field()
    itemType = scrapy.Field()
    createTime = scrapy.Field()
    country = scrapy.Field()
    headUrl = scrapy.Field()
    pass

pipelines示例（pipelines.py）：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
from ScrapyDemo.items import ScrapydemoItem
import json


class ScrapydemoPipeline(object):
    DATA_LIST_NEWS = []

    def open_spider(self, spider):
        DATA_LIST_NEWS = []
        print 'Spider start.'

    def process_item(self, item, spider):
        if isinstance(item, ScrapydemoItem):
            self.DATA_LIST_NEWS.append(dict(item))
        return item

    def close_spider(self, spider):
        print json.dumps(self.DATA_LIST_NEWS)
        print 'Spider end.'

spider示例(demo.py)：

    # -*- coding: utf-8 -*-
    import scrapy
    from ScrapyDemo.items import ScrapydemoItem


    class DemoSpider(scrapy.Spider):
        name = 'news_gazetaesportiva'
        allowed_domains = ['www.gazetaesportiva.com']
        start_urls = ['https://www.gazetaesportiva.com/noticias/']
        headers = {
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'accept-language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
            'cache-control': 'max-age=0',
            'upgrade-insecure-requests': '1',
            'User-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
        }

        def parse(self, response):
            print('Start parse.')
            for element in response.xpath('//article'):
                title = element.xpath(".//h3[@class='entry-title no-margin']/a/text()").extract_first()
                imageUrl = [element.xpath(".//img[@class='medias-object wp-post-image']/@src").extract_first()]
                des = element.xpath(".//div[@class='entry-content space']/text()").extract_first()
                source = 'gazeta'
                actionUrl = element.xpath(".//a[@class='blog-image']/@href").extract_first()
                contentType = ''
                itemType = ''
                createTime = element.xpath(".//small[@class='updated']/text()").extract_first()
                country = 'PZ'
                headUrl = ''
                if title is not None and title != "" and actionUrl is not None and actionUrl != "" and imageUrl is not None and imageUrl != "":
                    item = ScrapydemoItem()
                    item['title'] = title
                    item['imageUrl'] = imageUrl
                    item['des'] = des
                    item['source'] = source
                    item['actionUrl'] = actionUrl
                    item['contentType'] = contentType
                    item['itemType'] = itemType
                    item['createTime'] = createTime
                    item['country'] = country
                    item['headUrl'] = headUrl
                    yield item
            print('End parse.')

代碼個(gè)人理解：
- settings可配置公共配置及配置pipelines對(duì)spiders結(jié)果進(jìn)行匯總，例如(后面的數(shù)值越大優(yōu)先級(jí)越低痊臭，取值0-1000)：
```
ITEM_PIPELINES = {
    'DemoScrapy.pipelines.ScrapydemoPipeline': 300,
}
```
- 配置pipelines后命令行運(yùn)行spiders是會(huì)先運(yùn)行open_spider方法哮肚，然后每個(gè)結(jié)果解析時(shí)運(yùn)行process_item方法，最后spider結(jié)束時(shí)運(yùn)行close_spider方法
- items文件是用來(lái)配置描述結(jié)果對(duì)象的
- spiders文件夾里根據(jù)命令行創(chuàng)建的spiders文件配置需要抓取的數(shù)據(jù)的網(wǎng)頁(yè)及需要偽裝的請(qǐng)求頭參數(shù)等广匙，抓取數(shù)據(jù)后數(shù)據(jù)結(jié)果進(jìn)入 parse方法進(jìn)行解析允趟，可使用xpath進(jìn)行解析。xpath的具體使用可參考前文給出的鏈接鸦致，個(gè)人進(jìn)行數(shù)據(jù)抓取前使用chrom定位標(biāo)簽潮剪，復(fù)制源碼后根據(jù)規(guī)則找到標(biāo)簽位置最后進(jìn)行規(guī)則匹配，因?yàn)槊看螖?shù)據(jù)規(guī)則匹配不可能一次性完成分唾，建議使用debug功能來(lái)進(jìn)行匹配抗碰，最后一次性完成規(guī)則書(shū)寫。
pycharm下debug spiders：
- 打開(kāi)pycharm后如果遇到部分插件無(wú)法安裝的情況可使用虛擬環(huán)境：
  
  image.png
  
  image.png
  
  image.png
- debug運(yùn)行scrapy：
  
  image.png
  
  image.png
  
  image.png
  
  image.png
  
  image.png
  
  image.png
  - 運(yùn)行到斷點(diǎn)后右擊選擇 Evaluate Expresion
    
    如此便可隨意運(yùn)行代碼查看執(zhí)行結(jié)果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末绽乔，一起剝皮案震驚了整個(gè)濱河市改含，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖捍壤，帶你破解...
沈念sama閱讀 221,406評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件骤视，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡鹃觉，警方通過(guò)查閱死者的電腦和手機(jī)专酗，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,395評(píng)論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)盗扇，“玉大人祷肯，你說(shuō)我怎么就攤上這事×屏ィ” “怎么了佑笋？”我有些...
開(kāi)封第一講書(shū)人閱讀 167,815評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)斑鼻。經(jīng)常有香客問(wèn)我蒋纬，道長(zhǎng)，這世上最難降的妖魔是什么坚弱？我笑而不...
開(kāi)封第一講書(shū)人閱讀 59,537評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任蜀备，我火速辦了婚禮，結(jié)果婚禮上荒叶，老公的妹妹穿的比我還像新娘碾阁。我一直安慰自己，他們只是感情好些楣，可當(dāng)我...
茶點(diǎn)故事閱讀 68,536評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布脂凶。她就那樣靜靜地躺著，像睡著了一般愁茁。火紅的嫁衣襯著肌膚如雪蚕钦。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 52,184評(píng)論 1贊 308
城市分裂傳說(shuō)
那天埋市，我揣著相機(jī)與錄音冠桃，去河邊找鬼命贴。笑死道宅，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的胸蛛。我是一名探鬼主播污茵，決...
沈念sama閱讀 40,776評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼葬项！你這毒婦竟也來(lái)了泞当？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,668評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤民珍，失蹤者是張志新（化名）和其女友劉穎襟士，沒(méi)想到半個(gè)月后盗飒，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,212評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡陋桂，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,299評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年逆趣，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嗜历。...
茶點(diǎn)故事閱讀 40,438評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡宣渗，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出梨州，到底是詐尸還是另有隱情痕囱，我是刑警寧澤，帶...
沈念sama閱讀 36,128評(píng)論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布暴匠，位于F島的核電站鞍恢，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏巷查。R本人自食惡果不足惜有序，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,807評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望岛请。院中可真熱鬧旭寿，春花似錦、人聲如沸崇败。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,279評(píng)論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)后室。三九已至缩膝，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間岸霹，已是汗流浹背疾层。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,395評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贡避，地道東北人痛黎。一個(gè)月前我還...
沈念sama閱讀 48,827評(píng)論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像刮吧，于是被迫代替她去往敵國(guó)和親湖饱。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,446評(píng)論 2贊 359

Scrapy(python爬蟲(chóng)框架)入門筆記

本文章僅作為個(gè)人筆記

Scrpy官網(wǎng)

Scrpy官方文檔

Scrpy中文文檔

個(gè)人ScrapyDemo項(xiàng)目地址

python環(huán)境安裝

scrapy 安裝

創(chuàng)建項(xiàng)目

創(chuàng)建爬蟲(chóng)

在文件夾根目錄創(chuàng)建 requirements.txt文件并加入需要的組件浮定，例如：

項(xiàng)目環(huán)境搭建

運(yùn)行單個(gè)爬蟲(chóng)

運(yùn)行多個(gè)爬蟲(chóng)（Scrapy本身并不支持命令行直接運(yùn)行多個(gè)Spiders降盹，創(chuàng)建一個(gè)新的python文件加入如下內(nèi)容運(yùn)行此python文件便可）（需按需更改）

啟用pipelines用于處理結(jié)果

輸出單個(gè)spider運(yùn)行結(jié)果到文件

多個(gè)spider的結(jié)果混合處理：

解決結(jié)果爬蟲(chóng)信息亂碼問(wèn)題：

爬蟲(chóng)示例叉谜，也可以使用文頂給出的github鏈接：

推薦閱讀更多精彩內(nèi)容