Python pyspider 安裝與開發(fā)

PySpider 簡介

PySpider是一個國人編寫的強大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強大的WebUI进栽。采用Python語言編寫，分布式架構(gòu)恭垦，支持多種數(shù)據(jù)庫后端快毛，強大的WebUI支持腳本編輯器、任務(wù)監(jiān)視器番挺，項目管理器以及結(jié)果查看器唠帝。
PySpider 來源于以前做的一個垂直搜索引擎使用的爬蟲后端。我們需要從200個站點（由于站點失效玄柏，不是都同時啦襟衰，同時有100+在跑吧）采集數(shù)據(jù)，并要求在5分鐘內(nèi)將對方網(wǎng)站的更新更新到庫中粪摘。所以瀑晒，靈活的抓取控制是必須的绍坝。
同時，由于100個站點苔悦，每天都可能會有站點失效或者改版轩褐，所以需要能夠監(jiān)控模板失效，以及查看抓取狀態(tài)玖详。
為了達到5分鐘更新把介，我們使用抓取最近更新頁上面的最后更新時間，以此來判斷頁面是否需要再次抓取蟋座。
可見拗踢，這個項目對于爬蟲的監(jiān)控和調(diào)度要求是非常高的。

PySpider 中文網(wǎng)：http://www.pyspider.cn
PySpider 官網(wǎng)：http://docs.pyspider.org
PySpider 演示：http://demo.pyspider.org
PySpider 源碼：https://github.com/binux/pyspider

PySpider 特性

python 腳本控制蜈七，可以用任何你喜歡的html解析包（內(nèi)置 pyquery）
WEB 界面編寫調(diào)試腳本秒拔、起停腳本、監(jiān)控執(zhí)行狀態(tài)飒硅，查看活動歷史砂缩，獲取結(jié)果產(chǎn)出
數(shù)據(jù)存儲支持MySQL、MongoDB三娩、Redis庵芭、SQLite、 ElasticSearch; PostgreSQL 及 SQLAlchemy
隊列服務(wù)支持RabbitMQ雀监、Beanstalk双吆、Redis、Kombu
支持抓取 JavaScript 的頁面
組件可替換会前，支持單機/分布式部署好乐，支持 Docker 部署
強大的調(diào)度控制，支持超時重爬及優(yōu)先級設(shè)置
支持Python 2.{6, 7}, 3.{3, 4, 5, 6}

PySpider 安裝

1） pip 安裝
pip可以在以下版本的CPython下運行：2.6, 2.7, 3.1, 3.2, 3.3, 3.4 和 pypy.
pip可以在Unix/Linux瓦宜、Mac OS X蔚万、Windows系統(tǒng)中運行.
a）腳本安裝
python get-pip.py
如果 setuptools (或 distribute) 未安裝， get-pip.py
會自動為你安裝 setuptools
如果需要升級 setuptools (或 distribute)临庇，運行 pip install -U setuptools

b）命令安裝
sudo apt-get install python-pip // Debian反璃、Ubuntu
sudo yum install python-pip // CentOS、Redhat假夺、Fedora

2）PhantomJS 安裝
PhantomJS 是一個基于 WebKit 的服務(wù)器端 JavaScript API淮蜈。它全面支持web而不需瀏覽器支持，其快速已卷、原生支持各種Web標準：DOM 處理梧田、CSS 選擇器、JSON、Canvas 和 SVG柿扣。 PhantomJS 可以用于頁面自動化肖方、網(wǎng)絡(luò)監(jiān)測、網(wǎng)頁截屏以及無界面測試等未状。支持Windows俯画、Linux、Mac OS X等多操作系統(tǒng)司草。
PhantomJS 下載：http://phantomjs.org/download.html
PhantomJS不需要安裝艰垂，解壓后，配置環(huán)境變量后埋虹，便可直接使用猜憎，詳見 PhantomJS 安裝與開發(fā)
PhantomJS 安裝命令：
sudo apt-get install phantomjs // Debian、Ubuntu
sudo pkg install phantomjs // FreeBSD
brew install phantomjs // Mac OS X

3）PySpider 安裝
PySpider 安裝的依賴包 requirements.txt

Flask>=0.10
Jinja2>=2.7
chardet>=2.2
cssselect>=0.9
lxml
pycurl
pyquery
requests>=2.2
tornado>=3.2
mysql-connector-python>=1.2.2
pika>=0.9.14
pymongo>=2.7.2
unittest2>=0.5.1
Flask-Login>=0.2.11
u-msgpack-python>=1.6
click>=3.3
SQLAlchemy>=0.9.7
six>=1.5.0
amqp>=1.3.0,<2.0
redis
redis-py-cluster
kombu
psycopg2
elasticsearch
tblib

PySpider 安裝命令：
pip install pyspider
Ubuntu 用戶搔课，請?zhí)崆鞍惭b好以下支持類庫：
sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml

4）驗證安裝成功
控制臺輸入命令：
pyspider all
使用瀏覽器訪問 http://localhost:5000

python-pyspider-an-zhuang-yu-kai-fa-01

正常出現(xiàn) PySpider 的頁面胰柑，那證明一切 OK

PySpider 示例

1）示例1：爬取米撲科技首頁（mimvp.com）

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2017-07-28 13:44:53
# Project: pyspiderdemo
# mimvp.com
 
from pyspider.libs.base_handler import *
 
 
class Handler(BaseHandler):
    crawl_config = {
    }
 
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('mimvp.com', callback=self.index_page)
 
    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)
 
    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

運行結(jié)果：

python-pyspider-an-zhuang-yu-kai-fa-02

2）示例2：設(shè)置代理爬取網(wǎng)頁
PySpider 支持使用代理爬取網(wǎng)頁，其使用代理有兩種方式：
方式1：
--phantomjs-proxy TEXT phantomjs proxy ip:port
啟動命令例如：
pyspider --phantomjs-proxy "188.226.141.217:8080" all

方式2：
設(shè)置代理全局變量爬泥，如下圖：
crawl_config = { 'proxy' : '188.226.141.217:8080'}
示例代碼：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2017-07-28 14:13:14
# Project: mimvp_proxy_pyspider
#
# mimvp.com
 
from pyspider.libs.base_handler import *
 
 
class Handler(BaseHandler):
    crawl_config = {
        'proxy' : 'http://188.226.141.217:8080',     # http
        'proxy' : 'https://182.253.32.65:3128'      # https
    }
 
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://proxy.mimvp.com/exist.php', callback=self.index_page)
 
    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)
 
    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

運行結(jié)果：

python-pyspider-an-zhuang-yu-kai-fa-03

最后編輯于：2017.12.10 01:53:09

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末柬讨，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子袍啡，更是在濱河造成了極大的恐慌踩官，老刑警劉巖，帶你破解...
沈念sama閱讀 221,576評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件境输，死亡現(xiàn)場離奇詭異蔗牡，居然都是意外死亡，警方通過查閱死者的電腦和手機嗅剖，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,515評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門辩越，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人信粮，你說我怎么就攤上這事黔攒。” “怎么了蒋院？”我有些...
開封第一講書人閱讀 168,017評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長莲绰。經(jīng)常有香客問我欺旧，道長，這世上最難降的妖魔是什么蛤签？我笑而不...
開封第一講書人閱讀 59,626評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任辞友，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘称龙。我一直安慰自己留拾，他們只是感情好，可當我...
茶點故事閱讀 68,625評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布鲫尊。她就那樣靜靜地躺著痴柔，像睡著了一般。火紅的嫁衣襯著肌膚如雪疫向。梳的紋絲不亂的頭發(fā)上咳蔚，一...
開封第一講書人閱讀 52,255評論 1贊 308
城市分裂傳說
那天，我揣著相機與錄音搔驼，去河邊找鬼谈火。笑死，一個胖子當著我的面吹牛舌涨，可吹牛的內(nèi)容都是我干的糯耍。我是一名探鬼主播，決...
沈念sama閱讀 40,825評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼囊嘉，長吁一口氣：“原來是場噩夢啊……” “哼温技！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起哗伯，我...
開封第一講書人閱讀 39,729評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤荒揣，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后焊刹，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體系任，經(jīng)...
沈念sama閱讀 46,271評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,363評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年虐块，在試婚紗的時候發(fā)現(xiàn)自己被綠了俩滥。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,498評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡贺奠，死狀恐怖霜旧，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情儡率，我是刑警寧澤挂据，帶...
沈念sama閱讀 36,183評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站儿普，受9級特大地震影響崎逃，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜眉孩，卻給世界環(huán)境...
茶點故事閱讀 41,867評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一个绍、第九天我趴在偏房一處隱蔽的房頂上張望勒葱。院中可真熱鬧，春花似錦巴柿、人聲如沸凛虽。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,338評論 0贊 24
一樁弒父案广恢，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽凯旋。三九已至，卻和暖如春袁波，著一層夾襖步出監(jiān)牢的瞬間瓦阐，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,458評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工篷牌，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留睡蟋，地道東北人。一個月前我還...
沈念sama閱讀 48,906評論 3贊 376
代替公主和親
正文我出身青樓枷颊，卻偏偏與公主長得像戳杀，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子夭苗，可洞房花燭夜當晚...
茶點故事閱讀 45,507評論 2贊 359

Python pyspider 安裝與開發(fā)

Python pyspider 安裝與開發(fā)

PySpider 簡介

PySpider 特性

PySpider 安裝

PySpider 示例

參考推薦：

推薦閱讀更多精彩內(nèi)容