scrapy用proxy的零零總總

scrapy框架及中間件中說到了中間件相關(guān)的數(shù)據(jù)流程魔市,剛好在用proxy爬數(shù)據(jù)的時(shí)候會(huì)用到中間件的零零總總,這回可以一起說說了赵哲。
我覺得寫中間件要先找到內(nèi)置的相關(guān)中間件,根據(jù)你的需求改寫其中的request/response/exceptions枫夺。
因?yàn)閟crapy里內(nèi)置的downloadermiddlewares應(yīng)該已經(jīng)足夠滿足大部分的需求了将宪,文檔上說了一個(gè)順序,也是把所有的downloadermiddlewares羅列出來橡庞。以及每個(gè)中間件要啟用哪些設(shè)置较坛,在文檔中間件有寫明。

{
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,#Robots協(xié)議
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,#http認(rèn)證
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,#壓縮方式——Accept-Encoding: gzip, deflate
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,#重定向301,302
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,#代理
'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,#底層緩存支持
}

另spidermiddlewares
{
'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,#直接跳過非2**的request扒最,
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,#在domain之外的網(wǎng)址不被過濾
'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,#根據(jù)request和response生成request headers中的referer
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,#控制爬取得url長度
'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,#控制爬取得深度
}

這回想要用proxy爬取百度首頁丑勤,想的是基本流程是
1.setting里導(dǎo)入ip-list,同時(shí)DOWNLOAD_TIMEOUT=3扼倘,默認(rèn)180,3分鐘太長了
2.修改HttpProxyMiddleware确封,讓其從setting里都每次都取第一個(gè)proxy發(fā)起request
2.修改RetryMiddleware除呵,如果出現(xiàn)timeout等錯(cuò)誤(重寫exception)或者ip被封出現(xiàn)503(重寫response)之類再菊,就把這個(gè)ip刪掉,把刪除后的iplist重寫進(jìn)setting颜曾,如果iplist為0纠拔,就結(jié)束spider。

middleware:

from scrapy import signals
from scrapy.utils.project import get_project_settings
from scrapy.downloadermiddlewares.retry import RetryMiddleware
from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware
import time
import random
from scrapy.utils.response import response_status_message
from scrapy.log import logger

class MyProxyMiddleware(HttpProxyMiddleware):
    def process_request(self, request, spider):
        settings = get_project_settings()
        proxies = settings.get('IPOOL')

        logger.debug('now ip is '+proxies[0])
        request.meta['proxy'] = proxies[0]

class MyRetryMiddleware(RetryMiddleware):
    def delete_proxy(self,spider):
        settings = get_project_settings()
        proxies = settings.get('IPOOL')
        if proxies:
            proxies.pop(0)
            settings.set('IPOOL',proxies)
        else:
            spider.crawler.engine.close_spider(spider, 'response msg error , job done!')

    def process_exception(self, request, exception, spider):
        if isinstance(exception, self.EXCEPTIONS_TO_RETRY) \
                and not request.meta.get('dont_retry', False):
            self.delete_proxy(spider)
            time.sleep(random.randint(3, 5))
            return self._retry(request, exception, spider)

    def process_response(self, request, response, spider):
        if request.meta.get('dont_retry', False):
            return response
        if response.status == 200:
            self.delete_proxy(spider)
            return response
        if response.status in self.retry_http_codes:
            reason = response_status_message(response.status)
            self.delete_proxy(spider)
            time.sleep(random.randint(3, 5))
            return self._retry(request, reason, spider) or response
        return response

settings:

import pandas as pd
df = pd.read_csv('F:\\pycharm project\\pachong\\vpn.csv')
IPOOL = df['address'][df['status'] == 'yes'].tolist()
DOWNLOADER_MIDDLEWARES = {
   # 'mytset.middlewares.MytsetDownloaderMiddleware': 543,
    'mytset.middlewares.MyRetryMiddleware':550,
    'mytset.middlewares.MyProxyMiddleware': 750,
}
DOWNLOAD_TIMEOUT=3

spider:

import scrapy
from pyquery import PyQuery as pq

class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['www.baidu.com']


    def start_requests(self):
        for _ in range(30):
            yield scrapy.Request(url='http://www.baidu.com/',callback=self.parse,dont_filter=True)
    def parse(self, response):
        res = pq(response.body)
        proxy = response.meta['proxy']
        print(proxy)
        print(res('title').text())
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末泛豪,一起剝皮案震驚了整個(gè)濱河市稠诲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌诡曙,老刑警劉巖臀叙,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異价卤,居然都是意外死亡劝萤,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門慎璧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來床嫌,“玉大人跨释,你說我怎么就攤上這事⊙岽Γ” “怎么了鳖谈?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長阔涉。 經(jīng)常有香客問我缆娃,道長,這世上最難降的妖魔是什么瑰排? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任龄恋,我火速辦了婚禮,結(jié)果婚禮上凶伙,老公的妹妹穿的比我還像新娘郭毕。我一直安慰自己,他們只是感情好函荣,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布显押。 她就那樣靜靜地躺著,像睡著了一般傻挂。 火紅的嫁衣襯著肌膚如雪乘碑。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天金拒,我揣著相機(jī)與錄音兽肤,去河邊找鬼。 笑死绪抛,一個(gè)胖子當(dāng)著我的面吹牛资铡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播幢码,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼笤休,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了症副?” 一聲冷哼從身側(cè)響起店雅,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎贞铣,沒想到半個(gè)月后闹啦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡辕坝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年窍奋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡费变,死狀恐怖摧扇,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情挚歧,我是刑警寧澤扛稽,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站滑负,受9級(jí)特大地震影響在张,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜矮慕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一帮匾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧痴鳄,春花似錦瘟斜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至橡类,卻和暖如春蛇尚,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背顾画。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來泰國打工取劫, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人研侣。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓谱邪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親义辕。 傳聞我的和親對(duì)象是個(gè)殘疾皇子虾标,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,655評(píng)論 4 46
  • 背景 部門(東方IC寓盗、圖蟲)業(yè)務(wù)驅(qū)動(dòng)灌砖,需要搜集大量圖片資源,做數(shù)據(jù)分析傀蚌,以及正版圖片維權(quán)基显。前期主要用node做爬蟲...
  • 說起寫爬蟲,大多數(shù)第一時(shí)間想到的就是python了善炫。python語法簡潔明了撩幽,加上及其豐富好用的庫,用它來寫爬蟲有...
    瘋狂的哈丘閱讀 8,157評(píng)論 1 15
  • scrapy是python最有名的爬蟲框架之一,可以很方便的進(jìn)行web抓取窜醉,并且提供了很強(qiáng)的定制型宪萄,這里記錄簡單學(xué)...
    bomo閱讀 2,088評(píng)論 1 11
  • 《面紗》,關(guān)于愛與責(zé)任榨惰,關(guān)于背叛與救贖拜英。 也許大多數(shù)人的婚姻是這樣的,波瀾不驚琅催,好像愛情從來不曾存在過居凶。當(dāng)婚姻難以...
    北風(fēng)拾柒閱讀 290評(píng)論 0 1