1. Spider 下載中間件(Middleware)
Spider 中間件(Middleware) 下載器中間件是介入到 Scrapy 的 spider 處理機制的鉤子框架,您可以添加代碼來處理發(fā)送給 Spiders 的 response 及 spider 產(chǎn)生的 item 和 request
2. 激活一個下載DOWNLOADER_MIDDLEWARES
要激活一個下載器中間件組件棉钧,將其添加到 DOWNLOADER_MIDDLEWARES
設(shè)置中脓豪,該設(shè)置是一個字典珍手,其鍵是中間件類路徑壤巷,它們的值是中間件命令
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.CustomDownloaderMiddleware' : 543 贯钩,
}
該DOWNLOADER_MIDDLEWARES
設(shè)置與DOWNLOADER_MIDDLEWARES_BASEScrapy
中定義的設(shè)置(并不意味著被覆蓋)合并选浑, 然后按順序排序,以獲得最終的已啟用中間件的排序列表:第一個中間件是靠近引擎的第一個中間件顿仇,最后一個是靠近引擎的中間件到下載器淘正。換句話說,process_request()
每個中間件的方法將以增加中間件的順序(100,200,300臼闻,...)process_response()
被調(diào)用鸿吆,并且每個中間件的方法將以降序調(diào)用
要決定分配給中間件的順序,請參閱 DOWNLOADER_MIDDLEWARES_BASE
設(shè)置并根據(jù)要插入中間件的位置選擇一個值些阅。順序很重要伞剑,因為每個中間件都執(zhí)行不同的操作,而您的中間件可能依賴于之前(或后續(xù))正在使用的中間件
如果要禁用內(nèi)置中間件(DOWNLOADER_MIDDLEWARES_BASE
默認(rèn)情況下已定義和啟用的中間件 )市埋,則必須在項目DOWNLOADER_MIDDLEWARES
設(shè)置中定義它黎泣,并將“ 無” 作為其值。例如缤谎,如果您要禁用用戶代理中間件
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.CustomDownloaderMiddleware' : 543 抒倚,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware' : None ,
}
最后坷澡,請記住托呕,某些中間件可能需要通過特定設(shè)置啟用
3. 編寫你自己的下載中間件
每個中間件組件都是一個Python類,它定義了一個或多個以下方法
class scrapy.downloadermiddlewares.DownloaderMiddleware
任何下載器中間件方法也可能返回一個延遲
3.1 process_request(self, request, spider)
當(dāng)每個request通過下載中間件時频敛,該方法被調(diào)用
process_request()必須返回其中之一
- 返回 None
- Scrapy 將繼續(xù)處理該 request项郊,執(zhí)行其他的中間件的相應(yīng)方法,直到合適的下載器處理函數(shù)(download handler)被調(diào)用斟赚,該 request 被執(zhí)行(其 response 被下載)
- 返回一個 Response 對象
- Scrapy 將不會調(diào)用 任何 其他的 process_request()或 process_exception()方法着降,或相應(yīng)地下載函數(shù); 其將返回該 response拗军。已安裝的中間件的 process_response()方法則會在每個 response 返回時被調(diào)用
- 返回一個 Request 對象
- Scrapy 則停止調(diào)用 process_request 方法并重新調(diào)度返回的 request任洞。當(dāng)新返回的 request 被執(zhí)行后, 相應(yīng)地中間件鏈將會根據(jù)下載的 response 被調(diào)用
- raise IgnoreRequest
- 如果拋出 一個 IgnoreRequest 異常发侵,則安裝的下載中間件的 process_exception() 方法會被調(diào)用交掏。如果沒有任何一個方法處理該異常, 則 request 的 errback(Request.errback)方法會被調(diào)用刃鳄。如果沒有代碼處理拋出的異常盅弛, 則該異常被忽略且不記錄(不同于其他異常那樣)
參數(shù):
- request (Request 對象) – 處理的request
- spider (Spider 對象) – 該request對應(yīng)的spider
3.2 process_response(self, request, response, spider)
當(dāng)下載器完成http請求,傳遞響應(yīng)給引擎的時候調(diào)用
-
process_request() 必須返回以下其中之一: 返回一個 Response 對象、 返回一個 Request 對象或raise一個 IgnoreRequest 異常
如果其返回一個 Response (可以與傳入的response相同熊尉,也可以是全新的對象)罐柳, 該response會被在鏈中的其他中間件的 process_response() 方法處理掌腰。
如果其返回一個 Request 對象狰住,則中間件鏈停止, 返回的request會被重新調(diào)度下載齿梁。處理類似于 process_request() 返回request所做的那樣催植。
如果其拋出一個 IgnoreRequest 異常,則調(diào)用request的errback(Request.errback)勺择。 如果沒有代碼處理拋出的異常创南,則該異常被忽略且不記錄(不同于其他異常那樣)。
-
參數(shù):
- request (Request 對象) – response所對應(yīng)的request
- response (Response 對象) – 被處理的response
- spider (Spider 對象) – response所對應(yīng)的spider
4 使用代理
兩種寫法 :
settings.py
PROXIES=[
{"ip":"122.236.158.78:8118"},
{"ip":"112.245.78.90:8118"}
]
DOWNLOADER_MIDDLEWARES = {
#'xiaoshuo.middlewares.XiaoshuoDownloaderMiddleware': 543,
'xiaoshuo.proxyMidde.ProxyMidde':100
}
創(chuàng)建一個midderwares
from xiaoshuo.settings import PROXIES
import random
class ProxyMidde(object):
def process_request(self, request, spider):
proxy = random.choice(PROXIES)
request.meta['proxy']='http://'+proxy['ip']
寫一個spider測試
from scrapy import Spider
class ProxyIp(Spider):
name = 'ip'
#http://www.882667.com/
start_urls = ['http://ip.cn']
def parse(self, response):
print(response.text)
5 使用動態(tài)UA
如果動態(tài)UA沒有生效,有以下兩種情況
1.setting中沒有設(shè)置中間件
2.中間件的優(yōu)先級不夠,導(dǎo)致請求過后才更改User-Agent
方法一 :
from fake_useragent import UserAgent
# 隨機的User-Agent
class RandomUserAgent(object):
def process_request(self, request, spider):
useragent = random.choice(USER_AGENTS)
request.headers.setdefault("User-Agent", useragent)
方法二:
先在setting中設(shè)置User_Agent為列表: