Scrapy爬蟲框架(七) ------ 下載中間件(Middleware)

1. Spider 下載中間件(Middleware)

Spider 中間件(Middleware) 下載器中間件是介入到 Scrapy 的 spider 處理機制的鉤子框架,您可以添加代碼來處理發(fā)送給 Spiders 的 response 及 spider 產(chǎn)生的 item 和 request

2. 激活一個下載DOWNLOADER_MIDDLEWARES

要激活一個下載器中間件組件棉钧,將其添加到 DOWNLOADER_MIDDLEWARES設(shè)置中脓豪,該設(shè)置是一個字典珍手,其鍵是中間件類路徑壤巷,它們的值是中間件命令

DOWNLOADER_MIDDLEWARES  =  { 
    'myproject.middlewares.CustomDownloaderMiddleware' : 543 贯钩,
}

DOWNLOADER_MIDDLEWARES設(shè)置與DOWNLOADER_MIDDLEWARES_BASEScrapy中定義的設(shè)置(并不意味著被覆蓋)合并选浑, 然后按順序排序,以獲得最終的已啟用中間件的排序列表:第一個中間件是靠近引擎的第一個中間件顿仇,最后一個是靠近引擎的中間件到下載器淘正。換句話說,process_request() 每個中間件的方法將以增加中間件的順序(100,200,300臼闻,...)process_response()被調(diào)用鸿吆,并且每個中間件的方法將以降序調(diào)用

要決定分配給中間件的順序,請參閱 DOWNLOADER_MIDDLEWARES_BASE設(shè)置并根據(jù)要插入中間件的位置選擇一個值些阅。順序很重要伞剑,因為每個中間件都執(zhí)行不同的操作,而您的中間件可能依賴于之前(或后續(xù))正在使用的中間件

如果要禁用內(nèi)置中間件(DOWNLOADER_MIDDLEWARES_BASE默認(rèn)情況下已定義和啟用的中間件 )市埋,則必須在項目DOWNLOADER_MIDDLEWARES設(shè)置中定義它黎泣,并將“ 無” 作為其值。例如缤谎,如果您要禁用用戶代理中間件

DOWNLOADER_MIDDLEWARES  =  { 
    'myproject.middlewares.CustomDownloaderMiddleware' : 543 抒倚,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware' : None ,
}

最后坷澡,請記住托呕,某些中間件可能需要通過特定設(shè)置啟用

3. 編寫你自己的下載中間件

每個中間件組件都是一個Python類,它定義了一個或多個以下方法

class scrapy.downloadermiddlewares.DownloaderMiddleware

任何下載器中間件方法也可能返回一個延遲

3.1 process_request(self, request, spider)

當(dāng)每個request通過下載中間件時频敛,該方法被調(diào)用

process_request()必須返回其中之一

  • 返回 None
    • Scrapy 將繼續(xù)處理該 request项郊,執(zhí)行其他的中間件的相應(yīng)方法,直到合適的下載器處理函數(shù)(download handler)被調(diào)用斟赚,該 request 被執(zhí)行(其 response 被下載)
  • 返回一個 Response 對象
    • Scrapy 將不會調(diào)用 任何 其他的 process_request()或 process_exception()方法着降,或相應(yīng)地下載函數(shù); 其將返回該 response拗军。已安裝的中間件的 process_response()方法則會在每個 response 返回時被調(diào)用
  • 返回一個 Request 對象
    • Scrapy 則停止調(diào)用 process_request 方法并重新調(diào)度返回的 request任洞。當(dāng)新返回的 request 被執(zhí)行后, 相應(yīng)地中間件鏈將會根據(jù)下載的 response 被調(diào)用
  • raise IgnoreRequest
    • 如果拋出 一個 IgnoreRequest 異常发侵,則安裝的下載中間件的 process_exception() 方法會被調(diào)用交掏。如果沒有任何一個方法處理該異常, 則 request 的 errback(Request.errback)方法會被調(diào)用刃鳄。如果沒有代碼處理拋出的異常盅弛, 則該異常被忽略且不記錄(不同于其他異常那樣)

參數(shù):

  • request (Request 對象) – 處理的request
  • spider (Spider 對象) – 該request對應(yīng)的spider

3.2 process_response(self, request, response, spider)

當(dāng)下載器完成http請求,傳遞響應(yīng)給引擎的時候調(diào)用

  • process_request() 必須返回以下其中之一: 返回一個 Response 對象、 返回一個 Request 對象或raise一個 IgnoreRequest 異常

    • 如果其返回一個 Response (可以與傳入的response相同熊尉,也可以是全新的對象)罐柳, 該response會被在鏈中的其他中間件的 process_response() 方法處理掌腰。

    • 如果其返回一個 Request 對象狰住,則中間件鏈停止, 返回的request會被重新調(diào)度下載齿梁。處理類似于 process_request() 返回request所做的那樣催植。

    • 如果其拋出一個 IgnoreRequest 異常,則調(diào)用request的errback(Request.errback)勺择。 如果沒有代碼處理拋出的異常创南,則該異常被忽略且不記錄(不同于其他異常那樣)。

  • 參數(shù):

    • request (Request 對象) – response所對應(yīng)的request
    • response (Response 對象) – 被處理的response
    • spider (Spider 對象) – response所對應(yīng)的spider

4 使用代理

兩種寫法 :

settings.py

PROXIES=[
    {"ip":"122.236.158.78:8118"},
    {"ip":"112.245.78.90:8118"}
]
DOWNLOADER_MIDDLEWARES = {
    #'xiaoshuo.middlewares.XiaoshuoDownloaderMiddleware': 543,
    'xiaoshuo.proxyMidde.ProxyMidde':100
}

創(chuàng)建一個midderwares

from xiaoshuo.settings import PROXIES
import random
class ProxyMidde(object):
    def process_request(self, request, spider):
            proxy = random.choice(PROXIES)
            request.meta['proxy']='http://'+proxy['ip']

寫一個spider測試

from scrapy import Spider


class ProxyIp(Spider):
    name = 'ip'
    #http://www.882667.com/
    start_urls = ['http://ip.cn']

    def parse(self, response):
        print(response.text)

5 使用動態(tài)UA

如果動態(tài)UA沒有生效,有以下兩種情況
1.setting中沒有設(shè)置中間件
2.中間件的優(yōu)先級不夠,導(dǎo)致請求過后才更改User-Agent
方法一 :

from fake_useragent import UserAgent
# 隨機的User-Agent
class RandomUserAgent(object):
    def process_request(self, request, spider):
        useragent = random.choice(USER_AGENTS)
        request.headers.setdefault("User-Agent", useragent)

方法二:
先在setting中設(shè)置User_Agent為列表:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末省核,一起剝皮案震驚了整個濱河市稿辙,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌气忠,老刑警劉巖邻储,帶你破解...
    沈念sama閱讀 217,084評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異旧噪,居然都是意外死亡吨娜,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評論 3 392
  • 文/潘曉璐 我一進店門淘钟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來宦赠,“玉大人,你說我怎么就攤上這事米母」磁ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 163,450評論 0 353
  • 文/不壞的土叔 我叫張陵铁瞒,是天一觀的道長妙色。 經(jīng)常有香客問我,道長精拟,這世上最難降的妖魔是什么燎斩? 我笑而不...
    開封第一講書人閱讀 58,322評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮蜂绎,結(jié)果婚禮上栅表,老公的妹妹穿的比我還像新娘。我一直安慰自己师枣,他們只是感情好怪瓶,可當(dāng)我...
    茶點故事閱讀 67,370評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著践美,像睡著了一般洗贰。 火紅的嫁衣襯著肌膚如雪找岖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,274評論 1 300
  • 那天敛滋,我揣著相機與錄音许布,去河邊找鬼。 笑死绎晃,一個胖子當(dāng)著我的面吹牛蜜唾,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播庶艾,決...
    沈念sama閱讀 40,126評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼袁余,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了咱揍?” 一聲冷哼從身側(cè)響起颖榜,我...
    開封第一講書人閱讀 38,980評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎煤裙,沒想到半個月后掩完,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,414評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡积暖,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,599評論 3 334
  • 正文 我和宋清朗相戀三年藤为,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夺刑。...
    茶點故事閱讀 39,773評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡缅疟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出遍愿,到底是詐尸還是另有隱情存淫,我是刑警寧澤,帶...
    沈念sama閱讀 35,470評論 5 344
  • 正文 年R本政府宣布沼填,位于F島的核電站桅咆,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏坞笙。R本人自食惡果不足惜岩饼,卻給世界環(huán)境...
    茶點故事閱讀 41,080評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望薛夜。 院中可真熱鬧籍茧,春花似錦、人聲如沸梯澜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至吮龄,卻和暖如春俭茧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背漓帚。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評論 1 269
  • 我被黑心中介騙來泰國打工母债, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人胰默。 一個月前我還...
    沈念sama閱讀 47,865評論 2 370
  • 正文 我出身青樓场斑,卻偏偏與公主長得像漓踢,于是被迫代替她去往敵國和親牵署。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,689評論 2 354