6-2 middlewares.py

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals
from selenium import webdriver
from time import sleep

from scrapy.http import HtmlResponse

class ToutiaoDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called

        # 創(chuàng)建一個(gè)webdriver對(duì)象
        opt = webdriver.ChromeOptions()
        opt.add_argument("--headless")
        driver = webdriver.Chrome(options=opt)
        driver.get(request.url)
        sleep(3)
        # 讓頁面滾動(dòng)
        js = "var q = document.documentElement.scrollTop=%d"
        distance = 100
        for i in range(100):
            driver.execute_script(js%distance)
            distance += 100
            sleep(0.5)
        body = driver.page_source
        print("正在使用中間件下載...")
        print("當(dāng)前瀏覽器正在訪問的網(wǎng)址是:",driver.current_url)
        # 響應(yīng)體需要重新定義
        res = HtmlResponse(url=driver.current_url,body=body,encoding='utf-8',request=request)

        return res

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末见秤,一起剝皮案震驚了整個(gè)濱河市寂诱,隨后出現(xiàn)的幾起案子谋减,更是在濱河造成了極大的恐慌,老刑警劉巖腔呜,帶你破解...
    沈念sama閱讀 218,036評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異再悼,居然都是意外死亡育谬,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門帮哈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人锰镀,你說我怎么就攤上這事娘侍。” “怎么了泳炉?”我有些...
    開封第一講書人閱讀 164,411評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵憾筏,是天一觀的道長。 經(jīng)常有香客問我花鹅,道長氧腰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,622評(píng)論 1 293
  • 正文 為了忘掉前任刨肃,我火速辦了婚禮古拴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘真友。我一直安慰自己黄痪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評(píng)論 6 392
  • 文/花漫 我一把揭開白布盔然。 她就那樣靜靜地躺著桅打,像睡著了一般。 火紅的嫁衣襯著肌膚如雪愈案。 梳的紋絲不亂的頭發(fā)上挺尾,一...
    開封第一講書人閱讀 51,521評(píng)論 1 304
  • 那天,我揣著相機(jī)與錄音站绪,去河邊找鬼遭铺。 笑死,一個(gè)胖子當(dāng)著我的面吹牛恢准,可吹牛的內(nèi)容都是我干的掂僵。 我是一名探鬼主播,決...
    沈念sama閱讀 40,288評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼顷歌,長吁一口氣:“原來是場噩夢啊……” “哼锰蓬!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起眯漩,我...
    開封第一講書人閱讀 39,200評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤芹扭,失蹤者是張志新(化名)和其女友劉穎麻顶,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舱卡,經(jīng)...
    沈念sama閱讀 45,644評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡辅肾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了轮锥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矫钓。...
    茶點(diǎn)故事閱讀 39,953評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖舍杜,靈堂內(nèi)的尸體忽然破棺而出新娜,到底是詐尸還是另有隱情,我是刑警寧澤既绩,帶...
    沈念sama閱讀 35,673評(píng)論 5 346
  • 正文 年R本政府宣布概龄,位于F島的核電站,受9級(jí)特大地震影響饲握,放射性物質(zhì)發(fā)生泄漏私杜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評(píng)論 3 329
  • 文/蒙蒙 一救欧、第九天 我趴在偏房一處隱蔽的房頂上張望衰粹。 院中可真熱鬧,春花似錦笆怠、人聲如沸寄猩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽田篇。三九已至,卻和暖如春箍铭,著一層夾襖步出監(jiān)牢的瞬間泊柬,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評(píng)論 1 269
  • 我被黑心中介騙來泰國打工诈火, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留兽赁,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,119評(píng)論 3 370
  • 正文 我出身青樓冷守,卻偏偏與公主長得像刀崖,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子拍摇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容