# -*- coding: utf-8 -*-
# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html
from scrapy import signals
from selenium import webdriver
from time import sleep
from scrapy.http import HtmlResponse
class ToutiaoDownloaderMiddleware(object):
# Not all methods need to be defined. If a method is not defined,
# scrapy acts as if the downloader middleware does not modify the
# passed objects.
@classmethod
def from_crawler(cls, crawler):
# This method is used by Scrapy to create your spiders.
s = cls()
crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
return s
def process_request(self, request, spider):
# Called for each request that goes through the downloader
# middleware.
# Must either:
# - return None: continue processing this request
# - or return a Response object
# - or return a Request object
# - or raise IgnoreRequest: process_exception() methods of
# installed downloader middleware will be called
# 創(chuàng)建一個(gè)webdriver對(duì)象
opt = webdriver.ChromeOptions()
opt.add_argument("--headless")
driver = webdriver.Chrome(options=opt)
driver.get(request.url)
sleep(3)
# 讓頁面滾動(dòng)
js = "var q = document.documentElement.scrollTop=%d"
distance = 100
for i in range(100):
driver.execute_script(js%distance)
distance += 100
sleep(0.5)
body = driver.page_source
print("正在使用中間件下載...")
print("當(dāng)前瀏覽器正在訪問的網(wǎng)址是:",driver.current_url)
# 響應(yīng)體需要重新定義
res = HtmlResponse(url=driver.current_url,body=body,encoding='utf-8',request=request)
return res
def process_response(self, request, response, spider):
# Called with the response returned from the downloader.
# Must either;
# - return a Response object
# - return a Request object
# - or raise IgnoreRequest
return response
def process_exception(self, request, exception, spider):
# Called when a download handler or a process_request()
# (from other downloader middleware) raises an exception.
# Must either:
# - return None: continue processing this exception
# - return a Response object: stops process_exception() chain
# - return a Request object: stops process_exception() chain
pass
def spider_opened(self, spider):
spider.logger.info('Spider opened: %s' % spider.name)
6-2 middlewares.py
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
- 文/潘曉璐 我一進(jìn)店門帮哈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人锰镀,你說我怎么就攤上這事娘侍。” “怎么了泳炉?”我有些...
- 文/不壞的土叔 我叫張陵憾筏,是天一觀的道長。 經(jīng)常有香客問我花鹅,道長氧腰,這世上最難降的妖魔是什么? 我笑而不...
- 正文 為了忘掉前任刨肃,我火速辦了婚禮古拴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘真友。我一直安慰自己黄痪,他們只是感情好,可當(dāng)我...
- 文/花漫 我一把揭開白布盔然。 她就那樣靜靜地躺著桅打,像睡著了一般。 火紅的嫁衣襯著肌膚如雪愈案。 梳的紋絲不亂的頭發(fā)上挺尾,一...
- 文/蒼蘭香墨 我猛地睜開眼顷歌,長吁一口氣:“原來是場噩夢啊……” “哼锰蓬!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起眯漩,我...
- 序言:老撾萬榮一對(duì)情侶失蹤芹扭,失蹤者是張志新(化名)和其女友劉穎麻顶,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舱卡,經(jīng)...
- 正文 獨(dú)居荒郊野嶺守林人離奇死亡辅肾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
- 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了轮锥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矫钓。...
- 正文 年R本政府宣布概龄,位于F島的核電站,受9級(jí)特大地震影響饲握,放射性物質(zhì)發(fā)生泄漏私杜。R本人自食惡果不足惜,卻給世界環(huán)境...
- 文/蒙蒙 一救欧、第九天 我趴在偏房一處隱蔽的房頂上張望衰粹。 院中可真熱鬧,春花似錦笆怠、人聲如沸寄猩。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽田篇。三九已至,卻和暖如春箍铭,著一層夾襖步出監(jiān)牢的瞬間泊柬,已是汗流浹背。 一陣腳步聲響...
- 正文 我出身青樓冷守,卻偏偏與公主長得像刀崖,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子拍摇,可洞房花燭夜當(dāng)晚...
推薦閱讀更多精彩內(nèi)容
- 2018.2.3 目標(biāo):身心健康充活,財(cái)富豐盛 好種子: 1早起健康早餐蜂莉,種下健康的種子蜡娶,回向群里姐妹及家人身心健康 ...
- windows下gvim安裝好UltiSnips插件啟動(dòng)vim時(shí),提示requires py >= 2.6 or ...
- 2018映穗、3窖张、13、星期二 天氣晴 早上去女兒房間女兒醒了蚁滋,我說起床吧宿接!女兒問我媽媽你做夢嗎?我說做霸肌睦霎!你昨...
- 一個(gè)良好的家,應(yīng)當(dāng)是什么樣子的: ——家首先意味著自在與放松 亂點(diǎn)沒有關(guān)系踏拜,葛優(yōu)躺也是可以的,整天用空調(diào)多花...
- 不知不覺已在這座臨江小城呆了兩個(gè)月低剔,我還是無法熟悉速梗,但好歹掙脫了約束,我也習(xí)慣了這里的天空襟齿,盡管仍不熟悉這復(fù)雜的公...