爬蟲小記(三)

云詞庫

http://blog.csdn.net/xiemanr/article/details/72796739

https://github.com/adobe-fonts/source-han-serif/tree/release


文本分析

http://blog.csdn.net/ns2250225/article/details/51291775

https://www.cnblogs.com/zhzhang/p/6785125.html



# -*- coding: utf-8 -*-

? ? # Define here the models for your spider middleware

? ? #

? ? # See documentation in:

? ? # https://doc.scrapy.org/en/latest/topics/spider-middleware.html

? ? from scrapy import signals

? ? class HelloscrapySpiderMiddleware(object):

? ? ? ? # Not all methods need to be defined. If a method is not defined,

? ? ? ? # scrapy acts as if the spider middleware does not modify the

? ? ? ? # passed objects.

? ? ? ? @classmethod

? ? ? ? def from_crawler(cls, crawler):

? ? ? ? ? ? # This method is used by Scrapy to create your spiders.

? ? ? ? ? ? s = cls()

? ? ? ? ? ? crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

? ? ? ? ? ? return s

? ? ? ? def process_spider_input(self, response, spider):

? ? ? ? ? ? # Called for each response that goes through the spider

? ? ? ? ? ? # middleware and into the spider.

? ? ? ? ? ? # Should return None or raise an exception.

? ? ? ? ? ? return None

? ? ? ? def process_spider_output(self, response, result, spider):

? ? ? ? ? ? # Called with the results returned from the Spider, after

? ? ? ? ? ? # it has processed the response.

? ? ? ? ? ? # Must return an iterable of Request, dict or Item objects.

? ? ? ? ? ? for i in result:

? ? ? ? ? ? ? ? yield i

? ? ? ? def process_spider_exception(self, response, exception, spider):

? ? ? ? ? ? # Called when a spider or process_spider_input() method

? ? ? ? ? ? # (from other spider middleware) raises an exception.

? ? ? ? ? ? # Should return either None or an iterable of Response, dict

? ? ? ? ? ? # or Item objects.

? ? ? ? ? ? pass

? ? ? ? def process_start_requests(self, start_requests, spider):

? ? ? ? ? ? # Called with the start requests of the spider, and works

? ? ? ? ? ? # similarly to the process_spider_output() method, except

? ? ? ? ? ? # that it doesn’t have a response associated.

? ? ? ? ? ? # Must return only requests (not items).

? ? ? ? ? ? for r in start_requests:

? ? ? ? ? ? ? ? yield r

? ? ? ? def spider_opened(self, spider):

? ? ? ? ? ? spider.logger.info('Spider opened: %s' % spider.name)

? ? class HelloscrapyDownloaderMiddleware(object):

? ? ? ? # Not all methods need to be defined. If a method is not defined,

? ? ? ? # scrapy acts as if the downloader middleware does not modify the

? ? ? ? # passed objects.

? ? ? ? @classmethod

? ? ? ? def from_crawler(cls, crawler):

? ? ? ? ? ? # This method is used by Scrapy to create your spiders.

? ? ? ? ? ? s = cls()

? ? ? ? ? ? crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

? ? ? ? ? ? return s

? ? ? ? def process_request(self, request, spider):

? ? ? ? ? ? # Called for each request that goes through the downloader

? ? ? ? ? ? # middleware.

? ? ? ? ? ? # Must either:

? ? ? ? ? ? # - return None: continue processing this request

? ? ? ? ? ? # - or return a Response object

? ? ? ? ? ? # - or return a Request object

? ? ? ? ? ? # - or raise IgnoreRequest: process_exception() methods of

? ? ? ? ? ? #? installed downloader middleware will be called

? ? ? ? ? ? return None

? ? ? ? def process_response(self, request, response, spider):

? ? ? ? ? ? # Called with the response returned from the downloader.

? ? ? ? ? ? # Must either;

? ? ? ? ? ? # - return a Response object

? ? ? ? ? ? # - return a Request object

? ? ? ? ? ? # - or raise IgnoreRequest

? ? ? ? ? ? return response

? ? ? ? def process_exception(self, request, exception, spider):

? ? ? ? ? ? # Called when a download handler or a process_request()

? ? ? ? ? ? # (from other downloader middleware) raises an exception.

? ? ? ? ? ? # Must either:

? ? ? ? ? ? # - return None: continue processing this exception

? ? ? ? ? ? # - return a Response object: stops process_exception() chain

? ? ? ? ? ? # - return a Request object: stops process_exception() chain

? ? ? ? ? ? pass

? ? ? ? def spider_opened(self, spider):

? ? ? ? ? ? spider.logger.info('Spider opened: %s' % spider.name)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末迈着,一起剝皮案震驚了整個濱河市忘朝,隨后出現(xiàn)的幾起案子区拳,更是在濱河造成了極大的恐慌载迄,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件立膛,死亡現(xiàn)場離奇詭異衫贬,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門驮樊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來薇正,“玉大人,你說我怎么就攤上這事囚衔⊥谘” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵练湿,是天一觀的道長猴仑。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么辽俗? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任疾渣,我火速辦了婚禮,結(jié)果婚禮上崖飘,老公的妹妹穿的比我還像新娘榴捡。我一直安慰自己,他們只是感情好朱浴,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布吊圾。 她就那樣靜靜地躺著,像睡著了一般翰蠢。 火紅的嫁衣襯著肌膚如雪项乒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天梁沧,我揣著相機與錄音檀何,去河邊找鬼。 笑死趁尼,一個胖子當著我的面吹牛埃碱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播酥泞,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼砚殿,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了芝囤?” 一聲冷哼從身側(cè)響起似炎,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎悯姊,沒想到半個月后羡藐,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡悯许,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年仆嗦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片先壕。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡瘩扼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出垃僚,到底是詐尸還是另有隱情集绰,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布谆棺,位于F島的核電站栽燕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜碍岔,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一浴讯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧付秕,春花似錦兰珍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至猛计,卻和暖如春唠摹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背奉瘤。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工勾拉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人盗温。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓藕赞,卻偏偏與公主長得像,于是被迫代替她去往敵國和親卖局。 傳聞我的和親對象是個殘疾皇子斧蜕,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Django中間件 概念:Django中一個輕量級、底層的插件系統(tǒng)砚偶,可以介入Django的請求和響應(yīng)處理過程批销,修改...
    夢醒家先生閱讀 1,057評論 0 0
  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi閱讀 7,294評論 0 10
  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,655評論 4 46
  • 近段時間不斷地被有關(guān)婚姻的問題刷屏了,首先是湘潭31歲的媽媽帶著兩個孩子跳樓染坯,然后是陳思成的出軌均芽,大愛的美妝博主被...
    慕拉諾閱讀 228評論 0 0
  • 文/一土 除了啞巴,幾乎人人都能夠說話单鹿。而說話的藝術(shù)掀宋,又是說話達到一定水準之后的評價。我所遇到的仲锄,說話很厲害的人都...
    雨下撒哈拉閱讀 335評論 0 1