Python爬蟲實(shí)戰(zhàn)

目標(biāo)

1、使用redis+flask維護(hù)動態(tài)代理池

2冲甘、使用redis+flask維護(hù)動態(tài)cookies池

3绩卤、使用scrapy框架,存儲的數(shù)據(jù)存放到mongodb

4江醇、使用scrapy-redis框架【暫不實(shí)現(xiàn)】:分布式的scrapy框架濒憋,提升效率

準(zhǔn)備階段

1、建立項(xiàng)目目錄陶夜,生成虛擬環(huán)境凛驮,在虛擬機(jī)環(huán)境中安裝依賴庫

【注】虛擬機(jī)環(huán)境的問題參考http://www.reibang.com/p/d366f3fb32f0

2、使用scrapy命令生成爬蟲基本框架

查看常用命令

步驟1:創(chuàng)建一個爬蟲項(xiàng)目project

運(yùn)行結(jié)果

步驟2:生成一個spider律适,可以按照步驟1的提示操作【scrapy genspider toutiao toutiao.com】

【注】產(chǎn)生一個spider辐烂,即生成了一個蜘蛛用來爬取頭條

步驟3:運(yùn)行spider,使用命令crawl

步驟4:項(xiàng)目正式開始之前我們來介紹一下項(xiàng)目目錄

toutiao.py腳本很明顯就是產(chǎn)生的蜘蛛spider捂贿,它是用來爬取核心腳本纠修。那么是spider的名字,用來唯一標(biāo)識爬取數(shù)據(jù)的蜘蛛厂僧;allowed_domains指的是允許爬取的域名扣草,URL定義了爬取的目的URL。parse函數(shù)用來解析爬取的結(jié)果,最后要將解析到的數(shù)據(jù)存儲到items.py

items.py腳本定義了爬取的數(shù)據(jù)辰妙,如何理解呢鹰祸。首先解析的數(shù)據(jù)會自動存儲到該腳本中。最后數(shù)據(jù)處理密浑、存儲到數(shù)據(jù)庫蛙婴、或者展示等也需要從該模塊中獲取數(shù)據(jù)

settings.py腳本定義了爬蟲常用的配置項(xiàng),常用的有DEFAULT_REQUEST_HEADERS用來設(shè)置爬蟲時(shí)候的headers信息尔破,SPIDER_MIDDLEWARES用來定義中間件和中間件的優(yōu)先級

middlewares.py腳本定義中間件街图,可以用來處理請求request、響應(yīng)response懒构,以及出現(xiàn)的異常餐济。分別腳本中的3個方法process_request、process_response胆剧、process_exception絮姆。實(shí)際使用中我們需要復(fù)寫這3個方法。用來寫我們業(yè)務(wù)邏輯秩霍。完成之后再配置文件進(jìn)行配置將我們定義的中間件名字寫到配置文件中并設(shè)置優(yōu)先級

pipelines.py腳本即管道腳本篙悯,主要作用是items.py腳本中的數(shù)據(jù)進(jìn)行存儲等,通過管道將數(shù)據(jù)寫入到數(shù)據(jù)庫前域、文件等

scrapy各模塊總體架構(gòu)圖



?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末辕近,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子匿垄,更是在濱河造成了極大的恐慌移宅,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件椿疗,死亡現(xiàn)場離奇詭異漏峰,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)届榄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門浅乔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人铝条,你說我怎么就攤上這事靖苇。” “怎么了班缰?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵贤壁,是天一觀的道長。 經(jīng)常有香客問我埠忘,道長脾拆,這世上最難降的妖魔是什么馒索? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮名船,結(jié)果婚禮上绰上,老公的妹妹穿的比我還像新娘。我一直安慰自己渠驼,他們只是感情好蜈块,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著渴邦,像睡著了一般疯趟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谋梭,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天,我揣著相機(jī)與錄音倦青,去河邊找鬼瓮床。 笑死,一個胖子當(dāng)著我的面吹牛产镐,可吹牛的內(nèi)容都是我干的隘庄。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼癣亚,長吁一口氣:“原來是場噩夢啊……” “哼丑掺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起述雾,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤街州,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后玻孟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體唆缴,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年黍翎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了面徽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡匣掸,死狀恐怖趟紊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情碰酝,我是刑警寧澤霎匈,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站砰粹,受9級特大地震影響唧躲,放射性物質(zhì)發(fā)生泄漏造挽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一弄痹、第九天 我趴在偏房一處隱蔽的房頂上張望饭入。 院中可真熱鬧,春花似錦肛真、人聲如沸谐丢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乾忱。三九已至,卻和暖如春历极,著一層夾襖步出監(jiān)牢的瞬間窄瘟,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工趟卸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蹄葱,地道東北人。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓锄列,卻偏偏與公主長得像图云,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子邻邮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容