爬蟲框架Scrapy個(gè)人總結(jié)(詳細(xì))熟悉

前言

我這兩天想復(fù)習(xí)一下Scrapy框架,然后看了看自己之前的筆記叮盘,發(fā)現(xiàn)總結(jié)的有點(diǎn)亂,本來心思在網(wǎng)上找找資料霹俺,然后發(fā)現(xiàn)網(wǎng)上的也是有點(diǎn)亂和我之前總結(jié)的都差不多柔吼,所以我心思好好總結(jié)一下,然后和大家分享一下

先說下我總結(jié)的思路丙唧,分為四步走:

1.Scrapy框架的安裝
2.Scrapy的簡(jiǎn)單使用
3.Scrapy的整體架構(gòu)和組成
4.Scrapy的中間件詳解

一愈魏、Scrapy框架的安裝

Scrapy框架因?yàn)楣δ苁謴?qiáng)大,所以依賴很多庫(kù)想际,不能直接安裝培漏,需要先安裝依賴庫(kù),因?yàn)槲业碾娔X在Windows下胡本,所以這里展示W(wǎng)indows下的安裝方法(如果有其他平臺(tái)的需要牌柄,歡迎給我留言我在發(fā)出來)
需要安裝4個(gè)依賴庫(kù)分別是

  • lxml(這個(gè)最重要),使用pip命令安裝

pip3 install lxml
若沒有報(bào)錯(cuò)打瘪,則安裝成功友鼻,如果報(bào)錯(cuò)提示缺少libxml2 庫(kù),可以使用wheel文件進(jìn)行安裝 libxml2

  • pyOpenSSL
    需要在官網(wǎng)下載wheel文件 pyOpenssL
    下載后使用

pip3 install pyOpenSSL-17.2.0-py2.py3-none-any.whl

安裝即可

  • Twisted
    同理闺骚,需要在官網(wǎng)下載wheel文件 Twisted,但是有一件事彩扔,一定要記得在控制臺(tái)下輸入

python

查看你的電腦版本和python版本,然后在上面的地址中下載對(duì)應(yīng)的wheel文件


捕獲.JPG

然后使用命令安裝

pip3 install Twisted-17.5.0-cp36-cp36m-win_amd64.whl

  • PyWin32
    在官網(wǎng)下載對(duì)應(yīng)版本的安裝包雙擊安裝即可 pywin32

在依賴包全部安裝成功前提下安裝Scrapy框架僻爽,使用pip命令

pip3 install Scrapy

就證明 Scrapy 已經(jīng)安裝好了

二虫碉、Scrapy框架的簡(jiǎn)單使用

使用之前你要清楚這么一件事,Scrapy框架和你自己編寫的區(qū)別胸梆,我理解的區(qū)別就是沒什么區(qū)別敦捧,你編寫的爬蟲也是為了抓取數(shù)據(jù),框架也是為了抓取數(shù)據(jù)碰镜,唯一有一定不同的就是兢卵,不管是我們現(xiàn)在所說的Scrapy框架還是其他的爬蟲框架都是使爬蟲功能模塊話,把各種爬蟲需求分開來绪颖,你只要使用你的項(xiàng)目所需要的模塊就夠了秽荤!
你還需要知道這么幾條常用的命令

創(chuàng)建項(xiàng)目:scrapy startproject xxx
進(jìn)入項(xiàng)目:cd xxx #進(jìn)入某個(gè)文件夾下
創(chuàng)建爬蟲:scrapy genspider xxx(爬蟲名) xxx.com (爬取域)
生成文件:scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運(yùn)行爬蟲:scrapy crawl XXX
列出所有爬蟲:scrapy list
獲得配置信息:scrapy settings [options]

那么我們現(xiàn)在來說說Scrapy框架的基本使用也是一樣分為幾部分

1.scrapy startproject tutorial

我們來看看Scrapy項(xiàng)目下都有些什么

scrapy.cfg: 項(xiàng)目的配置文件
tutorial/: 該項(xiàng)目的python模塊。在此放入代碼(核心)
tutorial/items.py: 項(xiàng)目中的item文件.(這是創(chuàng)建容器的地方,爬取的信息分別放到不同容器里)
tutorial/pipelines.py: 項(xiàng)目中的pipelines文件.
tutorial/settings.py: 項(xiàng)目的設(shè)置文件.(我用到的設(shè)置一下基礎(chǔ)參數(shù)窃款,比如加個(gè)文件頭课兄,設(shè)置一個(gè)編碼)
tutorial/spiders/: 放置spider代碼的目錄. (放爬蟲的地方)

容器(items)的定義,容器不一定是一開始全部都定義好的晨继,可以跟隨項(xiàng)目的更新一點(diǎn)點(diǎn)向里面添加

import scrapy
class DmozItem(scrapy.Item): #創(chuàng)建一個(gè)類烟阐,繼承scrapy.item類,就是繼承人家寫好的容器
title = scrapy.Field() # 需要取哪些內(nèi)容紊扬,就創(chuàng)建哪些容器
link = scrapy.Field()
desc = scrapy.Field()

一個(gè)簡(jiǎn)單的爬蟲小例子

import scrapy
class DmozSpider(scrapy.Spider): # 繼承Spider類
    name = "dmoz" # 爬蟲的唯一標(biāo)識(shí)蜒茄,不能重復(fù),啟動(dòng)爬蟲的時(shí)候要用
    allowed_domains = ["dmoz.org"] # 限定域名珠月,只爬取該域名下的網(wǎng)頁
    start_urls = [ # 開始爬取的鏈接
        "https://www.baidu.com/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2] # 獲取url扩淀,用”/”分段楔敌,獲去倒數(shù)第二個(gè)字段
        with open(filename, 'a') as f:
            f.write(response.body) # 把訪問的得到的網(wǎng)頁源碼寫入文件

里面的parse方法啤挎,這個(gè)方法有兩個(gè)作用
1.負(fù)責(zé)解析start_url下載的Response 對(duì)象,根據(jù)item提取數(shù)據(jù)(解析item數(shù)據(jù)的前提是parse里全部requests請(qǐng)求都被加入了爬取隊(duì)列)
2.如果有新的url則加入爬取隊(duì)列卵凑,負(fù)責(zé)進(jìn)一步處理庆聘,URL的Request 對(duì)象
這兩點(diǎn)簡(jiǎn)單來說就是編寫爬蟲的主要部分

那么爬蟲編寫完,我們需要啟動(dòng)爬蟲

cd XXX

進(jìn)入到你的文件夾下
輸入命令,啟動(dòng)爬蟲

scrapy crawl dmoz

那么啟動(dòng)爬蟲時(shí)發(fā)生了什么勺卢?
Scrapy為Spider的 start_urls 屬性中的每個(gè)url創(chuàng)建了Request 對(duì)象伙判,并將 parse 方法作為回調(diào)函數(shù)(callback)賦值給了requests,而requests對(duì)象經(jīng)過調(diào)度器的調(diào)度,執(zhí)行生成response對(duì)象并送回給parse() 方法進(jìn)行解析,所以請(qǐng)求鏈接的改變是靠回調(diào)函數(shù)實(shí)現(xiàn)的黑忱。

yield scrapy.Request(self.url, callback=self.parse)

三宴抚、Scrapy框架的整體架構(gòu)和組成

先來上一張官方的Scrapy的架構(gòu)圖


953786-20160612162715136-1486217043.jpg

圖中綠色的是數(shù)據(jù)的流向
我們看到圖里有這么幾個(gè)東西,分別是
Spiders:爬蟲甫煞,定義了爬取的邏輯和網(wǎng)頁內(nèi)容的解析規(guī)則菇曲,主要負(fù)責(zé)解析響應(yīng)并生成結(jié)果和新的請(qǐng)求
Engine:引擎,處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理抚吠,出發(fā)事物常潮,框架的核心。
Scheduler:調(diào)度器楷力,接受引擎發(fā)過來的請(qǐng)求喊式,并將其加入隊(duì)列中,在引擎再次請(qǐng)求時(shí)將請(qǐng)求提供給引擎
Downloader:下載器萧朝,下載網(wǎng)頁內(nèi)容岔留,并將下載內(nèi)容返回給spider
ItemPipeline:項(xiàng)目管道,負(fù)責(zé)處理spider從網(wǎng)頁中抽取的數(shù)據(jù)检柬,主要是負(fù)責(zé)清洗献联,驗(yàn)證和向數(shù)據(jù)庫(kù)中存儲(chǔ)數(shù)據(jù)
Downloader Middlewares:下載中間件,是處于Scrapy的Request和Requesponse之間的處理模塊
Spider Middlewares:spider中間件,位于引擎和spider之間的框架酱固,主要處理spider輸入的響應(yīng)和輸出的結(jié)果及新的請(qǐng)求middlewares.py里實(shí)現(xiàn)


是不感覺東西很多械念,很亂,有點(diǎn)懵运悲!沒關(guān)系龄减,框架之所以是框架因?yàn)榇_實(shí)很簡(jiǎn)單
我們?cè)賮砜聪旅娴倪@張圖!你就懂了班眯!


捕獲.JPG
  • 最后我們來順一下scrapy框架的整體執(zhí)行流程:

1.spider的yeild將request發(fā)送給engine
2.engine對(duì)request不做任何處理發(fā)送給scheduler
3.scheduler希停,生成request交給engine
4.engine拿到request,通過middleware發(fā)送給downloader
5.downloader在\獲取到response之后署隘,又經(jīng)過middleware發(fā)送給engine
6.engine獲取到response之后宠能,返回給spider,spider的parse()方法對(duì)獲取到的response進(jìn)行處理磁餐,解析出items或者requests
7.將解析出來的items或者requests發(fā)送給engine
8.engine獲取到items或者requests违崇,將items發(fā)送給ItemPipeline,將requests發(fā)送給scheduler(ps诊霹,只有調(diào)度器中不存在request時(shí)羞延,程序才停止,及時(shí)請(qǐng)求失敗scrapy也會(huì)重新進(jìn)行請(qǐng)求)

四脾还、Scrapy的中間件詳解

中間件詳解因?yàn)閷?shí)在太多了我整理成了x-mind思維導(dǎo)圖伴箩,需要安裝x-mind才能打開,并上傳了百度云盤鄙漏,有需要的可以下載 Scrapy中間件詳解 提取碼:tq8v

五嗤谚、后記

x-mind下載地址
Scrapy官方文檔

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市怔蚌,隨后出現(xiàn)的幾起案子巩步,更是在濱河造成了極大的恐慌,老刑警劉巖媚创,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件渗钉,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡钞钙,警方通過查閱死者的電腦和手機(jī)鳄橘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來芒炼,“玉大人瘫怜,你說我怎么就攤上這事”竟簦” “怎么了鲸湃?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵赠涮,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我暗挑,道長(zhǎng)笋除,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任炸裆,我火速辦了婚禮垃它,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘烹看。我一直安慰自己国拇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布惯殊。 她就那樣靜靜地躺著酱吝,像睡著了一般。 火紅的嫁衣襯著肌膚如雪土思。 梳的紋絲不亂的頭發(fā)上务热,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音浪漠,去河邊找鬼陕习。 笑死霎褐,一個(gè)胖子當(dāng)著我的面吹牛址愿,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播冻璃,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼响谓,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了省艳?” 一聲冷哼從身側(cè)響起娘纷,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎跋炕,沒想到半個(gè)月后赖晶,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡辐烂,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年遏插,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片纠修。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡胳嘲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扣草,到底是詐尸還是另有隱情了牛,我是刑警寧澤颜屠,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站鹰祸,受9級(jí)特大地震影響甫窟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蛙婴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一蕴坪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧敬锐,春花似錦背传、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至颤介,卻和暖如春梳星,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背滚朵。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工冤灾, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人辕近。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓韵吨,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親移宅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子归粉,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,655評(píng)論 4 46
  • 說起寫爬蟲,大多數(shù)第一時(shí)間想到的就是python了漏峰。python語法簡(jiǎn)潔明了糠悼,加上及其豐富好用的庫(kù),用它來寫爬蟲有...
    瘋狂的哈丘閱讀 8,157評(píng)論 1 15
  • 文件目錄說明: scrapy.cfg: 項(xiàng)目的配置文件 tutorial/: 該項(xiàng)目的python模塊浅乔。之后您將在...
    關(guān)鍵先生耶閱讀 563評(píng)論 0 0
  • 項(xiàng)目中有這樣一個(gè)需求倔喂,在某帖子里點(diǎn)擊某一條評(píng)論的時(shí)候,彈出對(duì)話框讓用戶選擇是刪除評(píng)論還是回復(fù)評(píng)論靖苇,當(dāng)用戶點(diǎn)擊回復(fù)評(píng)...
    SnowDragonYY閱讀 4,551評(píng)論 0 1
  • 數(shù)組和切片 創(chuàng)建切片跟創(chuàng)建數(shù)組唯一的區(qū)別在于 Type 前的“ [] ”中是否有數(shù)字席噩,為空,則代表切片顾复,否則則代表...
    江小石閱讀 195評(píng)論 0 0