前言
我這兩天想復(fù)習(xí)一下Scrapy框架,然后看了看自己之前的筆記叮盘,發(fā)現(xiàn)總結(jié)的有點(diǎn)亂,本來心思在網(wǎng)上找找資料霹俺,然后發(fā)現(xiàn)網(wǎng)上的也是有點(diǎn)亂和我之前總結(jié)的都差不多柔吼,所以我心思好好總結(jié)一下,然后和大家分享一下
先說下我總結(jié)的思路丙唧,分為四步走:
1.Scrapy框架的安裝
2.Scrapy的簡(jiǎn)單使用
3.Scrapy的整體架構(gòu)和組成
4.Scrapy的中間件詳解
一愈魏、Scrapy框架的安裝
Scrapy框架因?yàn)楣δ苁謴?qiáng)大,所以依賴很多庫(kù)想际,不能直接安裝培漏,需要先安裝依賴庫(kù),因?yàn)槲业碾娔X在Windows下胡本,所以這里展示W(wǎng)indows下的安裝方法(如果有其他平臺(tái)的需要牌柄,歡迎給我留言我在發(fā)出來)
需要安裝4個(gè)依賴庫(kù)分別是
- lxml(這個(gè)最重要),使用pip命令安裝
pip3 install lxml
若沒有報(bào)錯(cuò)打瘪,則安裝成功友鼻,如果報(bào)錯(cuò)提示缺少libxml2 庫(kù),可以使用wheel文件進(jìn)行安裝 libxml2
- pyOpenSSL
需要在官網(wǎng)下載wheel文件 pyOpenssL
下載后使用
pip3 install pyOpenSSL-17.2.0-py2.py3-none-any.whl
安裝即可
- Twisted
同理闺骚,需要在官網(wǎng)下載wheel文件 Twisted,但是有一件事彩扔,一定要記得在控制臺(tái)下輸入
python
查看你的電腦版本和python版本,然后在上面的地址中下載對(duì)應(yīng)的wheel文件
然后使用命令安裝
pip3 install Twisted-17.5.0-cp36-cp36m-win_amd64.whl
- PyWin32
在官網(wǎng)下載對(duì)應(yīng)版本的安裝包雙擊安裝即可 pywin32
在依賴包全部安裝成功前提下安裝Scrapy框架僻爽,使用pip命令
pip3 install Scrapy
就證明 Scrapy 已經(jīng)安裝好了
二虫碉、Scrapy框架的簡(jiǎn)單使用
使用之前你要清楚這么一件事,Scrapy框架和你自己編寫的區(qū)別胸梆,我理解的區(qū)別就是沒什么區(qū)別敦捧,你編寫的爬蟲也是為了抓取數(shù)據(jù),框架也是為了抓取數(shù)據(jù)碰镜,唯一有一定不同的就是兢卵,不管是我們現(xiàn)在所說的Scrapy框架還是其他的爬蟲框架都是使爬蟲功能模塊話,把各種爬蟲需求分開來绪颖,你只要使用你的項(xiàng)目所需要的模塊就夠了秽荤!
你還需要知道這么幾條常用的命令
創(chuàng)建項(xiàng)目:scrapy startproject xxx
進(jìn)入項(xiàng)目:cd xxx #進(jìn)入某個(gè)文件夾下
創(chuàng)建爬蟲:scrapy genspider xxx(爬蟲名) xxx.com (爬取域)
生成文件:scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運(yùn)行爬蟲:scrapy crawl XXX
列出所有爬蟲:scrapy list
獲得配置信息:scrapy settings [options]
那么我們現(xiàn)在來說說Scrapy框架的基本使用也是一樣分為幾部分
1.scrapy startproject tutorial
我們來看看Scrapy項(xiàng)目下都有些什么
scrapy.cfg: 項(xiàng)目的配置文件
tutorial/: 該項(xiàng)目的python模塊。在此放入代碼(核心)
tutorial/items.py: 項(xiàng)目中的item文件.(這是創(chuàng)建容器的地方,爬取的信息分別放到不同容器里)
tutorial/pipelines.py: 項(xiàng)目中的pipelines文件.
tutorial/settings.py: 項(xiàng)目的設(shè)置文件.(我用到的設(shè)置一下基礎(chǔ)參數(shù)窃款,比如加個(gè)文件頭课兄,設(shè)置一個(gè)編碼)
tutorial/spiders/: 放置spider代碼的目錄. (放爬蟲的地方)
容器(items)的定義,容器不一定是一開始全部都定義好的晨继,可以跟隨項(xiàng)目的更新一點(diǎn)點(diǎn)向里面添加
import scrapy
class DmozItem(scrapy.Item): #創(chuàng)建一個(gè)類烟阐,繼承scrapy.item類,就是繼承人家寫好的容器
title = scrapy.Field() # 需要取哪些內(nèi)容紊扬,就創(chuàng)建哪些容器
link = scrapy.Field()
desc = scrapy.Field()
一個(gè)簡(jiǎn)單的爬蟲小例子
import scrapy
class DmozSpider(scrapy.Spider): # 繼承Spider類
name = "dmoz" # 爬蟲的唯一標(biāo)識(shí)蜒茄,不能重復(fù),啟動(dòng)爬蟲的時(shí)候要用
allowed_domains = ["dmoz.org"] # 限定域名珠月,只爬取該域名下的網(wǎng)頁
start_urls = [ # 開始爬取的鏈接
"https://www.baidu.com/"
]
def parse(self, response):
filename = response.url.split("/")[-2] # 獲取url扩淀,用”/”分段楔敌,獲去倒數(shù)第二個(gè)字段
with open(filename, 'a') as f:
f.write(response.body) # 把訪問的得到的網(wǎng)頁源碼寫入文件
里面的parse方法啤挎,這個(gè)方法有兩個(gè)作用
1.負(fù)責(zé)解析start_url下載的Response 對(duì)象,根據(jù)item提取數(shù)據(jù)(解析item數(shù)據(jù)的前提是parse里全部requests請(qǐng)求都被加入了爬取隊(duì)列)
2.如果有新的url則加入爬取隊(duì)列卵凑,負(fù)責(zé)進(jìn)一步處理庆聘,URL的Request 對(duì)象
這兩點(diǎn)簡(jiǎn)單來說就是編寫爬蟲的主要部分
那么爬蟲編寫完,我們需要啟動(dòng)爬蟲
cd XXX
進(jìn)入到你的文件夾下
輸入命令,啟動(dòng)爬蟲
scrapy crawl dmoz
那么啟動(dòng)爬蟲時(shí)發(fā)生了什么勺卢?
Scrapy為Spider的 start_urls 屬性中的每個(gè)url創(chuàng)建了Request 對(duì)象伙判,并將 parse 方法作為回調(diào)函數(shù)(callback)賦值給了requests,而requests對(duì)象經(jīng)過調(diào)度器的調(diào)度,執(zhí)行生成response對(duì)象并送回給parse() 方法進(jìn)行解析,所以請(qǐng)求鏈接的改變是靠回調(diào)函數(shù)實(shí)現(xiàn)的黑忱。
yield scrapy.Request(self.url, callback=self.parse)
三宴抚、Scrapy框架的整體架構(gòu)和組成
先來上一張官方的Scrapy的架構(gòu)圖
圖中綠色的是數(shù)據(jù)的流向
我們看到圖里有這么幾個(gè)東西,分別是
Spiders:爬蟲甫煞,定義了爬取的邏輯和網(wǎng)頁內(nèi)容的解析規(guī)則菇曲,主要負(fù)責(zé)解析響應(yīng)并生成結(jié)果和新的請(qǐng)求
Engine:引擎,處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理抚吠,出發(fā)事物常潮,框架的核心。
Scheduler:調(diào)度器楷力,接受引擎發(fā)過來的請(qǐng)求喊式,并將其加入隊(duì)列中,在引擎再次請(qǐng)求時(shí)將請(qǐng)求提供給引擎
Downloader:下載器萧朝,下載網(wǎng)頁內(nèi)容岔留,并將下載內(nèi)容返回給spider
ItemPipeline:項(xiàng)目管道,負(fù)責(zé)處理spider從網(wǎng)頁中抽取的數(shù)據(jù)检柬,主要是負(fù)責(zé)清洗献联,驗(yàn)證和向數(shù)據(jù)庫(kù)中存儲(chǔ)數(shù)據(jù)
Downloader Middlewares:下載中間件,是處于Scrapy的Request和Requesponse之間的處理模塊
Spider Middlewares:spider中間件,位于引擎和spider之間的框架酱固,主要處理spider輸入的響應(yīng)和輸出的結(jié)果及新的請(qǐng)求middlewares.py里實(shí)現(xiàn)
是不感覺東西很多械念,很亂,有點(diǎn)懵运悲!沒關(guān)系龄减,框架之所以是框架因?yàn)榇_實(shí)很簡(jiǎn)單
我們?cè)賮砜聪旅娴倪@張圖!你就懂了班眯!
- 最后我們來順一下scrapy框架的整體執(zhí)行流程:
1.spider的yeild將request發(fā)送給engine
2.engine對(duì)request不做任何處理發(fā)送給scheduler
3.scheduler希停,生成request交給engine
4.engine拿到request,通過middleware發(fā)送給downloader
5.downloader在\獲取到response之后署隘,又經(jīng)過middleware發(fā)送給engine
6.engine獲取到response之后宠能,返回給spider,spider的parse()方法對(duì)獲取到的response進(jìn)行處理磁餐,解析出items或者requests
7.將解析出來的items或者requests發(fā)送給engine
8.engine獲取到items或者requests违崇,將items發(fā)送給ItemPipeline,將requests發(fā)送給scheduler(ps诊霹,只有調(diào)度器中不存在request時(shí)羞延,程序才停止,及時(shí)請(qǐng)求失敗scrapy也會(huì)重新進(jìn)行請(qǐng)求)
四脾还、Scrapy的中間件詳解
中間件詳解因?yàn)閷?shí)在太多了我整理成了x-mind思維導(dǎo)圖伴箩,需要安裝x-mind才能打開,并上傳了百度云盤鄙漏,有需要的可以下載 Scrapy中間件詳解 提取碼:tq8v