Scrapy 架構概覽

１凛驮、Scrapy Engine
　　Scrapy的核心引擎常侣，負責控制數(shù)據(jù)在系統(tǒng)所有組件中的流動蜡饵，并在相應動作發(fā)生時觸發(fā)事件，相當于整個框架的總指揮袭祟。

２、調度器
　　調度器（Scheduler）可以被看作一個優(yōu)先級隊列捞附。它從核心引擎接受request并將它們入隊巾乳，以便之后引擎請求它們時按照優(yōu)先級提供給引擎。

3鸟召、下載器
　　下載器（Download）負責和網(wǎng)絡交胆绊，主要作用是獲取頁面數(shù)據(jù)并提供給引擎，而后提供給spider做解析欧募，下載器在整個Scrapy架構中應該是負擔最重的組件压状，由于其需要和網(wǎng)絡交互，直接影響Scrapy的爬取效率。

４种冬、Spiders
　　Spiders是Sprapy用戶編寫用于分析response并提取item（即獲取到的item）或額外跟進ＵＲＬ的類镣丑。對用戶編寫爬蟲而言，它是最重要的組件娱两。用戶可以在同一個項目中編寫多個spider莺匠，每個spider負責處理一個特定（或一些）的網(wǎng)站。

5十兢、Item Pipeline
　　Item Pipeline負責處理被spider提取出來的Item趣竣。典型的處理有：清理、驗證及持久化（如存儲數(shù)據(jù)）旱物。

6遥缕、下載器中間件
　　下載器中間件（Download Middlewares）是在核心引擎及下載器之間的特定鉤子，負責處理引擎?zhèn)鬟f給下載器的request和下載器傳遞給引擎的response宵呛。其提供了一個簡便的機制单匣，通過插入自定義代碼來擴展Scrapy功能。

７烤蜕、爬蟲中間件
　　爬蟲中間件（Spider　Middlewares)是在核心引擎及spider之間的特定鉤子封孙，處理spider的輸入（response）和輸出（items及requests）。其提供了一個簡便的機制讽营，過插入自定義代碼來擴展Scrapy功能虎忌。

Scrapy 數(shù)據(jù)流詳解

當啟動Scrapy爬蟲時，Scrapy 會產(chǎn)生以下幾個動作：

(１)　引擎將start_urls列表中的ＵＲＬ加近調度器(Scheduler)調度橱鹏。如果重寫了start_urls方法膜蠢，就將最新方法中的ＵＲＬ加近調度器。

(２)　引擎向調度器請求下一個要爬取的ＵＲＬ莉兰。

(３)　調度器給引擎返回下一個要爬取的ＵＲＬ挑围，引擎將ＵＲＬ通過下載中間件【請求（request）方向】轉發(fā)給下載器（Downloader）。

(４)　一旦頁面下載完畢糖荒，下載器生成一個該頁面的response杉辙，并將其通過下載中間件【返回（response）方向】發(fā)送給引擎。

(５)　引擎將下載器中接收到的response并通過爬蟲中間件（輸入方向）發(fā)送給spider處理捶朵。

(６)　spider根據(jù)編寫的提取邏輯蜘矢，處理response并給引擎返回爬取到的Item及（根據(jù)規(guī)則跟進的ｕｒｌ）新的request。

(７)　引擎將（spider返回的）爬取到的Item給Item Pipeline综看，將(spider返回的)request給調度器品腹。

(８)　從第二步重復直到調度器中沒有更多的request，引擎關閉該爬蟲红碑。

每天進步一點點舞吭，　To bend over backwards!

最后編輯于：2019.07.20 22:33:53

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

Scrapy架構概覽及數(shù)據(jù)流

Scrapy 架構概覽

Scrapy 數(shù)據(jù)流詳解

當啟動Scrapy爬蟲時，Scrapy 會產(chǎn)生以下幾個動作：

(１) 引擎將start_urls列表中的ＵＲＬ加近調度器(Scheduler)調度橱鹏。如果重寫了start_urls方法膜蠢，就將最新方法中的ＵＲＬ加近調度器。

(２) 引擎向調度器請求下一個要爬取的ＵＲＬ莉兰。

(３) 調度器給引擎返回下一個要爬取的ＵＲＬ挑围，引擎將ＵＲＬ通過下載中間件【請求（request）方向】轉發(fā)給下載器（Downloader）。

(４) 一旦頁面下載完畢糖荒，下載器生成一個該頁面的response杉辙，并將其通過下載中間件【返回（response）方向】發(fā)送給引擎。

(５) 引擎將下載器中接收到的response并通過爬蟲中間件（輸入方向）發(fā)送給spider處理捶朵。

(６) spider根據(jù)編寫的提取邏輯蜘矢，處理response并給引擎返回爬取到的Item及（根據(jù)規(guī)則跟進的ｕｒｌ）新的request。

(７) 引擎將（spider返回的）爬取到的Item給Item Pipeline综看，將(spider返回的)request給調度器品腹。

(８) 從第二步重復直到調度器中沒有更多的request，引擎關閉該爬蟲红碑。

每天進步一點點舞吭， To bend over backwards!