文章出處:【scrapy】學(xué)習(xí)Scrapy入門
整體結(jié)構(gòu)
引擎(Scrapy Engine)轴术,用來處理整個系統(tǒng)的數(shù)據(jù)流處理,觸發(fā)事務(wù)钦无。
調(diào)度器(Scheduler)逗栽,用來接受引擎發(fā)過來的請求,壓入隊(duì)列中失暂,并在引擎再次請求的時候返回祭陷。
下載器(Downloader),用于下載網(wǎng)頁內(nèi)容趣席,并將網(wǎng)頁內(nèi)容返回給蜘蛛兵志。
蜘蛛(Spiders),蜘蛛是主要干活的宣肚,用它來制訂特定域名或網(wǎng)頁的解析規(guī)則想罕。編寫用于分析response并提取item(即獲取到的item)或額外跟進(jìn)的URL的類。 每個spider負(fù)責(zé)處理一個特定(或一些)網(wǎng)站霉涨。
項(xiàng)目管道(Item Pipeline)按价,負(fù)責(zé)處理有蜘蛛從網(wǎng)頁中抽取的項(xiàng)目,他的主要任務(wù)是清晰笙瑟、驗(yàn)證和存儲數(shù)據(jù)楼镐。當(dāng)頁面被蜘蛛解析后,將被發(fā)送到項(xiàng)目管道往枷,并經(jīng)過幾個特定的次序處理數(shù)據(jù)框产。
下載器中間件(Downloader Middlewares),位于Scrapy引擎和下載器之間的鉤子框架错洁,主要是處理Scrapy引擎與下載器之間的請求及響應(yīng)秉宿。
蜘蛛中間件(Spider Middlewares),介于Scrapy引擎和蜘蛛之間的鉤子框架屯碴,主要工作是處理蜘蛛的響應(yīng)輸入和請求輸出描睦。
調(diào)度中間件(Scheduler Middlewares),介于Scrapy引擎和調(diào)度之間的中間件导而,從Scrapy引擎發(fā)送到調(diào)度的請求和響應(yīng)忱叭。
作者:JasonDing
鏈接:http://www.reibang.com/p/a8aad3bf4dc4
來源:簡書
著作權(quán)歸作者所有隔崎。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處韵丑。