Scrapy總結(jié)

scrapy框架是什么:

scrapy是用純Python實(shí)現(xiàn)的一個(gè)為了爬去網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)數(shù)據(jù)而編寫的應(yīng)用框架.

scrapy框架的工作流程:
scrapy.jpeg
#個(gè)個(gè)模塊之間的作用:
Scrapy Engine(引擎): 負(fù)責(zé)Spider、ItemPipeline、Downloader俊戳、Scheduler中間的通訊汉柒,信號(hào)、數(shù)據(jù)傳遞等崎脉。

Scheduler(調(diào)度器): 它負(fù)責(zé)接受引擎發(fā)送過來的Request請(qǐng)求,并按照一定的方式進(jìn)行整理排列,入隊(duì)蜕衡,當(dāng)引擎需要時(shí),交還給引擎设拟。

Downloader(下載器):負(fù)責(zé)下載Scrapy ##Engine(引擎)發(fā)送的所有Requests請(qǐng)求慨仿,并將其獲取到的Responses交還給Scrapy ##Engine(引擎),由引擎交給Spider來處理纳胧,

Spider(爬蟲):它負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù)镰吆,獲取Item字段需要的數(shù)據(jù),并將需要跟進(jìn)的URL提交給引擎跑慕,再次進(jìn)入Scheduler(調(diào)度器)万皿,

Item Pipeline(管道):它負(fù)責(zé)處理Spider中獲取到的Item,并進(jìn)行進(jìn)行后期處理(詳細(xì)分析核行、過濾牢硅、存儲(chǔ)等)的地方.

Downloader Middlewares(下載中間件):你可以當(dāng)作是一個(gè)可以自定義擴(kuò)展下載功能的組件。

#Spider Middlewares(Spider中間件):你可以理解為是一個(gè)可以自定擴(kuò)展和操作引擎和##Spider中間通信的功能組件(比如進(jìn)入Spider的Responses;和從Spider出去的Requests)
c893ae3b-5557-4649-9b48-c8748d3936cd.png

介紹完了scrapy的工作流程之后我們就可以開始爬蟲項(xiàng)目了!!

1:新建一個(gè)項(xiàng)目: scapy startproject 我的爬蟲名稱
項(xiàng)目新建完成之后我們要進(jìn)入spider文件下再創(chuàng)建你的爬蟲文件, scrapy genspider 爬蟲文件名稱 爬蟲域

創(chuàng)建完了項(xiàng)目之后我們就可一制作我們的爬蟲了打開我們創(chuàng)建的爬蟲文件,我們可以看到默認(rèn)代碼如下:
-- coding: utf-8 --
import scrapy
class JobboleSpider(scrapy.Spider):

name = '爬蟲名稱'
allowed_domains = ['默認(rèn)域']
start_urls = ['起始URL']
def parse(self, response):
    pass

再然后就可以直接使用選擇器進(jìn)行獲取數(shù)據(jù)了

scrapy框架是什么:

scrapy是用純Python實(shí)現(xiàn)的一個(gè)為了爬去網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)數(shù)據(jù)而編寫的應(yīng)用框架.

scrapy框架的工作流程:
scrapy.jpeg
#個(gè)個(gè)模塊之間的作用:
Scrapy Engine(引擎): 負(fù)責(zé)Spider芝雪、ItemPipeline减余、Downloader、Scheduler中間的通訊惩系,信號(hào)位岔、數(shù)據(jù)傳遞等。

Scheduler(調(diào)度器): 它負(fù)責(zé)接受引擎發(fā)送過來的Request請(qǐng)求堡牡,并按照一定的方式進(jìn)行整理排列抒抬,入隊(duì),當(dāng)引擎需要時(shí)晤柄,交還給引擎擦剑。

Downloader(下載器):負(fù)責(zé)下載Scrapy ##Engine(引擎)發(fā)送的所有Requests請(qǐng)求,并將其獲取到的Responses交還給Scrapy ##Engine(引擎),由引擎交給Spider來處理抓于,

Spider(爬蟲):它負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù)做粤,獲取Item字段需要的數(shù)據(jù),并將需要跟進(jìn)的URL提交給引擎捉撮,再次進(jìn)入Scheduler(調(diào)度器)怕品,

Item Pipeline(管道):它負(fù)責(zé)處理Spider中獲取到的Item,并進(jìn)行進(jìn)行后期處理(詳細(xì)分析巾遭、過濾肉康、存儲(chǔ)等)的地
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市灼舍,隨后出現(xiàn)的幾起案子吼和,更是在濱河造成了極大的恐慌,老刑警劉巖骑素,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件炫乓,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡献丑,警方通過查閱死者的電腦和手機(jī)末捣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來创橄,“玉大人箩做,你說我怎么就攤上這事⊥孜罚” “怎么了邦邦?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)醉蚁。 經(jīng)常有香客問我燃辖,道長(zhǎng),這世上最難降的妖魔是什么馍管? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任郭赐,我火速辦了婚禮薪韩,結(jié)果婚禮上确沸,老公的妹妹穿的比我還像新娘。我一直安慰自己俘陷,他們只是感情好罗捎,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著拉盾,像睡著了一般桨菜。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天倒得,我揣著相機(jī)與錄音泻红,去河邊找鬼。 笑死霞掺,一個(gè)胖子當(dāng)著我的面吹牛谊路,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播菩彬,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼缠劝,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了骗灶?” 一聲冷哼從身側(cè)響起惨恭,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎耙旦,沒想到半個(gè)月后脱羡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡免都,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年轻黑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琴昆。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡氓鄙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出业舍,到底是詐尸還是另有隱情抖拦,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布舷暮,位于F島的核電站态罪,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏下面。R本人自食惡果不足惜复颈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望沥割。 院中可真熱鬧耗啦,春花似錦、人聲如沸机杜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽椒拗。三九已至似将,卻和暖如春获黔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背在验。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工玷氏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人腋舌。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓预茄,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親侦厚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子耻陕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • scrapy框架是什么: scrapy是用純Python實(shí)現(xiàn)的一個(gè)為了爬去網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)數(shù)據(jù)而編寫的應(yīng)用框架....
    5482698閱讀 275評(píng)論 0 0
  • scrapy簡(jiǎn)介: scrapy是一個(gè)基于Twisted的異步處理框架,是純python實(shí)現(xiàn)的爬蟲框架刨沦,其架構(gòu)清晰...
    會(huì)說話的烏鴉閱讀 2,206評(píng)論 0 1
  • #scrapy框架是什么: #####scrapy是用純Python實(shí)現(xiàn)的一個(gè)為了爬去網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)數(shù)據(jù)而編寫...
    han吶閱讀 339評(píng)論 0 0
  • 聽說想诅,每一個(gè)拖延癥患者的大腦召庞,都有一只及時(shí)行樂的猴子,關(guān)鍵時(shí)刻總會(huì)出來?yè)屵^決策的方向盤来破,阻擋你工作篮灼,帶你去及時(shí)行樂...
    一葉子閱讀 293評(píng)論 0 2
  • 今天我去買花了,這些花是送給老師的徘禁,我一定覺得老師喜歡诅诱,最后就吃飯了。
    軒仔1111兮寶閱讀 262評(píng)論 0 1