Scrapy框架學(xué)習(xí)1

scrapy爬蟲框架結(jié)構(gòu)

爬蟲框架

??? 爬蟲框架是實(shí)現(xiàn)爬蟲功能的一個(gè)軟件結(jié)構(gòu)和功能組件的集合

??? 爬蟲框架是一個(gè)半成品潭千,能夠幫助用戶實(shí)現(xiàn)專業(yè)網(wǎng)絡(luò)


“5+2”結(jié)構(gòu)

???? 用戶編寫實(shí)現(xiàn):(? 入口:SPIDERS? ? 出口:ITEMPIPELINES)

???? 已有實(shí)現(xiàn):ENGINE,SCHEDULER,DOWNLOADER

? ?? 模塊的功能

???? 1.Engine

???????????? 不需要用戶修改

???????????? 控制所有模塊之間的數(shù)據(jù)流

???????????? 根據(jù)條件觸發(fā)事件

????? 2.Downloader

???????????? 不需要用戶修改

???????????? 根據(jù)請(qǐng)求下載網(wǎng)頁

?????? 3.Scheduler

???????????? 不需要用戶修改

???????????? 對(duì)所有爬取請(qǐng)求進(jìn)行調(diào)度管理

?????? 4.Downloader Middleware中間件

???????????? 目的:實(shí)施Engine侄榴、Scheluder胖眷、Downloader之間進(jìn)行用戶可配置的控制

???????????? 功能:修改丟棄新增請(qǐng)求或響應(yīng)

???????????? 用戶可以編寫配置代碼

?????? 5.Spider(核心單元)

???????????? 解析Downloader返回的響應(yīng)

???????????? 產(chǎn)生爬取項(xiàng)

???????????? 產(chǎn)生額外的爬取請(qǐng)求

??????? 6.Item pipelines

???????????? 以流水線方式處理Spider產(chǎn)生的爬取項(xiàng)

???????????? 由一組操作順序組成加匈,類似流水線铁追,每個(gè)操作是一個(gè)Item pipeline類型

???????????? 可能操作包括:清理憎兽、檢驗(yàn)和查重爬取項(xiàng)中給的HTML數(shù)據(jù)撑蚌、將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫

???????? 7.Spider? Middleware

? ? ? ? ? ?? 目的:對(duì)請(qǐng)求和爬取項(xiàng)的再處理
? ? ? ? ? ?? 功能:修改丟棄新增請(qǐng)求或爬取項(xiàng)

Requests? vs.? Srcapy


Scrapy框架常用命令

???? cmd -> scrapy -h ->進(jìn)入scrapy命令行??????????
??????????????????????????????????????????????? scrapy常用命令

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末麦撵,一起剝皮案震驚了整個(gè)濱河市刽肠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌免胃,老刑警劉巖音五,帶你破解...
    沈念sama閱讀 221,888評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異羔沙,居然都是意外死亡躺涝,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門扼雏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來坚嗜,“玉大人,你說我怎么就攤上這事诗充〔允撸” “怎么了?”我有些...
    開封第一講書人閱讀 168,386評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵蝴蜓,是天一觀的道長碟绑。 經(jīng)常有香客問我,道長茎匠,這世上最難降的妖魔是什么蜈敢? 我笑而不...
    開封第一講書人閱讀 59,726評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮汽抚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘伯病。我一直安慰自己造烁,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評(píng)論 6 397
  • 文/花漫 我一把揭開白布午笛。 她就那樣靜靜地躺著惭蟋,像睡著了一般。 火紅的嫁衣襯著肌膚如雪药磺。 梳的紋絲不亂的頭發(fā)上告组,一...
    開封第一講書人閱讀 52,337評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音癌佩,去河邊找鬼木缝。 笑死便锨,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的我碟。 我是一名探鬼主播放案,決...
    沈念sama閱讀 40,902評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼矫俺!你這毒婦竟也來了吱殉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,807評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤厘托,失蹤者是張志新(化名)和其女友劉穎友雳,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體铅匹,經(jīng)...
    沈念sama閱讀 46,349評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡押赊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了伊群。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片考杉。...
    茶點(diǎn)故事閱讀 40,567評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖舰始,靈堂內(nèi)的尸體忽然破棺而出崇棠,到底是詐尸還是另有隱情,我是刑警寧澤丸卷,帶...
    沈念sama閱讀 36,242評(píng)論 5 350
  • 正文 年R本政府宣布枕稀,位于F島的核電站,受9級(jí)特大地震影響谜嫉,放射性物質(zhì)發(fā)生泄漏萎坷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評(píng)論 3 334
  • 文/蒙蒙 一沐兰、第九天 我趴在偏房一處隱蔽的房頂上張望哆档。 院中可真熱鬧,春花似錦住闯、人聲如沸瓜浸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽插佛。三九已至,卻和暖如春量窘,著一層夾襖步出監(jiān)牢的瞬間雇寇,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留锨侯,地道東北人嫩海。 一個(gè)月前我還...
    沈念sama閱讀 48,995評(píng)論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像识腿,于是被迫代替她去往敵國和親出革。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 引言 在上篇使用Scrapy爬取知乎用戶信息我們編寫了一個(gè)單機(jī)的爬蟲渡讼,這篇記錄了使用Scrapy-Redis將其重...
    朱曉飛閱讀 6,707評(píng)論 1 24
  • scrapy學(xué)習(xí)筆記(有示例版) 我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,713評(píng)論 4 46
  • scrapy是python最有名的爬蟲框架之一骂束,可以很方便的進(jìn)行web抓取,并且提供了很強(qiáng)的定制型成箫,這里記錄簡單學(xué)...
    bomo閱讀 2,127評(píng)論 1 11
  • Scrapy的架構(gòu)太重要了展箱,單用一篇文章再總結(jié)整合下。前兩張圖來自《Learning Scrapy》蹬昌,第三張圖來自...
    SeanCheney閱讀 2,809評(píng)論 2 5
  • 1 我有個(gè)朋友皂贩,年近40栖榨,平時(shí)工作不忙,但他很少刷朋友圈明刷,也很少發(fā)朋友圈婴栽。常年關(guān)閉微信的這一功能,偶爾會(huì)開一下辈末。 ...
    哎喲喂書屋閱讀 548評(píng)論 0 0