Scrapy爬蟲-簡介

文:鄭元春

人生苦短,我用Python

由于最近需要做些大數(shù)據(jù)分析的工作,所以就學(xué)習了寫下爬蟲了,畢竟數(shù)據(jù)才是分析的基礎(chǔ)靶端。如果能夠得到了數(shù)據(jù),那么你的數(shù)據(jù)挖掘或者是數(shù)據(jù)分析工作就已經(jīng)成功了一半凛膏。

什么是Scrapy杨名?

Scrapy is a fast high-level web crawling and web scraping framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.
項目文檔:Scrapy文檔
項目Git:源碼

首先,先放上Scrapy的原理圖:


scrapy各組件示意
scrapy各組件示意

綠色的箭頭表示的是數(shù)據(jù)的流動方向猖毫。

通過看上面的示意圖台谍,我們可以看出最主要的核心部件是Scrapy Engine,;另外還有Scheduler + Downlodaer + Spiders + Item Pipeline 四個功能部件吁断,除此之外還有自己配置的 Downloader Middleware+Spider Middleware兩個可自由配置的拓展中間件趁蕊。

1.Scrapy Engine
這是Scrapy的爬蟲核心坞生,主要負責控制系統(tǒng)各個部件之間的data flow,以及當特定事件發(fā)生的時候觸發(fā)event掷伙。

2.Scheduler
接受engine發(fā)來的requests放入隊列中是己,當engine要求的時候再提供給engine。

3.Downloader
負責拉取下載page并返給engine任柜,engine之后再傳遞給Spiders

4.Spider
用戶自行編寫的代碼類卒废,這部分的用戶代碼主要完成解析response并提取item,或者是
跟進頁面中獲取的額外的link url宙地。

Scrapy 命令

提供了兩種命令方式摔认,一種是全局的命令,不依托Scrapy項目的設(shè)置绸栅。另一種是項目命令级野,必須在項目的路徑中執(zhí)行页屠,兩者的區(qū)別就是是否需要load項目的設(shè)置(這個跟Django的命令行有點相似粹胯,實際上Scrapy的開發(fā)過程受到了Django的影響)

全局命令

startproject
settings
runspider
shell
fetch
view
version

項目命令

crawl
check
list
edit
parse
genspider
deploy
bench

創(chuàng)建項目

scrapy startproject tutorial(你的項目名稱)
可以看出這和Django的命令一樣

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

下面是項目的目錄初始化結(jié)構(gòu),和Django的目錄結(jié)構(gòu)也一樣辰企。

  1. scrapy.cfg是整個項目的設(shè)置文件风纠,用的是ini的設(shè)置方式。
  2. tutorial是和項目一樣的子目錄牢贸,里面的文件就是整個項目的python源碼竹观。
  3. spiders目錄是自行編碼的爬蟲軟件,大部分的邏輯和對頁面的分析都在這里面了潜索。
    一般是你startproject之后臭增,你還要使用genspider 命令生成一個爬蟲程序。

比如使用下面的命令生成一個spider程序:

scrapy genspider dmoz

這是給某個網(wǎng)站進行爬蟲編寫的邏輯代碼竹习。源碼如下:

import scrapy

class DmozSpider(scrapy.Spider):
    name="domz"
    allowed_domains=['demo.org']
    start_urls=[
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self,response):
        print response.url

這就是一個最簡單的爬蟲程序誊抛。這里的class繼承了scrapy的Spider類。必須要定義的變量是name+allowed_domains整陌,name是標志了這個爬蟲的名稱拗窃,后面如果要運行爬蟲程序的話需要使用這個name的值進行啟動,另外一個allowed_domains則是定義了你爬取的域名泌辫,如果是爬蟲在構(gòu)造Request的時候那么需要檢查URL是否在這個域名下随夸,如果是不在這個域名中的URL就不會爬取。

至于start_urls則是指定你的爬蟲需要從哪里開始爬取震放,相當于初始的入口宾毒。

還有一個parse函數(shù),這個是默認的callback函數(shù)殿遂,也就是爬蟲抓取了start_urls里面的網(wǎng)頁之后诈铛,然后download完成之后需要通過這個默認的函數(shù)進行頁面的解析(爬取你敢興趣的數(shù)據(jù))
這里除了name和allowed_domains是不能更改的邪锌,其他的都可以通過其他的方式進行改寫(定制)
下面是基類Spider的源碼,看下就知道你的爬蟲代碼為什么這么寫了癌瘾,當然這只是最簡單的爬蟲觅丰,就爬取了兩個頁面,然后只對爬取的頁面輸出頁面url

Spider代碼1
Spider代碼2

有的教程上面寫的是繼承自BaseSpider妨退,新版中已經(jīng)改成了Spider類妇萄,并且在源碼中聲明了已經(jīng)丟棄了BaseSpider的用法,將BaseSpider指到了Spider類上咬荷。
主要看的是name和start_urls的使用和生成上冠句。還有parse需要在你的類中實現(xiàn)。

上面只是最簡單的爬蟲程序幸乒,還沒涉及到item和pipeline的使用懦底,在命令行中運行下面的指令,就可以啟動爬蟲程序并開始執(zhí)行了罕扎。

scrapy crawl domz

這里crawl后面的參數(shù)就是你在你的子類中寫的name的值聚唐。

參考

1.scrapy 筆記1--smiling博客
2.scrapy筆記2--smiling博客

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市腔召,隨后出現(xiàn)的幾起案子杆查,更是在濱河造成了極大的恐慌,老刑警劉巖臀蛛,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件亲桦,死亡現(xiàn)場離奇詭異,居然都是意外死亡浊仆,警方通過查閱死者的電腦和手機客峭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來抡柿,“玉大人舔琅,你說我怎么就攤上這事∩尘” “怎么了搏明?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長闪檬。 經(jīng)常有香客問我星著,道長,這世上最難降的妖魔是什么粗悯? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任虚循,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘横缔。我一直安慰自己铺遂,他們只是感情好,可當我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布茎刚。 她就那樣靜靜地躺著襟锐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪膛锭。 梳的紋絲不亂的頭發(fā)上粮坞,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天,我揣著相機與錄音初狰,去河邊找鬼莫杈。 笑死,一個胖子當著我的面吹牛奢入,可吹牛的內(nèi)容都是我干的筝闹。 我是一名探鬼主播,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼腥光,長吁一口氣:“原來是場噩夢啊……” “哼关顷!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起柴我,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤解寝,失蹤者是張志新(化名)和其女友劉穎扩然,沒想到半個月后艘儒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡夫偶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年界睁,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兵拢。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡翻斟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出说铃,到底是詐尸還是另有隱情访惜,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布腻扇,位于F島的核電站债热,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏幼苛。R本人自食惡果不足惜窒篱,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧墙杯,春花似錦配并、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至嫉髓,卻和暖如春低滩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背岩喷。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工恕沫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人纱意。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓婶溯,卻偏偏與公主長得像,于是被迫代替她去往敵國和親偷霉。 傳聞我的和親對象是個殘疾皇子迄委,可洞房花燭夜當晚...
    茶點故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內(nèi)容