Scrapy爬蟲-簡介

文：鄭元春

人生苦短，我用Python

由于最近需要做些大數(shù)據(jù)分析的工作，所以就學(xué)習了寫下爬蟲了，畢竟數(shù)據(jù)才是分析的基礎(chǔ)靶端。如果能夠得到了數(shù)據(jù)，那么你的數(shù)據(jù)挖掘或者是數(shù)據(jù)分析工作就已經(jīng)成功了一半凛膏。

什么是Scrapy杨名？

Scrapy is a fast high-level web crawling and web scraping framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.
項目文檔:Scrapy文檔
項目Git:源碼

首先，先放上Scrapy的原理圖：

scrapy各組件示意

綠色的箭頭表示的是數(shù)據(jù)的流動方向猖毫。

通過看上面的示意圖台谍，我們可以看出最主要的核心部件是Scrapy Engine,；另外還有Scheduler + Downlodaer + Spiders + Item Pipeline 四個功能部件吁断，除此之外還有自己配置的 Downloader Middleware+Spider Middleware兩個可自由配置的拓展中間件趁蕊。

1.Scrapy Engine
這是Scrapy的爬蟲核心坞生，主要負責控制系統(tǒng)各個部件之間的data flow，以及當特定事件發(fā)生的時候觸發(fā)event掷伙。

2.Scheduler
接受engine發(fā)來的requests放入隊列中是己，當engine要求的時候再提供給engine。

3.Downloader
負責拉取下載page并返給engine任柜，engine之后再傳遞給Spiders

4.Spider
用戶自行編寫的代碼類卒废，這部分的用戶代碼主要完成解析response并提取item，或者是
跟進頁面中獲取的額外的link url宙地。

Scrapy 命令

提供了兩種命令方式摔认，一種是全局的命令，不依托Scrapy項目的設(shè)置绸栅。另一種是項目命令级野，必須在項目的路徑中執(zhí)行页屠，兩者的區(qū)別就是是否需要load項目的設(shè)置（這個跟Django的命令行有點相似粹胯，實際上Scrapy的開發(fā)過程受到了Django的影響）

全局命令

startproject
settings
runspider
shell
fetch
view
version

項目命令

crawl
check
list
edit
parse
genspider
deploy
bench

創(chuàng)建項目

scrapy startproject tutorial(你的項目名稱)
可以看出這和Django的命令一樣

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

下面是項目的目錄初始化結(jié)構(gòu)，和Django的目錄結(jié)構(gòu)也一樣辰企。

scrapy.cfg是整個項目的設(shè)置文件风纠，用的是ini的設(shè)置方式。
tutorial是和項目一樣的子目錄牢贸，里面的文件就是整個項目的python源碼竹观。
spiders目錄是自行編碼的爬蟲軟件，大部分的邏輯和對頁面的分析都在這里面了潜索。
一般是你startproject之后臭增，你還要使用genspider 命令生成一個爬蟲程序。

比如使用下面的命令生成一個spider程序：

scrapy genspider dmoz

這是給某個網(wǎng)站進行爬蟲編寫的邏輯代碼竹习。源碼如下：

import scrapy

class DmozSpider(scrapy.Spider):
    name="domz"
    allowed_domains=['demo.org']
    start_urls=[
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self,response):
        print response.url

這就是一個最簡單的爬蟲程序誊抛。這里的class繼承了scrapy的Spider類。必須要定義的變量是name+allowed_domains整陌，name是標志了這個爬蟲的名稱拗窃，后面如果要運行爬蟲程序的話需要使用這個name的值進行啟動，另外一個allowed_domains則是定義了你爬取的域名泌辫，如果是爬蟲在構(gòu)造Request的時候那么需要檢查URL是否在這個域名下随夸，如果是不在這個域名中的URL就不會爬取。

至于start_urls則是指定你的爬蟲需要從哪里開始爬取震放，相當于初始的入口宾毒。

還有一個parse函數(shù)，這個是默認的callback函數(shù)殿遂，也就是爬蟲抓取了start_urls里面的網(wǎng)頁之后诈铛，然后download完成之后需要通過這個默認的函數(shù)進行頁面的解析（爬取你敢興趣的數(shù)據(jù)）
這里除了name和allowed_domains是不能更改的邪锌，其他的都可以通過其他的方式進行改寫（定制）
下面是基類Spider的源碼，看下就知道你的爬蟲代碼為什么這么寫了癌瘾，當然這只是最簡單的爬蟲觅丰，就爬取了兩個頁面，然后只對爬取的頁面輸出頁面url

Spider代碼1

Spider代碼2

有的教程上面寫的是繼承自BaseSpider妨退，新版中已經(jīng)改成了Spider類妇萄，并且在源碼中聲明了已經(jīng)丟棄了BaseSpider的用法，將BaseSpider指到了Spider類上咬荷。
主要看的是name和start_urls的使用和生成上冠句。還有parse需要在你的類中實現(xiàn)。

上面只是最簡單的爬蟲程序幸乒，還沒涉及到item和pipeline的使用懦底，在命令行中運行下面的指令，就可以啟動爬蟲程序并開始執(zhí)行了罕扎。

scrapy crawl domz

這里crawl后面的參數(shù)就是你在你的子類中寫的name的值聚唐。

參考

1.scrapy 筆記1--smiling博客
2.scrapy筆記2--smiling博客

最后編輯于：2017.12.03 07:24:02

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市腔召，隨后出現(xiàn)的幾起案子杆查，更是在濱河造成了極大的恐慌，老刑警劉巖臀蛛，帶你破解...
沈念sama閱讀 218,284評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件亲桦，死亡現(xiàn)場離奇詭異，居然都是意外死亡浊仆，警方通過查閱死者的電腦和手機客峭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,115評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來抡柿，“玉大人舔琅，你說我怎么就攤上這事∩尘” “怎么了搏明？”我有些...
開封第一講書人閱讀 164,614評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長闪檬。經(jīng)常有香客問我星著，道長，這世上最難降的妖魔是什么粗悯？我笑而不...
開封第一講書人閱讀 58,671評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任虚循，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘横缔。我一直安慰自己铺遂，他們只是感情好，可當我...
茶點故事閱讀 67,699評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布茎刚。她就那樣靜靜地躺著襟锐，像睡著了一般。火紅的嫁衣襯著肌膚如雪膛锭。梳的紋絲不亂的頭發(fā)上粮坞，一...
開封第一講書人閱讀 51,562評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音初狰，去河邊找鬼莫杈。笑死，一個胖子當著我的面吹牛奢入，可吹牛的內(nèi)容都是我干的筝闹。我是一名探鬼主播，決...
沈念sama閱讀 40,309評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼腥光，長吁一口氣：“原來是場噩夢啊……” “哼关顷！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起柴我，我...
開封第一講書人閱讀 39,223評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤解寝，失蹤者是張志新（化名）和其女友劉穎扩然，沒想到半個月后艘儒，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,668評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡夫偶，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,859評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年界睁，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兵拢。...
茶點故事閱讀 39,981評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡翻斟，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出说铃，到底是詐尸還是另有隱情访惜，我是刑警寧澤，帶...
沈念sama閱讀 35,705評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布腻扇，位于F島的核電站债热，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏幼苛。R本人自食惡果不足惜窒篱，卻給世界環(huán)境...
茶點故事閱讀 41,310評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧墙杯，春花似錦配并、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,904評論 0贊 22
一樁弒父案溉旋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至嫉髓，卻和暖如春低滩，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背岩喷。一陣腳步聲響...
開封第一講書人閱讀 33,023評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工恕沫，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人纱意。一個月前我還...
沈念sama閱讀 48,146評論 3贊 370
代替公主和親
正文我出身青樓婶溯，卻偏偏與公主長得像，于是被迫代替她去往敵國和親偷霉。傳聞我的和親對象是個殘疾皇子迄委，可洞房花燭夜當晚...
茶點故事閱讀 44,933評論 2贊 355