Scrapy基礎——Spider

寫在前面

這是Scrapy學習的基礎部分升酣，大部分內(nèi)容來自于官方文檔的個人解讀山卦，不太適合那些想在30分鐘以內(nèi)學會Scrapy的人學習哮独，但是如果你在看那些xx分鐘入門Scrapy的時候存在疑問烟央，可以翻看這篇查查相關(guān)內(nèi)容夺荒。如果感覺我寫的有任何不對的地方瞒渠，歡迎提出疑問，我會及時回復的技扼。

scrapy.spiders.Spider

scrapy.spiders.Spider是Scrapy框架最核心部分之一伍玖，定義了如何爬取網(wǎng)站和獲取結(jié)構(gòu)化信息等。
查看源碼發(fā)現(xiàn)Spider定義了from_crawler, sest_crawler, start_requests, make_requests_from_url, parse, update_settings, handles_request, close等function剿吻，而在官方文檔規(guī)定了自定義的爬蟲必須繼承Spider類窍箍，要有至少以下幾個模塊：

name: 必須，沒有他scrapy crawl 找不到入口
allowed_domains：可選丽旅，如果你怕從知乎爬到果殼椰棘，請可以定義一個字符串的list，并且OffsiteMiddleware
處于開啟狀態(tài)
start_urls:一個URLs list榄笙，爬蟲的起點網(wǎng)頁
custom_settings：僅在爬蟲運行時覆蓋來自settings的設置邪狞，低手不知道怎么玩
logger: 一個日志記錄者，以后再debug的時候再說吧
from_crawler:這是Scrapy 用于創(chuàng)建自定義爬蟲的類方法(class method)茅撞，目前你不需要對他動手帆卓，這個方法會設置(set)crawler和settings
settings:運行爬蟲時的配置巨朦，是Settings的實例，低手不會玩
crawler:在類初始化后由from_crawler設置鳞疲，鏈接到綁定的spider的Crawler類罪郊，涉及到Crawler API ，低手用不來尚洽。
start_requests():當start_urls有URLS即不為空時悔橄，會調(diào)用start_requests()，接著它會繼續(xù)調(diào)用make_requests_from_url去Request每一個url腺毫。所以我們可以不用定義start_urls癣疟，而在這里自定義一個start_requests，使用其他Request潮酒，如FormRequest然后callbck（反饋）給自定義的parse睛挚。注：start_requests在爬蟲運行只會執(zhí)行一次。
make_requests_from_url(url)：前面說過急黎，這個方法接收urls扎狱，返回reponse, 返回的response會默認(callback)傳遞給parse。
parse(response):如果沒有自定義start_requests()勃教，那么必須定義這個函數(shù)淤击，并且在里面定義網(wǎng)頁數(shù)據(jù)提取方法，十分重要哦故源。
log(message[, level, component]):和上面的logger差不多污抬，debug時候再仔細研究吧
closed(reason):在爬蟲關(guān)閉的時候調(diào)用，不太懂也不會用绳军，這里先占位
Link Extractors(鏈接提取器）是一類用來從返回網(wǎng)頁中提取符合要求的鏈接
Rule有以下幾個參數(shù)

link_extractor為LinkExtractor印机，用于定義需要提取的鏈接。
callback參數(shù)：當link_extractor獲取到鏈接時參數(shù)所指定的值作為回調(diào)函數(shù)门驾。注：不能使用parse作為回調(diào)函數(shù)射赛。
follow：指定了根據(jù)該規(guī)則從response提取的鏈接是否需要跟進。callback為None,默認值為true猎唁。
process_links：主要用來過濾由link_extractor獲取到的鏈接咒劲。
process_request：主要用來過濾在rule中提取到的request。

官方提供的例子：

import scrapy
from myproject.items import MyItem

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']

    def start_requests(self):
        yield scrapy.Request('http://www.example.com/1.html', self.parse)
        yield scrapy.Request('http://www.example.com/2.html', self.parse)
        yield scrapy.Request('http://www.example.com/3.html', self.parse)

    def parse(self, response):
        for h3 in response.xpath('//h3').extract():
            yield MyItem(title=h3)

        for url in response.xpath('//a/@href').extract():
            yield scrapy.Request(url, callback=self.parse)

最后編輯于：2017.12.03 06:41:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末诫隅，一起剝皮案震驚了整個濱河市腐魂，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌逐纬，老刑警劉巖蛔屹，帶你破解...
沈念sama閱讀 222,464評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異豁生，居然都是意外死亡兔毒，警方通過查閱死者的電腦和手機漫贞，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,033評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來育叁，“玉大人迅脐，你說我怎么就攤上這事『浪裕” “怎么了谴蔑？”我有些...
開封第一講書人閱讀 169,078評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長龟梦。經(jīng)常有香客問我隐锭，道長，這世上最難降的妖魔是什么计贰？我笑而不...
開封第一講書人閱讀 59,979評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任钦睡，我火速辦了婚禮，結(jié)果婚禮上躁倒，老公的妹妹穿的比我還像新娘荞怒。我一直安慰自己，他們只是感情好秧秉，可當我...
茶點故事閱讀 69,001評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布挣输。她就那樣靜靜地躺著，像睡著了一般福贞。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上停士，一...
開封第一講書人閱讀 52,584評論 1贊 312
城市分裂傳說
那天挖帘，我揣著相機與錄音，去河邊找鬼恋技。笑死拇舀，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的蜻底。我是一名探鬼主播骄崩，決...
沈念sama閱讀 41,085評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼薄辅！你這毒婦竟也來了要拂？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,023評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤站楚，失蹤者是張志新（化名）和其女友劉穎脱惰，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體窿春，經(jīng)...
沈念sama閱讀 46,555評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡拉一，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,626評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年采盒，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蔚润。...
茶點故事閱讀 40,769評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡磅氨，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出嫡纠，到底是詐尸還是另有隱情烦租，我是刑警寧澤，帶...
沈念sama閱讀 36,439評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布货徙，位于F島的核電站左权，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏痴颊。R本人自食惡果不足惜赏迟，卻給世界環(huán)境...
茶點故事閱讀 42,115評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蠢棱。院中可真熱鬧锌杀，春花似錦、人聲如沸泻仙。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,601評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽玉转。三九已至突想，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間究抓，已是汗流浹背猾担。一陣腳步聲響...
開封第一講書人閱讀 33,702評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刺下，地道東北人绑嘹。一個月前我還...
沈念sama閱讀 49,191評論 3贊 378
代替公主和親
正文我出身青樓，卻偏偏與公主長得像橘茉，于是被迫代替她去往敵國和親工腋。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,781評論 2贊 361

Scrapy基礎——Spider

寫在前面

scrapy.spiders.Spider

推薦閱讀更多精彩內(nèi)容