Scrapy基本流程走通
文章僅供學習话原,如有錯誤瞳购,歡迎指出
創(chuàng)建我們的第一個spider
C:\Users\Alpaca\Desktop\scrapy\1-伯樂在線\firstspider>scrapy genspider myfirstspider www.baidu.com
Created spider 'myfirstspider' using template 'basic' in module:
firstspider.spiders.myfirstspider
不同種類的spider
運行創(chuàng)建爬蟲的命令時粘优,加入-t 我們會發(fā)現(xiàn)他有四種不同的模式
常用的有兩種 basic和crawl
文章之后會對這兩種模板進行介紹
當我們創(chuàng)建完成一個spider的時候
class MyfirstspiderSpider(scrapy.Spider):
name = 'myfirstspider'
allowed_domains = ['www.baidu.com']
start_urls = ['http://www.baidu.com/']
def parse(self, response):
pass
這里用的是basic模板 奏赘,我會在第三篇博客上介紹crawl的模板(相當方便)
他是繼承自spider的
name表示我們蜘蛛的名字 在之后我們啟動項目會用到他 比如
scrapy crawl myfirstspider
后面的兩個參數(shù)其實沒什么用,我們完全可以自己定義
start_urls表示你的第一個進入的網(wǎng)站
scrapy shell
我們做爬蟲的時候幕屹,大致的流程為蓝丙,爬取頁面。得到相應(yīng)后用selector(xss,xpath,beautifulsoup)等工具對頁面篩選望拖。但是我們不可能一邊又一遍的去運行我們的程序渺尘。這個時候我們可以使用scrapy shell命令,在終端進行 測試
scrapy shell www.baidu.com
小心上當
當我們在用css或者xpath去篩選頁面的時候说敏,我們要知道鸥跟,有一些頁面是又js.css3.ajax渲染而成的,因此我們需要得到一個渲染之后的頁面盔沫,這個時候請使用
view(response)