在settings.py配置文件中開啟下載中間件的功能讨永,默認是關(guān)閉的
開啟中間鍵
簡單使用了一下如何使用scrapy爬取網(wǎng)站的方法况既,但其他都沒有設(shè)置罪针,這樣很容易被反爬機制發(fā)現(xiàn)啤它,所以在scrapy模板setting中設(shè)置
#下載延時時間會在5秒上下波動
DOWNLOAD_DELAY = 5
#這個是設(shè)置對域名發(fā)起請求時,只有一個工扎,防止被發(fā)現(xiàn)徘钥,也可以設(shè)置多個
CONCURRENT_REQUESTS_PER_DOMAIN?=?1
在settings配置文件中有一個ITEM_PIPELINES的配置參數(shù),例子如下:
ITEM_PIPELINES?=?{
'myproject.pipelines.PricePipeline':300,
'myproject.pipelines.JsonWriterPipeline':800,
}
每個pipeline后面有一個數(shù)值肢娘,這個數(shù)組的范圍是0-1000呈础,這個數(shù)值確定了他們的運行順序,數(shù)字越小越優(yōu)先