user-agent池
構(gòu)建cookie池
ip代理來解決
禁用cookie喜命,因為cookie會跟蹤爬蟲的訪問過程。
setting.py中設(shè)置:COOKIES_ENABLED = False
自動限速:
????訪問頁面間隔隨機
ip代理池
Tor代理:洋蔥路由器
分布式下載器Crawlera : 收費內(nèi)容
google cache :網(wǎng)頁快照
scrapy設(shè)置下載延時與自動限速:
? ? ?setting.py :
? ? ? DOWNLOAD_DELAY = 2
? ? ? RANDOM_DOWNLOAD_DELAY = true
自動限速擴展:
? ? ? 該擴展會根據(jù)scrapy服務(wù)器和爬取網(wǎng)站的負(fù)載自動限制爬取速度。