好的網(wǎng)絡(luò)爬蟲,首先需要遵守Robots協(xié)議。Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取咧七,哪些頁面不能抓取。
在網(wǎng)站根目錄下放一個robots.txt文本文件(如 https://www.taobao.com/robots.txt )任斋,里面可以指定不同的網(wǎng)絡(luò)爬蟲能訪問的頁面和禁止訪問的頁面继阻,指定的頁面由正則表達式表示。網(wǎng)絡(luò)爬蟲在采集這個網(wǎng)站之前仁卷,首先獲取到這個robots.txt文本文件穴翩,然后解析到其中的規(guī)則,然后根據(jù)規(guī)則來采集網(wǎng)站的數(shù)據(jù)锦积。
1. Robots協(xié)議規(guī)則
注意: 一個英文要大寫芒帕,冒號是英文狀態(tài)下,冒號后面有一個空格丰介,"/"代表整個網(wǎng)站
2. Robots協(xié)議舉例
禁止所有機器人訪問
User-agent: *
Disallow: /
允許所有機器人訪問
User-agent: *
Disallow:
禁止特定機器人訪問
User-agent: BadBot
Disallow: /
允許特定機器人訪問
User-agent: GoodBot
Disallow:
禁止訪問特定目錄
User-agent: *
Disallow: /images/
僅允許訪問特定目錄
User-agent: *
Allow: /images/
Disallow: /
禁止訪問特定文件
User-agent: *
Disallow: /*.html$
僅允許訪問特定文件
User-agent: *
Allow: /*.html$
Disallow: /