robots協(xié)議的作用:
Robots協(xié)議(也稱為爬蟲(chóng)協(xié)議噪奄、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取人乓,哪些頁(yè)面不能抓取勤篮。是網(wǎng)絡(luò)資源提供者與搜索引擎之間的道德約定。
robot協(xié)議的位置:
robots.txt文件應(yīng)該放在網(wǎng)站根目錄下色罚。舉例來(lái)說(shuō)碰缔,當(dāng)robots訪問(wèn)一個(gè)網(wǎng)站(比如http://www.abc.com)時(shí),首先會(huì)檢查該網(wǎng)站中是否存在http://www.abc.com/robots.txt這個(gè)文件戳护,如果機(jī)器人找到這個(gè)文件金抡,它就會(huì)根據(jù)這個(gè)文件的內(nèi)容,來(lái)確定它訪問(wèn)權(quán)限的范圍腌且。
解析亞馬遜網(wǎng)站的robots協(xié)議:
1.瀏覽器地址欄輸入:https://www.amazon.com/robots.txt梗肝,查看robots協(xié)議
User-agent: * ——表示所列規(guī)則對(duì)所有爬蟲(chóng)都適用
此外,亞馬遜還對(duì)兩個(gè)爬蟲(chóng)代理進(jìn)行了特殊規(guī)定:
User-agent: Googlebot
User-agent: EtaoSpider
被User-agent指明的爬蟲(chóng)代理铺董,還需遵守User-agent: agentName下所列規(guī)則巫击。
2.查看User-agent: *下,Allow項(xiàng)
Allow: /wishlist/universal* #####表示允許爬蟲(chóng)代理訪問(wèn),wishlist目錄下喘鸟,所有以u(píng)niversal開(kāi)頭的內(nèi)容
Allow: /wishlist/vendor-button*
Allow: /wishlist/get-button*
Allow: /gp/wishlist/universal*
Allow: /gp/wishlist/vendor-button*
Allow: /gp/wishlist/ipad-install*
Allow: /gp/dmusic/promotions/PrimeMusic #####表示允許爬蟲(chóng)代理訪問(wèn)匆绣,PrimeMusic目錄下的所有內(nèi)容
Allow: /gp/dmusic/promotions/AmazonMusicUnlimited
Allow: /gp/offer-listing/B000
Allow: /gp/offer-listing/9000
3.查看Allow項(xiàng)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容
1)wishlist:2)PrimeMusic:
3)AmazonMusicUnlimited