通過robots.txt來限制爬蟲
robots.txt是一個限制爬蟲的規(guī)范,該文件是用來聲明哪些東西不能被爬取顽铸。如果根目錄存在該文件,爬蟲就會按照文件的內(nèi)容來爬取指定的范圍簸淀。
因國內(nèi)大部分虛擬主機(jī)限制了每月的流量租幕,在通過空間商提供的控制面板查看訪問流量時發(fā)現(xiàn)非瀏覽器瀏覽占去大量的流量拧簸,通過查看:
搜索引擎網(wǎng)站的機(jī)器人發(fā)現(xiàn)大量流量是被Unknown robot (identified by ‘spider’)、Unknown robot (identified by 'robot')消耗掉,除了百度歉眷,GOOGLE等常見搜索引擎蜘蛛外颤枪,有些不知名搜索引擎蜘蛛違規(guī)胡亂爬行我們的網(wǎng)站畏纲,造成流量被大量消耗和占用CPU資源,導(dǎo)致網(wǎng)站訪問速度變慢盗胀,超出流量還需要單獨(dú)再付費(fèi)購買流量,給客戶造成經(jīng)濟(jì)負(fù)擔(dān)女阀。那么我們需要做一些設(shè)置將其屏蔽屑迂。為客戶快速解決這個問題。?
robots.txt爬蟲協(xié)議 對正規(guī)的搜索引擎會有效的榛,但對一些不知名的搜索引擎可能會無效逻锐,現(xiàn)在GOOGLE被國內(nèi)封鎖,如果你的用戶是國內(nèi)客戶晓淀,可以將GOOGLE搜索引擎一起屏蔽掉盏档。 以下代碼為:
禁止除百度、360外的一切搜索引擎索引你的網(wǎng)站
User-agent: Baiduspider
User-agent: 360spider
Disallow: User-agent: *
Disallow: /
?在網(wǎng)站根目錄下創(chuàng)建名為robots.txt的記事本文件懦窘,把以上代碼的紅色部份放到robots.txt內(nèi)即可稚配。
User-agent為充許某個搜索引擎索引你的網(wǎng)站。如要增加搜狗:Sogou web spider午衰、有道:YoudaoBot等,增加User-agent即可臊岸。
如果對代碼不熟悉,可以通過在線生成工具操作生成灯帮。tool.chinaz.com/robots/
User-agent: *? ? ? ? ?對所有蜘蛛開放
Allow: /? ? ? ? ? ? ? ? ? 允許訪問子目錄
Sitemap: http://###########/sitemap.xml? ? ? 指定網(wǎng)站地圖
User-agent: Baiduspider? ? ? ?允許百度蜘蛛
User-agent: 360spider? ? ? ? ? 允許360蜘蛛
Disallow: User-agent: *? ? ? ? ?關(guān)閉向所有蜘蛛開放的通道
Disallow: /? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 不允許訪問子目錄