robots.txt是一個(gè)純文本文件绞愚,是搜索引擎蜘蛛爬行網(wǎng)站的時(shí)候要訪問的第一個(gè)文件馋没,當(dāng)蜘蛛訪問一個(gè)站點(diǎn)時(shí)辟犀,它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt械蹋,如果存在人断,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍,相當(dāng)于網(wǎng)站與搜索引蜘蛛遵循協(xié)議朝蜘,如果該文件不存在恶迈,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被屏蔽的網(wǎng)頁。
robots的語法:
1谱醇、User-agent 定義搜索引擎暇仲。一般情況下,網(wǎng)站里面都是:User-agent: 副渴,這里的意思是所有奈附,表示定義所有的搜索引擎。比如煮剧,我想定義百度斥滤,那么就是User-agent: Baiduspider;定義google将鸵,User-agent: Googlebot。
2佑颇、Disallow 禁止爬取顶掉。如,我想禁止爬取我的admin文件夾挑胸,那就是Disallow: /admin/痒筒。禁止爬取admin文件夾下的login.html,
Disallow: /admin/login.html茬贵。
3簿透、Allow 允許。我們都知道解藻,在默認(rèn)情況下老充,都是允許的。那為什么還要允許這個(gè)語法呢?舉個(gè)例子:我想禁止admin文件夾下的所有文件螟左,除了.html的網(wǎng)頁蚂维,那怎么寫呢?我們知道可以用Disallow一個(gè)一個(gè)禁止,但那樣太費(fèi)時(shí)間很精力了路狮。這時(shí)候運(yùn)用Allow就解決了復(fù)雜的問題,就這樣寫:
Allow: /admin/.html$
Disallow: /admin/蔚约。
4奄妨、$ 結(jié)束符。例:Disallow: .php$ 這句話的意思是苹祟,屏蔽所有的以.php結(jié)尾的文件砸抛,不管前面有多長的URL,如abc/aa/bb//index.php也是屏蔽的树枫。
5直焙、* 通配符符號0或多個(gè)任意字符。例:Disallow: ? 這里的意思是屏蔽所有帶“?”文件砂轻,也是屏蔽所有的動(dòng)態(tài)URL奔誓。
robots.txt文件寫法舉例說明
禁止Google/百度等所有搜索引擎訪問整個(gè)網(wǎng)站
User-agent: *
Disallow: /
允許所有的搜索引擎spider訪問整個(gè)網(wǎng)站(Disallow:可以用Allow: /替代)
User-agent: *
Disallow:
禁止Baiduspider訪問您的網(wǎng)站,Google等其他搜索引擎不阻止
User-agent: Baiduspider
Disallow: /
只允許Google spider: Googlebot訪問您的網(wǎng)站搔涝,禁止百度等其他搜索引擎
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止搜索引擎蜘蛛spider訪問指定目錄
(spider不訪問這幾個(gè)目錄厨喂。每個(gè)目錄要分開聲明,不能合在一起)
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /~jjjj/
禁止搜索引擎spider訪問指定目錄庄呈,但允許訪問該指定目錄的某個(gè)子目錄
User-agent: *
Allow: /admin/far
Disallow: /admin/
使用通配符星號""設(shè)置禁止訪問的url
(禁止所有搜索引擎抓取/cgi-bin/目錄下的所有以".html"格式的網(wǎng)頁(包含子目錄))
User-agent: *
Disallow: /cgi-bin/.html
使用美元符號"$"設(shè)置禁止訪問某一后綴的文件
(只允許訪問以".html"格式的網(wǎng)頁文件蜕煌。)
User-agent: *
Allow: .html$
Disallow: /
阻止google、百度等所有搜索引擎訪問網(wǎng)站中所有帶有?的動(dòng)態(tài)網(wǎng)址頁面
User-agent: *
Disallow: /?
阻止Google spider:Googlebot訪問網(wǎng)站上某種格式的圖片
(禁止訪問.jpg 格式的圖片)
User-agent: Googlebot
Disallow: .jpg$
只允許Google spider:Googlebot抓取網(wǎng)頁和.gif格式圖片
(Googlebot只能抓取gif格式的圖片和網(wǎng)頁诬留,其他格式的圖片被禁止斜纪;
其他搜索引擎未設(shè)置)
User-agent: Googlebot
Allow: .gif$
Disallow: .jpg$
.......
只禁止Google spider:Googlebot抓取.jpg格式圖片
(其他搜索引擎和其他格式圖片沒有禁止)
User-agent: Googlebot
Disallow: .jpg$
國內(nèi)的搜索引擎蜘蛛
百度蜘蛛:baiduspider
搜狗蜘蛛:sogou spider
有道蜘蛛:YodaoBot和OutfoxBot
搜搜蜘蛛: Sosospider
國外的搜索引擎蜘蛛
google蜘蛛: googlebot
yahoo蜘蛛:Yahoo贫母! Slurp
alexa蜘蛛:ia_archiver
bing蜘蛛(MSN):msnbot