robots.txt里一般包含三種屬性:
User-Agent: *
Allow: /ads/preferences/
Disallow: /
1. User-Agent
代表本文件對哪些spider有效,當(dāng)然大多數(shù)時(shí)候是*,就是不區(qū)分任何spider
2.Allow
允許訪問斤斧,通常用于描述不允許訪問的集合中允許訪問的子集目錄雏婶,注意要先寫允許訪問的子集合再封禁上級目錄
3. Disallow
不允許訪問搅窿,Disallow: /代表啥都不讓看罚屋,全部不讓訪問鸡捐。
4. 多用戶聲明劃分
User-Agent: A
Disallow: /
User-Agent: B
Allow: /
代表對A封禁整個(gè)站點(diǎn)璧瞬,對B全部放開
5. 文件位置的正則表示
/admin/ 代表admin 文件夾下的所有文件户辫。
/tmp 代表 所有以tmp開頭的文件夾下的所有文件,這里請注意和/tmp/區(qū)分開哦嗤锉。
/cgi-bin/*.htm 代表/cgi-bin/ 目錄下的所有以.htm為后綴的 URL(包含子目錄)渔欢。
/ad/ct.html 代ad 文件夾下的 ct.html 文件。
.htm$ 代表以.htm為后綴的 URL瘟忱。
.gif$ 代表網(wǎng)頁和 GIF 格式的圖片奥额。
/*?* 代表網(wǎng)站中所有包含問號?的網(wǎng)址。
6. sitemap的使用含義
sitemap和htmlmap好像是用于提醒spider本站的高質(zhì)量高價(jià)值的鏈接位置访诱,優(yōu)先表示允許訪問垫挨,即即使被聲明過disallow的鏈接如果出現(xiàn)在sitemap中也是被允許范圍的(聽說如此,未查證触菜,如有質(zhì)疑請?jiān)u論九榔,作為平臺方應(yīng)盡量避免沖突)
附:遺留的疑問(向走過路過的同學(xué)們請教)
Q:如果是robots.txt沒有提及的位置(既沒有被allow也沒有被disallow)是允許訪問的還是不允許訪問的呀
A:默認(rèn)允許訪問。(請教同事)
Q:按照上述邏輯涡相,未提及的agent訪問時(shí)是不是也是默認(rèn)訪問呢哲泊?
Q:按照上述邏輯,默認(rèn)ALLOW那是不是只有DISALLOW文件位置下的文件才有必要去ALLOW呢催蝗?
Q:spider在發(fā)現(xiàn)sitemap時(shí)會(huì)將其全部資源遍歷爬取嗎切威?
Q:Diallow空是什么意思
鏈接http://c.biancheng.net/view/6999.html中寫到:
只禁止某個(gè)搜索引擎訪問,其他搜索引擎允許訪問:
User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow:
可見空是不禁止任何位置的