robots.txt簡介
介紹
robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的窖壕。當(dāng)一個搜索蜘蛛訪問一個站點時毁葱,它會首先檢查該站點根目錄下是否存在robots.txt垫言,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍倾剿;如果該文件不存在筷频,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
原則
1前痘、搜索技術(shù)應(yīng)服務(wù)于人類凛捏,同時尊重信息提供者的意愿,并維護(hù)其隱私權(quán)芹缔;
2坯癣、網(wǎng)站有義務(wù)保護(hù)其使用者的個人信息和隱私不被侵犯。
寫法
User-agent: * 這里的*代表的所有的搜索引擎種類最欠,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)示罗。
Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL窒所。
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
Sitemap: 網(wǎng)站地圖 告訴爬蟲這個頁面是網(wǎng)站地圖
位置
robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下鹉勒。舉例來說帆锋,當(dāng)spider訪問一個網(wǎng)站時吵取,首先會檢查該網(wǎng)站中是否存在robots.txt這個文件,如果 Spider找到這個文件锯厢,它就會根據(jù)這個文件的內(nèi)容皮官,來確定它訪問權(quán)限的范圍。
淘寶robots.txt分析
User-agent:? Baiduspider
Allow:? /article
Allow:? /oshtml
Allow:? /wenzhang
Disallow:? /product/
Disallow:? /
User-Agent:? Googlebot
Allow:? /article
Allow:? /oshtml
Allow:? /product
Allow:? /spu
Allow:? /dianpu
Allow:? /wenzhang
Allow:? /oversea
Disallow:? /
User-agent:? Bingbot
Allow:? /article
Allow:? /oshtml
Allow:? /product
Allow:? /spu
Allow:? /dianpu
Allow:? /wenzhang
Allow:? /oversea
Disallow:? /
User-Agent:? 360Spider
Allow:? /article
Allow:? /oshtml
Allow:? /wenzhang
Disallow:? /
User-Agent:? Yisouspider
Allow:? /article
Allow:? /oshtml
Allow:? /wenzhang
Disallow:? /
User-Agent:? Sogouspider
Allow:? /article
Allow:? /oshtml
Allow:? /product
Allow:? /wenzhang
Disallow:? /
User-Agent:? Yahoo!? Slurp
Allow:? /product
Allow:? /spu
Allow:? /dianpu
Allow:? /wenzhang
Allow:? /oversea
Disallow:? /
User-Agent:? *
Disallow:? /
分析:淘寶僅允許百度实辑、Google捺氢、Bing、360剪撬、易搜摄乒、搜狗、Yahoo的蜘蛛訪問残黑,其中Allow:后表示允許訪問馍佑,而Disallow:后表示禁止訪問。淘寶以前是禁止百度訪問的梨水,但近年來對百度蜘蛛開放了訪問權(quán)限拭荤,但仍禁止爬取產(chǎn)品信息。