概念
百度百科:robots協(xié)議也叫robots.txt(統(tǒng)一小寫(xiě))是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件迄本,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱(chēng)網(wǎng)絡(luò)蜘蛛)厚掷,此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的屠橄,哪些是可以被漫游器獲取的。因?yàn)橐恍┫到y(tǒng)中的URL是大小寫(xiě)敏感的,所以robots.txt的文件名應(yīng)統(tǒng)一為小寫(xiě)扛吞。robots.txt應(yīng)放置于網(wǎng)站的根目錄下。如果想單獨(dú)定義搜索引擎的漫游器訪(fǎng)問(wèn)子目錄時(shí)的行為荆责,那么可以將自定的設(shè)置合并到根目錄下的robots.txt滥比,或者使用robots元數(shù)據(jù)(Metadata,又稱(chēng)元數(shù)據(jù))做院。
簡(jiǎn)單來(lái)說(shuō)即:robots協(xié)議是一個(gè)君子協(xié)議盲泛,是網(wǎng)站所有者編寫(xiě)的濒持,用來(lái)告訴搜索引擎該網(wǎng)站下的哪些內(nèi)容可以爬取、收錄寺滚,哪些內(nèi)容不可以爬取和收錄柑营。
robots協(xié)議是通用共識(shí),一般來(lái)說(shuō)村视,大型的官套、有資質(zhì)的搜索引擎都會(huì)遵守,robots協(xié)議是網(wǎng)站所有者不想要公開(kāi)在網(wǎng)上的內(nèi)容蓖议,是為了保障個(gè)人隱私虏杰,但是robots協(xié)議里規(guī)定的內(nèi)容是可以獲取的,只是大家默認(rèn)遵守該協(xié)議勒虾,不獲取協(xié)議內(nèi)的內(nèi)容纺阔。
robots協(xié)議是一個(gè)純文本文件,通常是搜索引擎第一個(gè)爬取的文件修然,搜索引擎該文件了解該網(wǎng)站哪些是所有者不想被收錄的內(nèi)容笛钝,進(jìn)行有選擇的爬取和收錄。
文件編寫(xiě)規(guī)則
robots協(xié)議命名為robots.txt愕宋,放在網(wǎng)站的根目錄下玻靡。
簡(jiǎn)單的robots協(xié)議如下:
User-agent: *
Disallow: /*?*
其中User-agent
代表要遵守該協(xié)議的搜索引擎,如果是通配符‘*’中贝,代表所有搜索引擎都要遵守該協(xié)議囤捻。
Disallow
代表不允許搜索引擎訪(fǎng)問(wèn)的內(nèi)容,/*?*
代表不允許搜索引擎訪(fǎng)問(wèn)所有帶邻寿?的路徑內(nèi)容蝎土,/
代表不允許搜索引擎訪(fǎng)問(wèn)該網(wǎng)站所有內(nèi)容。
實(shí)際環(huán)境中绣否,網(wǎng)站所有者依據(jù)個(gè)人情況編寫(xiě)該文件誊涯,robots協(xié)議的編寫(xiě)會(huì)影響網(wǎng)站的收錄情況和搜索引擎的效率。