Robots協(xié)議(也稱為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol)犁罩,網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取讹堤,哪些頁(yè)面不能抓取。
故事的起源是這樣的寒匙,最初的開(kāi)發(fā)者M(jìn)artijn Koster發(fā)現(xiàn),他的網(wǎng)站被爬蟲(chóng)程序(crawler)所淹沒(méi)溜在。被爬蟲(chóng)抓取這件事是把雙刃劍。良好的爬取可以提高網(wǎng)站的排名他托,而惡意的爬取可能會(huì)導(dǎo)致服務(wù)器壓力暴增而導(dǎo)致崩潰炕泳。所以為了減輕服務(wù)器的壓力,他在1994年開(kāi)發(fā)了初版標(biāo)準(zhǔn)上祈。
如果做過(guò)SEO的朋友,其中一項(xiàng)就是設(shè)置良好的robots.txt浙芙。對(duì)于想要推廣網(wǎng)站的公司來(lái)說(shuō)登刺,對(duì)于Google、百度這樣的搜索引擎的爬蟲(chóng)爬取是有益的嗡呼,這樣可以增加網(wǎng)站的排名纸俭。基于鑒于網(wǎng)絡(luò)安全與隱私的考慮南窗。在淘寶的robots中揍很,則拒接了來(lái)自百度蜘蛛的爬取。
其實(shí)在很長(zhǎng)一段時(shí)間內(nèi)万伤,很多人不知道Robots協(xié)議窒悔,直到百度和360從2012年起的一場(chǎng)“屏蔽和反屏蔽”的大戰(zhàn)中,把 Robots協(xié)議 成為了媒體熱詞敌买。讓他在新聞界中跨界成名简珠。
因?yàn)镽obots協(xié)議不是什么技術(shù)上的壁壘,他是一種君子協(xié)議虹钮,比如雙方打架說(shuō)好不用刀聋庵,拳拳肉搏,結(jié)果其中一個(gè)竟然關(guān)鍵時(shí)刻 暗箭傷人芙粱。
自從它出現(xiàn)以來(lái)祭玉,它并沒(méi)有成為一項(xiàng)官方的標(biāo)準(zhǔn),所以解讀該協(xié)議的方式也不一樣春畔,它也沒(méi)有及時(shí)更新以適應(yīng)的現(xiàn)代使用場(chǎng)合脱货。
直到2019年7月1日,谷歌開(kāi)源了Robots Exclusion Protocol(REP)拐迁,就是我們說(shuō)的robots.txt蹭劈,同時(shí)也開(kāi)源了匹配的C++庫(kù)。
谷歌現(xiàn)在已經(jīng)創(chuàng)建了REP文檔草案线召,并已將提案提交給互聯(lián)網(wǎng)工程任務(wù)組(IETF)铺韧,該組織負(fù)責(zé)推廣自愿的互聯(lián)網(wǎng)標(biāo)準(zhǔn)。