什么是robots協(xié)議
先看圖
我們會發(fā)現(xiàn),這張圖中顯示的是,百度搜索"淘寶",淘寶的官網(wǎng)下面看到寫了這么一句話:
由于該網(wǎng)站的robots.txt文件存在限制指令(限制搜索引擎抓取),系統(tǒng)無法提供該頁面的內(nèi)容
解釋
Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)供炼,全稱是"網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)"(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面時可以抓取的,哪些頁面是不可以抓取的句伶。Robots協(xié)議是一個道德層面上的約定劲蜻,作為爬蟲人員遵守與否完全取決于自己,不會因為有Robots協(xié)議而導(dǎo)致網(wǎng)頁爬取不下來的情況考余。
個人觀點是先嬉,爬取的內(nèi)容不會被商業(yè)利用,僅作為個人練習(xí)楚堤,是可以不遵守這個協(xié)議的(一般來講疫蔓,robots協(xié)議僅僅只是給搜索引擎看的)
耳聽為虛,眼見為實
那么到底什么是robots協(xié)議呢身冬?
我們來看一下淘寶的Robots協(xié)議衅胀,在瀏覽器輸入:https://www.taobao.com/robots.txt
一般來講,大多數(shù)網(wǎng)站的Robots協(xié)議都是跟在網(wǎng)站的根目錄下的酥筝,像淘寶就是在網(wǎng)站的根目錄后面接上robots.txt滚躯。
看一下:
簡單解讀一下:
User-agent
: 即是誰在訪問,以這里的第一個舉例嘿歌,即Baiduspider
掸掏,就是百度爬蟲機(jī)器人。
Allow
:即允許什么宙帝,以這里的第一個舉例丧凤,即/Article,就是說淘寶網(wǎng)站允許百度爬蟲機(jī)器人爬取其文章頁面,即https://www.taobao.com/Article
這個鏈接可以被百度爬蟲爬取步脓,
下面的都是同理愿待,
Disallow
就是不讓爬什么,這里的第一個就是/product/
簡單分析一下就知道靴患,百度可以爬取淘寶的頁面可以說極少了
以上就是Robots協(xié)議仍侥。
個人博客地址:www.limiao.tech
個人WX公眾號:TechBoard
歡迎訪問~