Robots Exclusion Standard 網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)
作用:網(wǎng)站告知網(wǎng)絡(luò)爬蟲(chóng)哪些頁(yè)面可以抓取灯帮,哪些不行。
形式:在網(wǎng)站根目錄下的robots.txt文件浸卦。
案例
京東的Robots協(xié)議
百度的Robots協(xié)議
新浪新聞的Robots協(xié)議
qq的Robots協(xié)議
qq新聞的Robots協(xié)議
國(guó)家教育部的Robots協(xié)議(無(wú)robots協(xié)議)
Robots協(xié)議基本語(yǔ)法
# 注釋?zhuān)?代表所有鳍贾,/代表根目錄
User-agent: *
Disallow: /
Robots的遵守方式
Robots協(xié)議的使用
網(wǎng)絡(luò)爬蟲(chóng):自動(dòng)或人工識(shí)別robots.txt,再進(jìn)行內(nèi)容爬取港谊。
約束性:Robots協(xié)議是建議但非約束性,網(wǎng)絡(luò)爬蟲(chóng)可以不遵守橙弱,