受限于編寫(xiě)水平和目的,網(wǎng)絡(luò)爬蟲(chóng)將會(huì)為 web 服務(wù)器帶來(lái)巨大的資源開(kāi)銷(xiāo)奴烙。服務(wù)器上的數(shù)據(jù)有產(chǎn)權(quán)歸屬剂娄,網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)后牟利將帶來(lái)法律風(fēng)險(xiǎn)。網(wǎng)絡(luò)爬蟲(chóng)可能具備突破簡(jiǎn)單訪問(wèn)控制的能力鲸阻,獲得被保護(hù)數(shù)據(jù)從而泄露個(gè)人隱私跋涣。
網(wǎng)絡(luò)爬蟲(chóng)的限制
- 來(lái)源審查:判斷 User-Agent 進(jìn)行限制
檢查來(lái)訪 HTTP 協(xié)議頭的 User-Agent 域缨睡,只響應(yīng)瀏覽器或友好爬蟲(chóng)的訪問(wèn) - 發(fā)布公告:Robots 協(xié)議
告知所有爬蟲(chóng)網(wǎng)站的爬取策略,要求爬蟲(chóng)遵守
Robots協(xié)議
Robots Exclusion Standard 網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)
作用:網(wǎng)站告知網(wǎng)絡(luò)爬蟲(chóng)哪些頁(yè)面可以抓取仆潮,哪些不行
形式:在網(wǎng)站根目錄下的robots.txt文件
案例:京東的Robots協(xié)議?https://www.jd.com/robots.txt
Robots協(xié)議的遵守方式
網(wǎng)絡(luò)爬蟲(chóng):自動(dòng)或人工識(shí)別 robots.txt宏蛉,再進(jìn)行內(nèi)容爬取
Robots 協(xié)議是建議但非約束性,網(wǎng)絡(luò)爬蟲(chóng)可以不遵守性置,但存在法律風(fēng)險(xiǎn)
類(lèi)人行為是指爬蟲(chóng)以類(lèi)似普通用戶(hù)的訪問(wèn)方式訪問(wèn)資源