第一單元小結(jié)
通用代碼框架
try - except
網(wǎng)絡(luò)爬蟲引發(fā)的問題
爬取網(wǎng)頁(yè)球拦,玩轉(zhuǎn)網(wǎng)頁(yè) requests
爬取網(wǎng)站帐我,scrapy,中規(guī)模拦键,數(shù)據(jù)規(guī)模較大
爬取全網(wǎng),爬取全網(wǎng)芬为,只可能訂制開發(fā)
騷擾問題 服務(wù)器資源消耗
內(nèi)容層面法律風(fēng)險(xiǎn)
個(gè)人隱私泄露
來源審查:判斷user-agent進(jìn)行限制
檢查來訪http協(xié)議頭的user-agent領(lǐng)域萄金,只相應(yīng)瀏覽器或友好爬蟲的訪問媚朦。
發(fā)布公告:robots協(xié)議
告知所有爬蟲網(wǎng)站的爬取策略,要求爬蟲遵守询张。
robots協(xié)議(robots exclusion standard)
簡(jiǎn)單語法
user-agent 對(duì)于該名稱的爬蟲
disallow
如何遵守robots協(xié)議
類人類行為可不參考robots協(xié)議