最近在學(xué)習(xí)爬蟲(chóng)萄涯,遇到一些反扒網(wǎng)站,也看了些發(fā)爬的文章覺(jué)得都不夠創(chuàng)新枣察。自己想到兩個(gè)反爬方案燃逻,因?yàn)槭切率郑恢揽刹豢尚性痴牵@里記錄下思路
方案一
###updata:
不管怎樣更新css姆怪,網(wǎng)頁(yè)的文檔結(jié)構(gòu)沒(méi)有變化,還是可以通過(guò)網(wǎng)頁(yè)的結(jié)構(gòu)去選擇片效,進(jìn)行爬取
概述:
- 使用程序修改模板css中id或class
- class名稱為固定_隨機(jī)红伦,方便自己程序更新,校驗(yàn)
- 程序再依次修改網(wǎng)頁(yè)中會(huì)被爬取得內(nèi)容css引用
- 完成修改后自己的爬蟲(chóng)爬一次淀衣,正常就繼續(xù)昙读,失敗就返回原網(wǎng)頁(yè)原css,結(jié)果通知管理員
流程:
- 原網(wǎng)頁(yè)+原css
- 原網(wǎng)頁(yè)+原css+新css
- 逐步更新網(wǎng)頁(yè)+檢查校驗(yàn)+原css+新css
- 新網(wǎng)頁(yè)+新css
潛在問(wèn)題:
- 用戶緩存-頁(yè)面請(qǐng)求加上加時(shí)間戳或版本號(hào)
- 更新頻次-檢查爬蟲(chóng)日志 閥值更新
方案二
概述
- 使用js網(wǎng)頁(yè)里插入隱藏圖片mini膨桥,大小幾k蛮浑,圖片名稱固定_隨機(jī),服務(wù)器再判斷圖片是否被該ip請(qǐng)求只嚣,多次未被加載的ip判斷為爬蟲(chóng)