沒有反爬
?? 各大新聞網(wǎng)站如http://mil.news.sina.com.cn/roll/index.d.html?cid=57918等蹋半,所見即時(shí)所得他巨,都是靜態(tài)加載,唯一的突破點(diǎn)是要梳理不同網(wǎng)站的清洗規(guī)則减江。
有一點(diǎn)點(diǎn)反爬
- 數(shù)字+字母驗(yàn)證碼
http://www.pss-system.gov.cn/sipopublicsearch/portal/uilogin-forwardLogin.shtml
?? 突破方法是通過打碼平臺打碼染突,一般10個(gè)幾分錢且僅用于登陸所以成本比較低。 - 動態(tài)加載
?這個(gè)的處理方式有兩種:
?抓取xhr連接辈灼,找到真正的數(shù)據(jù)地址份企。
?同樣是新浪的滾動新聞 https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1image.png
?這是靜態(tài)加載的,按F12嘗試篩選可以發(fā)現(xiàn)真正的數(shù)據(jù)連接是https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2510&k=&num=50&page=1
image.png
?使用瀏覽器加載(pyppeteer或其他同類產(chǎn)品)
麻煩一點(diǎn)的反爬
- ip限制
? 針對不用登陸的網(wǎng)站巡莹,可能會對IP進(jìn)行訪問頻率限制司志,具體網(wǎng)站限制不同甜紫,要較長的時(shí)間研究網(wǎng)站規(guī)則 ,常見出現(xiàn)大量非200 404錯(cuò)誤可能就是被IP限制了骂远。 - 工程驗(yàn)證碼中級
?http://dun.163.com/trial/jigsaw拖拉式驗(yàn)證碼囚霸,有拖拉到指定缺口,拖拉到盡頭兩種激才,一般伴隨著瀏覽器驅(qū)動檢測拓型,所以還需要注入js把檢測模塊處理掉。 - 字體css反爬
?https://maoyan.com/cinemas?movieId=1218141
image.png
需要下載一個(gè)字體模板作為對比瘸恼,然后這個(gè)網(wǎng)站可以打開otf格式的文件瀏覽http://fontstore.baidu.com/static/editor/index.html
image.png
通過對比方式找到對應(yīng)數(shù)字的代碼
比較麻煩的反爬
-
收發(fā)短信認(rèn)證
image.png
一般注冊普通小網(wǎng)站的或可以選擇免費(fèi)的接碼平臺劣挫,像大站的手機(jī)驗(yàn)證只能實(shí)人驗(yàn)證,操作比較麻煩东帅。
- 語義點(diǎn)選
http://dun.163.com/trial/picture-click
image.png
大概的處理流程是標(biāo)注压固、訓(xùn)練、編碼冰啃,工程量大邓夕,而且工作只有思想可以復(fù)制,網(wǎng)站更換套件又得重新處理一遍流程阎毅。
反人類的反爬
- 低效率網(wǎng)站
http://wenshu.court.gov.cn/list/list/?sorttype=1&number=23CD5QME&guid=3cf739bc-a11e-a0b0048e-28ecec3be638&conditions=searchWord+QWJS+++%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2:%E7%8C%A5%E7%90%90
正常網(wǎng)頁瀏覽搜索需要超過2分鐘焚刚,各種反爬(訪問)限制,點(diǎn)一下可以去上個(gè)廁所系列扇调。