最近考試味混,好久沒寫代碼了
而實習卻是在弄爬蟲巴元,雖然還沒上測試環(huán)境跑過
但是最近在思考不同的網(wǎng)站驗證邏輯該怎麼躲過孤个?
對于滑動驗證可以采用seleniu+phantomJS來模擬
對于圖片驗證
打算采用java調(diào)用python來處理(但是部門沒有一套自己的python訓練框架论矾,估計會采用第三方或者別的部門的接口)
但是自己來搞也需要有思路
1.拖動補全圖片
2.數(shù)字驗證碼
3.根據(jù)文字選擇合適的圖片進行補全
這些github均有現(xiàn)成的模塊可以模仿調(diào)用
而公司的那套框架已經(jīng)封裝了那種爬蟲鏈教翩,也就是爬蟲上下文,基本的邏輯也就是單純地解析贪壳,而對于附帶的數(shù)據(jù)應該注意一些反爬的校驗數(shù)據(jù)應該攜帶饱亿,瀏覽器的代理應該注意,增加容錯機制等等