圖片瞎放一個(gè)先(doge
前段時(shí)間在寫爬蟲弟晚,研究了一下Github排名靠前的免費(fèi)代理池箕宙,都不太喜歡嚎朽,就自己寫了一個(gè),結(jié)合了異步框架Tornado和Scrapy柬帕,目前支持的特性有:
- 設(shè)定數(shù)目哟忍,持續(xù)從網(wǎng)上爬取新的免費(fèi)代理,檢測可用后存入本地?cái)?shù)據(jù)庫
- 完全異步陷寝,支持高并發(fā)(從免費(fèi)的前提下去衡量……)
- 通過調(diào)用HTTP API來獲取代理锅很,后面有時(shí)間會增加前端控制頁面
- 周期性自檢,更新可用代理?
?
項(xiàng)目地址在這里:https://github.com/Karmenzind/fp-server
關(guān)于代理可用性
爬蟲爬取代理時(shí)會先檢測可用性(包括速度和匿名性)凤跑,檢測完畢后才會入庫爆安,不可用的直接拋棄,所以可以安心使用饶火。
關(guān)于可存儲代理數(shù)目
我暫時(shí)沒有做限制鹏控,寫這個(gè)文章的時(shí)候,我本地有10000個(gè)活動(可用的)代理肤寝。我沒有繼續(xù)爬,因?yàn)槟壳按韥碓粗挥腥齻€(gè)抖僵,潛力有限鲤看。假如有人用的話,后面我會持續(xù)增加代理來源耍群。
環(huán)境要求
項(xiàng)目是在Archlinux上開發(fā)的义桂,已經(jīng)測試通過的環(huán)境如下:
- Archlinux; Python-3.6.5
- Debian(wsl); Python-3.5.3
?
代碼暫時(shí)不支持直接在Windows上運(yùn)行找筝,我已經(jīng)打包好了Docker鏡像,Windows用戶可以使用Docker部署慷吊。
推薦Unix/Linux用戶也使用Docker部署袖裕,這樣是最簡單的。
更詳細(xì)的介紹和使用方法見項(xiàng)目README溉瓶。
?