01?寫在前面
? ? ? ?常聽到很多人抱怨自己的IP因爬蟲次數(shù)太多而被網(wǎng)站屏蔽,不得不頻繁使用各種代理IP低滩,卻又因為網(wǎng)上的公開代理大部分都是不能使用召夹,而又要花錢花精力去申請VIP代理,幾番波折又遭屏蔽恕沫。特此寫一篇如何利用Python搭建代理池的文章监憎,以降低時間及精力成本疮装,實現(xiàn)自動化獲取活躍代理IP的功能柠辞。
02?運作原理
一、 網(wǎng)站代理獲取
1.?爬免費代理網(wǎng)站的IP列表測試是否可用及是否是高匿
2.?若都是艺智,則放進數(shù)據(jù)庫,否則丟棄褐筛。
3.?重復第2步
二类少、 保證失效的代理能被盡快從代理池中挑出
1.?從爬蟲數(shù)據(jù)庫獲取IP
2.?測試IP的可用性和匿名性
3.?如果可用且匿名,則保留渔扎,否則丟棄硫狞。
4.?重復第1步
說明①:可建立一個爬蟲程序守護程序(Daemon),有此方面需要的小伙伴可自行谷歌赞警,在此不多做介紹妓忍。
說明②:可建立一個對外代理信息接口,無論你用NodeJS或者Flask/Django或者PHP來寫都沒關系愧旦,在此也不多做介紹世剖。
03?實現(xiàn)
? ? ? ?建議庫: requests, BeautifulSoup, re, sqlite3。
? ? ? ?其中笤虫,用requests庫獲取代理網(wǎng)站頁面旁瘫,用BeautifulSoup和re兩庫來進行代理信息獲取,用sqlite3來對這些信息進行存取琼蚯。
? ? ? ?如果必要(如代理網(wǎng)站有反爬蟲策略時)酬凳,可用PhantomJS替代requests,或用相應庫進行數(shù)據(jù)清理(如base64解碼)遭庶。
下面簡單展示一下各部分的代碼:
? ? ? ?首先是選擇多個能爬取代理且不容易被屏蔽IP的網(wǎng)站宁仔,此處以proxy-list.org為例:
BASE_URL?=?"https://proxy-list.org/english/index.php?p="
#IP地址及端口的正則
Re_Pattern_IP?=?re.compile("(.*):")
Re_Pattern_PORT?=?re.compile(":(.*)")
#網(wǎng)站有11頁,所以循環(huán)11次獲取所有代理IP及端口
for?startingURL_Param?in?range(1,11):
HTML_ProxyPage?=?requests.get(BASE_URL+str(startingURL_Param)).content
soup?=?bs(HTML_ProxyPage,"html.parser")
? ?for?Raw_ProxyInfo?in?soup.find_all("ul",{"class":None}):
? ? ? ?#此網(wǎng)站有用Base64簡單對代理進行了加密峦睡,所以這里對其解碼
ip_port?=?base64.b64decode(Raw_ProxyInfo.find("li",{"class":"proxy"}).text.replace("Proxy('","").replace("')",""))
? ? ? ?#接下來利用正則從網(wǎng)頁數(shù)據(jù)中提取我們需要的信息
IP?=?re.findall(Re_Pattern_IP,?ip_port)[0]
PORT?=?re.findall(Re_Pattern_PORT,?ip_port)[0]
TYPE?=?Raw_ProxyInfo.find("li",{"class":"https"}).text
? ? ? ?接下來是一段簡易代理池框架類的代碼翎苫,提供代理數(shù)據(jù)庫的添加、刪除榨了、可連接性檢測煎谍、匿名性檢測:
class?ProxyPool:?
? ?#初始化爬蟲池數(shù)據(jù)庫
? ?def?__init__(self,ProxyPoolDB):
? ? ? ?self.ProxyPoolDB?=?ProxyPoolDB
? ? ? ?self.conn?=?sqlite3.connect(self.ProxyPoolDB,?isolation_level=None)
? ? ? ?self.cursor?=?self.conn.cursor()
? ? ? ?self.TB_ProxyPool?=?"TB_ProxyPool"
? ? ? ?self.cursor.execute("CREATE TABLE IF NOT EXISTS "+self.TB_ProxyPool+"(ip TEXT UNIQUE, port INTEGER, protocol TEXT)")
? ?#添加代理IP進代理池的接口
? ?def?addProxy(self,?IP,?PORT,?PROTOCOL):?
? ? ? ?self.cursor.execute("INSERT OR IGNORE INTO "?+?self.TB_ProxyPool+"(ip, port, protocol) VALUES (?,?,?)",?[IP,PORT,PROTOCOL])
? ?#檢查代理的匿名性及可連接性
? ?def?testConnection(self,?IP,?PORT,?PROTOCOL):
proxies?=?{?PROTOCOL:?IP+":"+PORT?}
? ? ? ?try:
? ? ? ? ? ?OrigionalIP?=?requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content
? ? ? ? ? ?MaskedIP?=?requests.get("http://icanhazip.com",?timeout=REQ_TIMEOUT,proxies=proxies).content
? ? ? ? ? ?if?OrigionalIP?!=?MaskedIP:
? ? ? ? ? ? ? ?return?True
? ? ? ? ? ?else:
? ? ? ? ? ? ? ?return?False
? ? ? ?except:?
? ? ? ? ? ?return?False
? ?#刪除代理IP對應的數(shù)據(jù)庫記錄
? ?def?delRecord(self,?IP):
? ? ? ?self.cursor.execute("DELETE FROM "+self.TB_ProxyPool+" WHERE ip=?",(IP,))
下面是對代理池進行去“失效IP”的代碼:?
? ?#循環(huán)代理池,逐行測試IP地址端口協(xié)議是否可用
def?cleanNonWorking(self):
? ?for?info?in?self.cursor.execute("SELECT * FROM "+self.TB_ProxyPool).fetchall():
IP?=?info[0]
PORT?=?str(info[1])
PROTOCOL?=?info[2].lower()
isAnonymous?=?self.testConnection(IP,PORT,PROTOCOL)
? ? ? ?if?isAnonymous?==?False:
? ? ? ? ? ?#這條代理的可用性失效了龙屉,從數(shù)據(jù)庫里刪除
? ? ? ? ? ?self.delRecord(IP)
#通過檢測icanhazip.com回顯來檢測可用性及匿名性
def?testConnection(self,?IP,?PORT,?PROTOCOL):
proxies?=?{?PROTOCOL:?IP+":"+PORT?}
? ? ? ?try:
? ? ? ? ? ?OrigionalIP?=?requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content
? ? ? ? ? ?MaskedIP?=?requests.get("http://icanhazip.com",?timeout=REQ_TIMEOUT,proxies=proxies).content
? ? ? ? ? ?if?OrigionalIP?!=?MaskedIP:
? ? ? ? ? ? ? ?return?True
? ? ? ? ? ?else:
? ? ? ? ? ? ? ?return?False
? ? ? ?except:?
? ? ? ? ? ?return?False
04?反思
? ? ? ?這個項目是我年初時用Python練手寫的呐粘,以現(xiàn)在的程度再來回顧,邏輯不夠嚴謹转捕,各類功能太過耦合作岖,不少段落需要重寫,因為代碼是在校園網(wǎng)內所跑瓜富,所以還需要考慮到網(wǎng)絡連接的穩(wěn)定性鳍咱,這就造成部分代碼之間的混亂關系。
? ? ? ?通過icanhazip.com來檢測代理匿名性的方法或許有效与柑,但卻忽略了X-Forwarded-For的HTTP頭谤辜,所以有很大風險蓄坏,必須改進。
? ? ? ?驗證代理池內代理的有效性丑念,需要多線程涡戳,目前的方案效率太低。
05?完整代碼
? ? ? ?放在此文章中的是代理池的核心代碼脯倚,旨在提供各位讀者能夠自己實現(xiàn)的思路及參考渔彰。完整代碼可在作者的Github主頁中找到,Ubuntu 16.04及Kali下用Python 2.7測試可運行推正。
加群:731233835? ? 可獲得:10本py? ?PDF