玩轉爬蟲:用Python搭建匿名代理池

01?寫在前面

? ? ? ?常聽到很多人抱怨自己的IP因爬蟲次數(shù)太多而被網(wǎng)站屏蔽,不得不頻繁使用各種代理IP低滩,卻又因為網(wǎng)上的公開代理大部分都是不能使用召夹,而又要花錢花精力去申請VIP代理,幾番波折又遭屏蔽恕沫。特此寫一篇如何利用Python搭建代理池的文章监憎,以降低時間及精力成本疮装,實現(xiàn)自動化獲取活躍代理IP的功能柠辞。


02?運作原理

一、 網(wǎng)站代理獲取

1.?爬免費代理網(wǎng)站的IP列表測試是否可用及是否是高匿

2.?若都是艺智,則放進數(shù)據(jù)庫,否則丟棄褐筛。

3.?重復第2步


二类少、 保證失效的代理能被盡快從代理池中挑出

1.?從爬蟲數(shù)據(jù)庫獲取IP

2.?測試IP的可用性和匿名性

3.?如果可用且匿名,則保留渔扎,否則丟棄硫狞。

4.?重復第1步


說明①:可建立一個爬蟲程序守護程序(Daemon),有此方面需要的小伙伴可自行谷歌赞警,在此不多做介紹妓忍。

說明②:可建立一個對外代理信息接口,無論你用NodeJS或者Flask/Django或者PHP來寫都沒關系愧旦,在此也不多做介紹世剖。


03?實現(xiàn)

? ? ? ?建議庫: requests, BeautifulSoup, re, sqlite3。

? ? ? ?其中笤虫,用requests庫獲取代理網(wǎng)站頁面旁瘫,用BeautifulSoup和re兩庫來進行代理信息獲取,用sqlite3來對這些信息進行存取琼蚯。

? ? ? ?如果必要(如代理網(wǎng)站有反爬蟲策略時)酬凳,可用PhantomJS替代requests,或用相應庫進行數(shù)據(jù)清理(如base64解碼)遭庶。


下面簡單展示一下各部分的代碼:

? ? ? ?首先是選擇多個能爬取代理且不容易被屏蔽IP的網(wǎng)站宁仔,此處以proxy-list.org為例:

BASE_URL?=?"https://proxy-list.org/english/index.php?p="

#IP地址及端口的正則

Re_Pattern_IP?=?re.compile("(.*):")

Re_Pattern_PORT?=?re.compile(":(.*)")

#網(wǎng)站有11頁,所以循環(huán)11次獲取所有代理IP及端口

for?startingURL_Param?in?range(1,11):

HTML_ProxyPage?=?requests.get(BASE_URL+str(startingURL_Param)).content

soup?=?bs(HTML_ProxyPage,"html.parser")

? ?for?Raw_ProxyInfo?in?soup.find_all("ul",{"class":None}):

? ? ? ?#此網(wǎng)站有用Base64簡單對代理進行了加密峦睡,所以這里對其解碼

ip_port?=?base64.b64decode(Raw_ProxyInfo.find("li",{"class":"proxy"}).text.replace("Proxy('","").replace("')",""))

? ? ? ?#接下來利用正則從網(wǎng)頁數(shù)據(jù)中提取我們需要的信息

IP?=?re.findall(Re_Pattern_IP,?ip_port)[0]

PORT?=?re.findall(Re_Pattern_PORT,?ip_port)[0]

TYPE?=?Raw_ProxyInfo.find("li",{"class":"https"}).text


? ? ? ?接下來是一段簡易代理池框架類的代碼翎苫,提供代理數(shù)據(jù)庫的添加、刪除榨了、可連接性檢測煎谍、匿名性檢測:


class?ProxyPool:?

? ?#初始化爬蟲池數(shù)據(jù)庫

? ?def?__init__(self,ProxyPoolDB):

? ? ? ?self.ProxyPoolDB?=?ProxyPoolDB

? ? ? ?self.conn?=?sqlite3.connect(self.ProxyPoolDB,?isolation_level=None)

? ? ? ?self.cursor?=?self.conn.cursor()

? ? ? ?self.TB_ProxyPool?=?"TB_ProxyPool"

? ? ? ?self.cursor.execute("CREATE TABLE IF NOT EXISTS "+self.TB_ProxyPool+"(ip TEXT UNIQUE, port INTEGER, protocol TEXT)")

? ?#添加代理IP進代理池的接口

? ?def?addProxy(self,?IP,?PORT,?PROTOCOL):?

? ? ? ?self.cursor.execute("INSERT OR IGNORE INTO "?+?self.TB_ProxyPool+"(ip, port, protocol) VALUES (?,?,?)",?[IP,PORT,PROTOCOL])

? ?#檢查代理的匿名性及可連接性

? ?def?testConnection(self,?IP,?PORT,?PROTOCOL):

proxies?=?{?PROTOCOL:?IP+":"+PORT?}

? ? ? ?try:

? ? ? ? ? ?OrigionalIP?=?requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content

? ? ? ? ? ?MaskedIP?=?requests.get("http://icanhazip.com",?timeout=REQ_TIMEOUT,proxies=proxies).content

? ? ? ? ? ?if?OrigionalIP?!=?MaskedIP:

? ? ? ? ? ? ? ?return?True

? ? ? ? ? ?else:

? ? ? ? ? ? ? ?return?False

? ? ? ?except:?

? ? ? ? ? ?return?False

? ?#刪除代理IP對應的數(shù)據(jù)庫記錄

? ?def?delRecord(self,?IP):

? ? ? ?self.cursor.execute("DELETE FROM "+self.TB_ProxyPool+" WHERE ip=?",(IP,))

下面是對代理池進行去“失效IP”的代碼:?

? ?#循環(huán)代理池,逐行測試IP地址端口協(xié)議是否可用

def?cleanNonWorking(self):

? ?for?info?in?self.cursor.execute("SELECT * FROM "+self.TB_ProxyPool).fetchall():

IP?=?info[0]

PORT?=?str(info[1])

PROTOCOL?=?info[2].lower()

isAnonymous?=?self.testConnection(IP,PORT,PROTOCOL)

? ? ? ?if?isAnonymous?==?False:

? ? ? ? ? ?#這條代理的可用性失效了龙屉,從數(shù)據(jù)庫里刪除

? ? ? ? ? ?self.delRecord(IP)

#通過檢測icanhazip.com回顯來檢測可用性及匿名性

def?testConnection(self,?IP,?PORT,?PROTOCOL):

proxies?=?{?PROTOCOL:?IP+":"+PORT?}

? ? ? ?try:

? ? ? ? ? ?OrigionalIP?=?requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content

? ? ? ? ? ?MaskedIP?=?requests.get("http://icanhazip.com",?timeout=REQ_TIMEOUT,proxies=proxies).content

? ? ? ? ? ?if?OrigionalIP?!=?MaskedIP:

? ? ? ? ? ? ? ?return?True

? ? ? ? ? ?else:

? ? ? ? ? ? ? ?return?False

? ? ? ?except:?

? ? ? ? ? ?return?False

04?反思

? ? ? ?這個項目是我年初時用Python練手寫的呐粘,以現(xiàn)在的程度再來回顧,邏輯不夠嚴謹转捕,各類功能太過耦合作岖,不少段落需要重寫,因為代碼是在校園網(wǎng)內所跑瓜富,所以還需要考慮到網(wǎng)絡連接的穩(wěn)定性鳍咱,這就造成部分代碼之間的混亂關系。

? ? ? ?通過icanhazip.com來檢測代理匿名性的方法或許有效与柑,但卻忽略了X-Forwarded-For的HTTP頭谤辜,所以有很大風險蓄坏,必須改進。

? ? ? ?驗證代理池內代理的有效性丑念,需要多線程涡戳,目前的方案效率太低。


05?完整代碼

? ? ? ?放在此文章中的是代理池的核心代碼脯倚,旨在提供各位讀者能夠自己實現(xiàn)的思路及參考渔彰。完整代碼可在作者的Github主頁中找到,Ubuntu 16.04及Kali下用Python 2.7測試可運行推正。

加群:731233835? ? 可獲得:10本py? ?PDF

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末恍涂,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子植榕,更是在濱河造成了極大的恐慌再沧,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尊残,死亡現(xiàn)場離奇詭異炒瘸,居然都是意外死亡,警方通過查閱死者的電腦和手機寝衫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門顷扩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人慰毅,你說我怎么就攤上這事隘截。” “怎么了汹胃?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵技俐,是天一觀的道長。 經常有香客問我统台,道長,這世上最難降的妖魔是什么啡邑? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任贱勃,我火速辦了婚禮,結果婚禮上谤逼,老公的妹妹穿的比我還像新娘贵扰。我一直安慰自己,他們只是感情好流部,可當我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布戚绕。 她就那樣靜靜地躺著,像睡著了一般枝冀。 火紅的嫁衣襯著肌膚如雪舞丛。 梳的紋絲不亂的頭發(fā)上耘子,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天,我揣著相機與錄音球切,去河邊找鬼谷誓。 笑死,一個胖子當著我的面吹牛吨凑,可吹牛的內容都是我干的捍歪。 我是一名探鬼主播,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鸵钝,長吁一口氣:“原來是場噩夢啊……” “哼糙臼!你這毒婦竟也來了?” 一聲冷哼從身側響起恩商,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤变逃,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后痕届,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體韧献,經...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年研叫,在試婚紗的時候發(fā)現(xiàn)自己被綠了锤窑。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡嚷炉,死狀恐怖渊啰,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情申屹,我是刑警寧澤绘证,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站哗讥,受9級特大地震影響嚷那,放射性物質發(fā)生泄漏。R本人自食惡果不足惜杆煞,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一魏宽、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧决乎,春花似錦队询、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至范嘱,卻和暖如春送膳,著一層夾襖步出監(jiān)牢的瞬間员魏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工肠缨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留逆趋,地道東北人。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓晒奕,卻偏偏與公主長得像闻书,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子脑慧,可洞房花燭夜當晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內容

  • Python 面向對象Python從設計之初就已經是一門面向對象的語言魄眉,正因為如此,在Python中創(chuàng)建一個類和對...
    順毛閱讀 4,218評論 4 16
  • 1.首先創(chuàng)建一個獲取代理ip的類闷袒,這里取名為ProxyPool坑律。 這個ProxyPool類中有兩個方法: get_...
    樂小Pi孩_VoV閱讀 413評論 0 0
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn)囊骤,斷路器晃择,智...
    卡卡羅2017閱讀 134,654評論 18 139
  • 在浩瀚宇宙中,我們如一顆小小的星塵也物,我們探索未知的行囊宫屠。浮華萬千,熟視歲月如流滑蚯,恰滄海巫山浪蹂,榮江山依舊,風采悠然告材,...
    水上芙蓉閱讀 360評論 0 0
  • 「你拍我畫2」
    柚書姑娘閱讀 578評論 8 13