在使用爬蟲爬取網(wǎng)絡(luò)數(shù)據(jù)時丁稀,如果長時間對一個網(wǎng)站進行抓取時可能會遇到IP被封的情況,這種情況可以使用代理更換ip來突破服務(wù)器封IP的限制。
隨手在百度上搜索免費代理IP
寞埠,可以得到一系列的網(wǎng)站摩骨,這里我們通過對西刺網(wǎng)站的抓取來舉例通贞。
- 通過編寫一個爬蟲來抓取網(wǎng)站上面的IP地址,端口恼五,及類型昌罩,把這些信息存到本地。這里不做介紹灾馒。
- 驗證代理IP是否可用茎用。原理是使用代理IP訪問指定網(wǎng)站,如果返回狀態(tài)為200睬罗,表示這個代理是可以使用的轨功。
# _*_ coding:utf-8 _*_
import urllib2
import re
class TestProxy(object):
def __init__(self):
self.ip = '106.46.136.64'
self.port = '808'
self.url = 'http://www.baidu.com'
self.timeout = 3
self.regex = re.compile(r'baidu.com')
self.run()
def run(self):
self.linkWithProxy()
def linkWithProxy(self):
server = 'http://'+ self.ip + ':'+ self.port
opener = urllib2.build_opener(urllib2.ProxyHandler({'http':server}))
urllib2.install_opener(opener)
try:
response = urllib2.urlopen(self.url, timeout=self.timeout)
except:
print '%s connect failed' % server
return
else:
try:
str = response.read()
except:
print '%s connect failed' % server
return
if self.regex.search(str):
print '%s connect success .......' % server
print self.ip + ':' + self.port
if __name__ == '__main__':
Tp = TestProxy()
也可以使用requests
包來進行驗證,要少寫好多代碼
import requests
try:
requests.get('http://wenshu.court.gov.cn/', proxies={"http":"http://121.31.154.12:8123"})
except:
print 'connect failed'
else:
print 'success'
把驗證通過的IP保存在redis里面容达,在IP被禁止的時候可以從redis中取出來使用古涧。
受@齊俊杰的提醒,添加一種使用telnet來驗證的方法:
import telnetlib
try:
telnetlib.Telnet('127.0.0.1', port='80', timeout=20)
except:
print 'connect failed'
else:
print 'success'