- 爬蟲部分
- 代理檢測
- 存儲
爬蟲部分
由于我們的代理有限锅睛,所以需要去一些代理網(wǎng)站上爬取一些可用的高效的代理历谍,所以就需要爬蟲去完成這部分的工作。
為了爬取高效的代理望侈,找到以下的代理網(wǎng)站進行爬取:
http://ip.kxdaili.com/
http://www.xicidaili.com/
http://www.66ip.cn/
http://www.66ip.cn/areaindex_%s/1.html
http://www.89ip.cn/
首先侥猬,定義個爬蟲類捐韩,我們只需傳入爬取網(wǎng)站的url、正則表達式瞧预、以及標志符flag就可以調(diào)用get_data()函數(shù)進行爬取,大大優(yōu)化了代碼結(jié)構(gòu)垢油,代碼如下:
class Crawler(object):
def __init__(self, url, regular, flag=None):
self.url = url
self.regular = regular
self.flag = flag
def get_data(self):
proxies_list = []
for i in self.url:
print(i)
try:
text = requests.get(i, headers=config.HEADERS)
except:
pass
time.sleep(5)
text.encoding = 'utf-8'
data = re.findall(self.regular, text.text)
if i[11:15] == '66ip':
for t in range(1, int(len(data) / self.flag)):
proxies = '{}:{}'.format(data[self.flag * t], data[(self.flag * t) + 1])
proxies_list.append(proxies)
elif i[11:15] == '89ip':
proxies_list = data[1:]
else:
for t in range(0, int(len(data) / self.flag)):
proxies = '{}:{}'.format(data[self.flag * t], data[(self.flag * t) + 1])
proxies_list.append(proxies)
return proxies_list
代理列表如下:
SPIDER_PARSER_LIST =[
{ # 開心代理
'url':['http://ip.kxdaili.com/ipList/%s.html#ip' % i for i in range(1, 11)],
'regular':'<td>(.*?)</td>',
'flag':7
},
{ # 西刺代理
'url':['http://www.xicidaili.com/nn/%s' % i for i in range(1, 5)],
'regular':'<td>(.*?)</td>',
'flag':5
},
{ # 66ip代理-全國代理
'url': ['http://www.66ip.cn/%s.html' % i for i in range(1, 40)],
'regular': '<td>(.*?)</td>',
'flag':5
},
{ # 66ip代理-各省代理
'url': ['http://www.66ip.cn/areaindex_%s/1.html' % i for i in range(1, 35)],
'regular': '<td>(.*?)</td>',
'flag':5
},
{ # 根據(jù)api獲得代理
'url': ['http://www.89ip.cn/tqdl.html?api=1&num={}&port=&address=&isp='.format(500)],
'regular': '(.*?)<br>',
'flag': None
},
]
調(diào)用方法如下:
def get_object():
proxise_list = []
for pirder_paeser in config.SPIDER_PARSER_LIST:
url = Crawler(url=pirder_paeser.get('url'), regular=pirder_paeser.get('regular'),
flag=pirder_paeser.get('flag')).get_data()
proxise_list.append(url)
return proxise_list
代理檢測
將存在列表里的代理組成一個新的列表召娜,利用進程池進行快速地檢測惊楼,檢測主要如下:
- 代理是否可用秸讹,代理延遲大于3秒即視為不可用檀咙。
- http與https代理劃分璃诀。
- 高匿性檢測(此部分完成的不好)。
由于自己的知識的欠缺棕诵,對于代理方面的知識了解不夠全面凿将,導致對于代理檢測也是跟著自己的想法進行測試,不知道是否合理笛匙,請大家指出。代碼如下:
def check(proxy):
http_proxy_list = []
http_proxy_gaoni_list = []
https_proxy_list = []
proxy_http_dict = {
'http': proxy
}
proxy_https_dict = {
'https': proxy
}
try:
http_res = requests.get(config.SPIDER_PUBLIC_URL, proxies=proxy_http_dict, timeout=5,
headers=config.HEADERS)
time.sleep(1)
if http_res.status_code == 200:
try:
dic1 = eval(http_res.text)
ip = dic1.get('remote_addr')
if ip == public_network_ip:
http_proxy_list.append(proxy)
print(http_res.text)
else:
print(http_res.text)
http_proxy_gaoni_list.append(proxy)
except:
pass
except Exception as e:
print(e)
try:
https_res = requests.get('https://www.baidu.com/', timeout=5, proxies=proxy_https_dict
, headers=config.HEADERS, verify=False)
time.sleep(1)
if https_res.status_code == 200:
print('https:')
https_proxy_list.append(proxy)
except Exception as e:
print(e)
print(http_proxy_list, http_proxy_gaoni_list, https_proxy_list)
return http_proxy_list, http_proxy_gaoni_list, https_proxy_list
存儲
利用python的flask-sqlalchemy模塊進行關系到表的映射。Proxy結(jié)構(gòu)如下:
class Proxy(db.Model):
__tablename__ = 'proxy_pool'
id = db.Column(db.Integer, primary_key=True, autoincrement=True)
proxy = db.Column(db.String(100), nullable=False,unique=False)
http = db.Column(db.String(100), nullable=False)
type = db.Column(db.String(100), nullable=False)
score = db.Column(db.Integer, nullable=False)
add_time = db.Column(db.DateTime, nullable=False)
check_time = db.Column(db.DateTime, nullable=False)
res_time = db.Column(db.Float, nullable=False)
存儲是利用非orm結(jié)構(gòu)進行存儲蠢正,將檢測的結(jié)果一次性存儲省店,縮短了存儲時間有鹿,減小了對數(shù)據(jù)庫的壓力葱跋。代碼如下:
def save(proxy_list1, proxy_list2, proxy_list3):
if len(proxy_list1) > 0:
session.execute(Proxy.__table__.insert(), [{'proxy': str(i), 'http': 'http', 'type': '透明', 'score': str(100)
, 'add_time': datetime.datetime.now(),
'check_time': datetime.datetime.now()
, 'res_time': 0.1} for i in proxy_list1])
else:
pass
if len(proxy_list2) > 0:
session.execute(Proxy.__table__.insert(), [
{'proxy': str(i), 'http': 'https', 'type': '高匿', 'score': str(100), 'add_time': datetime.datetime.now(),
'check_time': datetime.datetime.now(), 'res_time': 0.1} for i in proxy_list2])
else:
pass
if len(proxy_list3) > 0:
session.execute(Proxy.__table__.insert(), [
{'proxy': str(i), 'http': 'http', 'type': '高匿', 'score': str(100), 'add_time': datetime.datetime.now(),
'check_time': datetime.datetime.now(), 'res_time': 0.1} for i in proxy_list3])
else:
pass
session.commit()
session.close()
總結(jié)
第一次,合作完成項目,學習到了許多知識如:
- 利用類掂碱,充分利用代碼疼燥,降低耦合度。
- 利用進程池縮短檢測時間撬即。
- 以及非orm存儲數(shù)據(jù)庫剥槐。