代理池

1.首先創(chuàng)建一個(gè)獲取代理ip的類万牺,這里取名為ProxyPool罗珍。

class ProxyPool:
    def get_soup(self, url):
        pass
    def get_youdaili(self):
        pass

這個(gè)ProxyPool類中有兩個(gè)方法:

  • get_soup(self,url)
    這個(gè)方法除了接受本身參數(shù)之外脚粟,還接受一個(gè)url參數(shù)(網(wǎng)址)覆旱,返回一個(gè)美味的soup對象。
def get_soup(self, url):
        resp = requests.get(url)
        if resp.status_code == 200:
            resp.encoding = "utf-8"
            soup = BeautifulSoup(resp.text, "lxml")
            return soup
  • get_youdaili(self)
    這個(gè)方法不用額外的參數(shù)核无,它使用方法本身里的數(shù)據(jù)扣唱,在這里是優(yōu)代理網(wǎng)站的地址。經(jīng)過對該方法的調(diào)用团南,網(wǎng)站中提供的ip會(huì)被逐個(gè)地添加到數(shù)據(jù)庫中噪沙。
    def get_youdaili(self):
        soup = self.get_soup('http://www.youdaili.net/Daili/')
        a_tag = soup.select('div.newslist_body > ul > li > a')
        for i in a_tag:
            url = i.get('href')
            ip_re = re.compile(r'((\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\:\d{2,5})@([a-zA-Z0-9]{4,7}))')
            soup = self.get_soup(url)
            ips = ip_re.findall(soup.text)
            page_tag = soup.select('ul.pagelist > li > a')
            if page_tag:
                page = re.search(r'\d', page_tag[0].get_text()).group()
                page = int(page)
            else:
                page = 1
            if page >= 2:  # 如果有第二頁就繼續(xù)爬取
                for i in range(2, page + 1):
                    soup_sub = self.get_soup(url[:-5] + "_" + str(i) + ".html")
                    ips += ip_re.findall(soup_sub.text)
            if ips:
                for i in ips:
                    try:
                        proxy_pool.insert_one({
                            'ip_port': i[1],
                            'protocol': i[2].lower(),
                            'update_time': int(time.time())
                        })
                    except pymongo.errors.DuplicateKeyError as ex:
                        pass
  • 數(shù)據(jù)庫 proxy 以及數(shù)據(jù)庫表單 proxy_pool 的建立
client = pymongo.MongoClient("localhost", 27017)
proxy = client['proxy']
proxy_pool = proxy['proxy_pool']
proxy_pool.ensure_index('ip_port', unique=True)  # 如果有重復(fù)的ip 寫進(jìn)去 會(huì)報(bào)錯(cuò)

2.接著創(chuàng)建一個(gè)檢測代理質(zhì)量的類,這里取名為ProxyCheck吐根。

class ProxyCheck:
    ip_port_all = [(i['ip_port'], i['protocol']) for i in proxy_pool.find()]  # 查詢正歼,獲取所有ip

    def remove_ip(self, ip_port):
        pass

    def get_status(self, ip_port, protocol):
        pass

    def check(self):
        pass

這個(gè)類中有三個(gè)方法:

  • remove_ip(self, ip_port)
    這個(gè)方法需要一個(gè)ip_port參數(shù)(如1.255.53.81:80)),查詢數(shù)據(jù)庫后拷橘,若找到含有該參數(shù)的pymongo對象局义,他會(huì)給該對象添加一個(gè)為None的speed屬性,隨后判斷該對象的更新時(shí)間是否大于一周冗疮,并刪除大于一周的對象萄唇。
def remove_ip(self, ip_port): # 如果沒能成功響應(yīng),將執(zhí)行次方法术幔,將其響應(yīng)速度設(shè)置為空并且判斷存在時(shí)間是否超過一周
        ip_data = proxy_pool.find({'ip_port': ip_port}) # <pymongo.cursor.Cursor object at 0x042D8FF0>
        proxy_pool.update_one({'ip_port': ip_port}, {'$set': {'speed': None}})
        if int(time.time()) - ip_data[0]['update_time'] > 604800:  # time.time()是指1970紀(jì)元后經(jīng)過的浮點(diǎn)秒數(shù)
            proxy_pool.remove({'ip_port': ip_port})
  • get_status(self, ip_port, protocol)
    該函數(shù)需要接受2個(gè)參數(shù)另萤,如('1.255.53.81:80', 'http'),并試圖用該代理參數(shù)去訪問一個(gè)正常的頁面特愿,若成功便將反應(yīng)時(shí)間更新到speed屬性仲墨,同時(shí)更新update屬性,否者就調(diào)用remove_ip()方法來刪除該對象揍障。

    def get_status(self, ip_port, protocol):
        url = "http://fz.58.com/"
        proxies = {"http": protocol + "://" + ip_port}
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36",
        }
        time1 = time.clock()  # 以浮點(diǎn)數(shù)計(jì)算的秒數(shù)返回當(dāng)前的CPU時(shí)間目养,用來衡量不同程序的耗時(shí)
        try: # 使用代理常常容易出錯(cuò)
            resp = requests.get(url, headers=headers, proxies=proxies, timeout=6)
        except Exception as ex:
            print(ex)
            return self.remove_ip(ip_port)
        time2 = time.clock()
        time_result = time2 - time1 # 計(jì)算響應(yīng)時(shí)間
        if resp.status_code == 200:
            print(ip_port)
            proxy_pool.update_one({"ip_port": ip_port},
                                  {'$set': {'speed': time_result, 'update_time': int(time.time())}})
        else:
            self.remove_ip(ip_port)
  • check()
    開啟多線程進(jìn)行檢測
    def check(self):
        pool = Pool(20)
        for i in self.ip_port_all:
            if i[1] == 'http':
                pool.apply_async(self.get_status, args=i)
        pool.close()
        pool.join()

3.if name=='main'啟動(dòng)部分:

if __name__ == "__main__":
    if len(sys.argv) > 1:  # 接收第一個(gè)參數(shù),第一個(gè)參數(shù)為腳本運(yùn)行的間隔時(shí)間
        time_sleep = int(sys.argv[1])
    else:
        time_sleep = 60 * 60
    while (True):
        pp = ProxyPool()
        pp.get_youdaili()
        pc = ProxyCheck()
        pc.check()
        time.sleep(time_sleep)

全篇代碼如下:

# coding:utf-8
# 因?yàn)榫W(wǎng)絡(luò)上的代理畢竟是有限的毒嫡,所以希望大家不要濫用

import re
import requests
import time
import pymongo
import sys
from bs4 import BeautifulSoup
from multiprocessing.dummy import Pool

client = pymongo.MongoClient("localhost", 27017)
proxy = client['proxy']
proxy_pool = proxy['proxy_pool']
proxy_pool.ensure_index('ip_port', unique=True)  # 如果有重復(fù)的ip 寫進(jìn)去 會(huì)報(bào)錯(cuò)


class ProxyPool:  # 獲取代理ip的類
    def get_soup(self, url):
        resp = requests.get(url)
        if resp.status_code == 200:
            resp.encoding = "utf-8"
            soup = BeautifulSoup(resp.text, "lxml")
            return soup

    def get_youdaili(self):
        soup = self.get_soup("http://www.youdaili.net/Daili/")
        a_tag = soup.select("div.newslist_body > ul > li > a")
        for i in a_tag:
            url = i.get('href')
            ip_re = re.compile(r'((\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\:\d{2,5})@([a-zA-Z0-9]{4,7}))')
            soup = self.get_soup(url)
            ips = ip_re.findall(soup.text)
            page_tag = soup.select("ul.pagelist > li > a")  # 是否還有第二頁
            if page_tag:
                page = re.search(r"\d", page_tag[0].get_text()).group()
                page = int(page)
            else:
                page = 1
            if page >= 2:  # 如果有第二頁就繼續(xù)爬取
                for i in range(2, page + 1):
                    soup_sub = self.get_soup(url[:-5] + "_" + str(i) + ".html")
                    ips += ip_re.findall(soup_sub.text)
            if ips:
                for i in ips:
                    try: # 數(shù)據(jù)庫不允許插入相同的ip癌蚁,如果有相同的,這里將會(huì)報(bào)錯(cuò)兜畸,所以加個(gè)try
                        proxy_pool.insert_one({
                            'ip_port': i[1],
                            'protocol': i[2].lower(), # 協(xié)議
                            'update_time': int(time.time()) # 抓取時(shí)的時(shí)間
                        })
                    except pymongo.errors.DuplicateKeyError as ex:
                        pass
            print(url)


class ProxyCheck:
    ip_port_all = [(i['ip_port'], i['protocol']) for i in proxy_pool.find()] # 查詢努释,獲取所有ip

    def remove_ip(self, ip_port): # 如果沒能成功響應(yīng),將執(zhí)行次方法咬摇,將其響應(yīng)速度設(shè)置為空并且判斷存在時(shí)間是否超過一周
        ip_data = proxy_pool.find({'ip_port': ip_port})
        proxy_pool.update_one({'ip_port': ip_port}, {'$set': {'speed': None}})
        if int(time.time()) - ip_data[0]['update_time'] > 604800:
            proxy_pool.remove({'ip_port': ip_port})

    def get_status(self, ip_port, protocol):
        url = "http://fz.58.com/"
        proxies = {"http": protocol + "://" + ip_port}
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36",
        }
        time1 = time.clock()
        try: # 使用代理常常容易出錯(cuò)
            resp = requests.get(url, headers=headers, proxies=proxies, timeout=6)
        except Exception as ex:
            print(ex)
            return self.remove_ip(ip_port)
        time2 = time.clock()
        time_result = time2 - time1 # 計(jì)算響應(yīng)時(shí)間
        if resp.status_code == 200:
            print(ip_port)
            proxy_pool.update_one({"ip_port": ip_port},
                                  {'$set': {'speed': time_result, 'update_time': int(time.time())}})
        else:
            self.remove_ip(ip_port)

    def check(self): # 開啟多線程進(jìn)行檢測
        pool = Pool(20)
        for i in self.ip_port_all:
            if i[1] == 'http':
                pool.apply_async(self.get_status, args=i)
        pool.close()
        pool.join()


if __name__ == "__main__":
    if len(sys.argv) > 1:  # 接收第一個(gè)參數(shù)伐蒂,第一個(gè)參數(shù)為腳本運(yùn)行的間隔時(shí)間
        time_sleep = int(sys.argv[1])
    else:
        time_sleep = 60 * 60
    while (True):
        pp = ProxyPool()
        pp.get_youdaili()
        pc = ProxyCheck()
        pc.check()
        time.sleep(time_sleep)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市肛鹏,隨后出現(xiàn)的幾起案子逸邦,更是在濱河造成了極大的恐慌恩沛,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缕减,死亡現(xiàn)場離奇詭異雷客,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)桥狡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門搅裙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人裹芝,你說我怎么就攤上這事部逮。” “怎么了局雄?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵甥啄,是天一觀的道長存炮。 經(jīng)常有香客問我炬搭,道長,這世上最難降的妖魔是什么穆桂? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任宫盔,我火速辦了婚禮,結(jié)果婚禮上享完,老公的妹妹穿的比我還像新娘灼芭。我一直安慰自己,他們只是感情好般又,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布彼绷。 她就那樣靜靜地躺著,像睡著了一般茴迁。 火紅的嫁衣襯著肌膚如雪寄悯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天堕义,我揣著相機(jī)與錄音猜旬,去河邊找鬼。 笑死倦卖,一個(gè)胖子當(dāng)著我的面吹牛洒擦,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播怕膛,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼熟嫩,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了褐捻?” 一聲冷哼從身側(cè)響起掸茅,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤洋侨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后倦蚪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體希坚,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年陵且,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了裁僧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,161評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡慕购,死狀恐怖聊疲,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情沪悲,我是刑警寧澤获洲,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站殿如,受9級特大地震影響贡珊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜涉馁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一门岔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧烤送,春花似錦寒随、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至试和,卻和暖如春讯泣,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背灰署。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工判帮, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人溉箕。 一個(gè)月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓晦墙,卻偏偏與公主長得像,于是被迫代替她去往敵國和親肴茄。 傳聞我的和親對象是個(gè)殘疾皇子晌畅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容

  • 代碼用的python2.7,抓取xici免費(fèi)代理寡痰,檢測放入數(shù)據(jù)庫中抗楔,為以后爬蟲做準(zhǔn)備棋凳。下面直接上代碼 ``` #-...
    天地清霜love橙閱讀 319評論 1 0
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)连躏,斷路器剩岳,智...
    卡卡羅2017閱讀 134,601評論 18 139
  • 使用代理服務(wù)器一直是爬蟲防BAN最有效的手段,但網(wǎng)上的免費(fèi)代理往往質(zhì)量很低入热,大部分代理完全不能使用拍棕,剩下能用的代理...
    ArthurMao閱讀 11,191評論 7 50
  • 代理池 三天小長假, 朋友圈都被刷屏了勺良,各種的照片绰播,景色。真是不孬尚困。 一直以來都想做一個(gè)代理池蠢箩,但是一直都沒有時(shí)間...
    起個(gè)名忒難閱讀 904評論 0 16
  • 今天Tong退群了。 他說: “雙魚不遇到真愛就真的渣事甜∶冢” “也不多奢求了,好聚好散讳侨『侨” “我曾經(jīng)也覺得我能包容他...
    一顆柚梓閱讀 596評論 8 3