Python代理爬蟲


工作原理 :


基于爬蟲對網(wǎng)絡(luò)上免費的代理公布站進行抓取和分析 , 并將最近的結(jié)果保存在本地文件中 , 等待驗證 , 可以利用花刺等工具進行批量驗證 , 也可以使用筆者編寫的Python多線程代理驗證腳本進行批量驗證


截圖


Paste_Image.png
321321321.png
Paste_Image.png
Paste_Image.png
Paste_Image.png

代碼實現(xiàn) :


#!/usr/bin/env python 
# -*- coding: utf-8 -*- 

import requests
import time
import sys
import binascii
from bs4 import BeautifulSoup
import sys

reload(sys)
sys.setdefaultencoding('UTF-8')

# config-start
proxiesFileName = "proxies.txt" # 獲取到的代理保存的文件名
timeout = 5 # 連接超時時間
urls = [
    'http://bjcore.xicidaili.com/nn', # 國內(nèi)匿名
    'http://bjcore.xicidaili.com/nt', # 國內(nèi)透明
    'http://bjcore.xicidaili.com/wt', # 國外匿名
    'http://bjcore.xicidaili.com/wt', # 國外透明
    'http://bjcore.xicidaili.com/qq', # Socks代理

    'http://www.kuaidaili.com/proxylist/1', # 快代理
    'http://www.kuaidaili.com/proxylist/2', # 快代理
    'http://www.kuaidaili.com/proxylist/3', # 快代理
    'http://www.kuaidaili.com/proxylist/4', # 快代理
    'http://www.kuaidaili.com/proxylist/5', # 快代理
    'http://www.kuaidaili.com/proxylist/6', # 快代理
    'http://www.kuaidaili.com/proxylist/7', # 快代理
    'http://www.kuaidaili.com/proxylist/8', # 快代理
    'http://www.kuaidaili.com/proxylist/9', # 快代理
    'http://www.kuaidaili.com/proxylist/10', # 快代理

    'http://www.ip3366.net/?stype=1&page=1', # 云代理
    'http://www.ip3366.net/?stype=1&page=2', # 云代理
    'http://www.ip3366.net/?stype=1&page=3', # 云代理
    'http://www.ip3366.net/?stype=1&page=4', # 云代理
    'http://www.ip3366.net/?stype=1&page=5', # 云代理
    'http://www.ip3366.net/?stype=1&page=6', # 云代理
    'http://www.ip3366.net/?stype=1&page=7', # 云代理
    'http://www.ip3366.net/?stype=1&page=8', # 云代理
    'http://www.ip3366.net/?stype=1&page=9', # 云代理
    'http://www.ip3366.net/?stype=1&page=10', # 云代理

    # 很奇怪這個網(wǎng)站的所有代理都沒有注明協(xié)議(這個網(wǎng)站很久沒有更新了)
    # 'http://www.proxy#/default.aspx', # 綜合代理
    # 'http://www.proxy#/Proxy', # 免費代理服務器
    # 'http://www.proxy#/QQ-Proxy', # 免費QQ代理服務器
    # 'http://www.proxy#/MSN-Proxy', # 免費MSN代理服務器
    # 'http://www.proxy#/Region/Brazil', # 巴西
    # 'http://www.proxy#/Region/China', # 中國
    # 'http://www.proxy#/Region/America', # 美國
    # 'http://www.proxy#/Region/Taiwan', # 臺灣
    # 'http://www.proxy#/Region/Japan', # 日本
    # 'http://www.proxy#/Region/Thailand', # 泰國
    # 'http://www.proxy#/Region/Vietnam', # 越南
    # 'http://www.proxy#/Region/bahrein', # 巴林
]
# config-end


def getSimpleContent(url):
    headers={'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
    return requests.get(url,headers=headers).text.encode('UTF-8')

def analysis(url):
    print "Getting content of url...",
    content=getSimpleContent(url)
    print "Ok!"

    results=[]
    print "Parsing..."
    soup = BeautifulSoup(content, "html.parser")

    if "xicidaili" in url:
        print u"Using : 西刺代理模塊"
        trs = soup.findAll('tr')
        trs = trs[1:] # 去掉表頭
        for tr in trs:
            tds = tr.findAll('td')
            ip = tds[1].string
            port = tds[2].string

            location = tds[3].string
            anonymous = tds[4].string
            protocol = tds[5].string

            if location == None:
                location = u"未知"
            else:
                location = location.replace(" ","")

            location=location.replace('\x0a','')
            anonymous=anonymous.replace('\x0a','')
            protocol=protocol.replace('\x0a','')

            proxyType=url.split("/")[-1]
            if proxyType=="nn":
                tempName=u"國內(nèi)匿名"
            elif proxyType=="nt":
                tempName=u"國內(nèi)透明"
            elif proxyType=="wn":
                tempName=u"國外匿名"
            elif proxyType=="wt":
                tempName=u"國外透明"
            elif proxyType=="qq":
                tempName=u"QQ代理"
            else:
                tempName=u""

            fileName=u"西刺-"+tempName+str(getNowTime("%Y-%m-%d-%H-%M-%S"))+".txt"

            if proxyType=="qq": # 將代理類型從QQ代理替換為SOCKS5
                protocol=u"SOCKS5"
            # 記錄日志文件
            appendToFile(fileName,ip+":"+port+"@"+protocol+"#"+location+","+anonymous+"\n")
        return

    elif "proxy360" in url:
        print u"Using : proxy360模塊"
        divs = soup.findAll(style="float:left; display:block; width:630px;")
        for div in divs:

            spans=div.findAll('span')

            ip=spans[0].string
            ip=ip.replace(' ','')
            ip=ip.replace('\r\n','')

            port=spans[1].string
            port=port.replace(' ','')
            port=port.replace('\r\n','')

            anonymous=spans[2].string
            anonymous=anonymous.replace(' ','')
            anonymous=anonymous.replace('\r\n','')

            location=spans[3].string
            location=location.replace(' ','')
            location=location.replace('\r\n','')

            proxyType=url.split("/")[-1]
            if proxyType=="default.aspx":
                tempName=u"綜合代理"
            elif proxyType=="Proxy":
                tempName=u"免費代理服務器"
            elif proxyType=="QQ-Proxy":
                tempName=u"免費QQ代理服務器"
            elif proxyType=="MSN-Proxy":
                tempName=u"免費MSN代理服務器"
            elif proxyType=="Brazil":
                tempName=u"巴西"
            elif proxyType=="China":
                tempName=u"中國"
            elif proxyType=="America":
                tempName=u"美國"
            elif proxyType=="Taiwan":
                tempName=u"臺灣"
            elif proxyType=="Japan":
                tempName=u"日本"
            elif proxyType=="Thailand":
                tempName=u"泰國"
            elif proxyType=="Vietnam":
                tempName=u"越南"
            elif proxyType=="bahrein":
                tempName=u"巴林"
            else:
                tempName=u""
            
            fileName=u"proxy360-"+tempName+str(getNowTime("%Y-%m-%d-%H-%M-%S"))+".txt"
            # 這個網(wǎng)站并沒有指定代理的協(xié)議 , 這里默認使用HTTP協(xié)議
            protocol="HTTP"
            # 記錄日志文件
            appendToFile(fileName,ip+":"+port+"@"+protocol+"#"+location+","+anonymous+"\n")
        return

    elif "kuaidaili" in url:
        print u"Using : 快代理模塊"
        trs = soup.findAll('tr')
        trs = trs[1:] # 去掉表頭
        for tr in trs:
            tds = tr.findAll('td')
            ip=tds[0].string
            port=tds[1].string
            anonymous=tds[2].string
            protocol=tds[3].string
            location=tds[5].string
            tempName=url.split("/")[-1]
            fileName=u"快代理-"+tempName+"-"+str(getNowTime("%Y-%m-%d-%H-%M-%S"))+".txt"
            # 記錄日志文件
            appendToFile(fileName,ip+":"+port+"@"+protocol+"#"+location+","+anonymous+"\n")
        return
    elif "ip3366" in url:
        print u"Using : 云代理模塊"
        trs = soup.findAll('tr')
        trs = trs[1:] # 去掉表頭
        for tr in trs:
            tds = tr.findAll('td')
            ip=tds[0].string
            port=tds[1].string
            anonymous=tds[2].string
            protocol=tds[3].string
            location=tds[5].string
            tempName=url.split("page=")[-1]
            fileName=u"云代理-"+tempName+"-"+str(getNowTime("%Y-%m-%d-%H-%M-%S"))+".txt"
            # 這里有萬惡的編碼問題 , 暫時沒有能力解決 , 中文的描述就先不寫到文件里了
            # 記錄日志文件
            # appendToFile(fileName,ip+":"+port+"@"+protocol+"#"+location+","+anonymous+"\n")
            appendToFile(fileName,ip+":"+port+"@"+protocol+"\n")
        return
    else:
        return 

def getNowTime(format):
    return time.strftime(format,time.localtime(time.time()))

def appendToFile(fileName,content):
    file=open(fileName,"a+")
    file.write(content)
    file.close()

# 批量獲取代理
for url in urls:
    print "----------------------------"
    print "Getting : "+url
    analysis(url)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末芥挣,一起剝皮案震驚了整個濱河市贩挣,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖势木,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件易猫,死亡現(xiàn)場離奇詭異,居然都是意外死亡晾匠,警方通過查閱死者的電腦和手機茶袒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來混聊,“玉大人弹谁,你說我怎么就攤上這事【湎玻” “怎么了预愤?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長咳胃。 經(jīng)常有香客問我植康,道長,這世上最難降的妖魔是什么展懈? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任销睁,我火速辦了婚禮,結(jié)果婚禮上存崖,老公的妹妹穿的比我還像新娘冻记。我一直安慰自己,他們只是感情好来惧,可當我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布冗栗。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪隅居。 梳的紋絲不亂的頭發(fā)上钠至,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天,我揣著相機與錄音胎源,去河邊找鬼棉钧。 笑死,一個胖子當著我的面吹牛涕蚤,可吹牛的內(nèi)容都是我干的宪卿。 我是一名探鬼主播,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼赞季,長吁一口氣:“原來是場噩夢啊……” “哼愧捕!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起申钩,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤次绘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后撒遣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體邮偎,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年义黎,在試婚紗的時候發(fā)現(xiàn)自己被綠了禾进。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡廉涕,死狀恐怖泻云,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情狐蜕,我是刑警寧澤宠纯,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站层释,受9級特大地震影響婆瓜,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贡羔,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一廉白、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧乖寒,春花似錦猴蹂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽覆获。三九已至,卻和暖如春瓢省,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背痊班。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工勤婚, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人涤伐。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓馒胆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親凝果。 傳聞我的和親對象是個殘疾皇子祝迂,可洞房花燭夜當晚...
    茶點故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內(nèi)容