python爬蟲(chóng)http代理

1窜司,代理類別

1沛善,F(xiàn)TP代理服務(wù)器:主要用于訪問(wèn)FTP服務(wù)器,一般有上傳例证、下載以及緩存功能路呜,端口一般為21、2121等。

2胀葱,HTTP代理服務(wù)器:主要用于訪問(wèn)網(wǎng)頁(yè)漠秋,一般有內(nèi)容過(guò)濾和緩存功能,端口一般為80抵屿、8080庆锦、3128等。

3轧葛,SSL/TLS代理:主要用于訪問(wèn)加密網(wǎng)站搂抒,一般有SSL或TLS加密功能(最高支持128位加密強(qiáng)度),端口一般為443尿扯。

4求晶,RTSP代理:主要用于訪問(wèn)Real流媒體服務(wù)器,一般有緩存功能衷笋,端口一般為554芳杏。

5,Telnet代理:主要用于telnet遠(yuǎn)程控制(黑客入侵計(jì)算機(jī)時(shí)常用于隱藏身份)辟宗,端口一般為23爵赵。

6,POP3/SMTP代理:主要用于POP3/SMTP方式收發(fā)郵件泊脐,一般有緩存功能空幻,端口一般為110/25。

7容客,SOCKS代理:只是單純傳遞數(shù)據(jù)包秕铛,不關(guān)心具體協(xié)議和用法,所以速度快很多缩挑,一般有緩存功能如捅,端口一般為1080。SOCKS代理協(xié)議又分為SOCKS4和SOCKS5调煎,前者只支持TCP,而后者支持TCP和UDP己肮,還支持各種身份驗(yàn)證機(jī)制士袄、服務(wù)器端域名解析等。簡(jiǎn)單來(lái)說(shuō)谎僻,SOCK4能做到的SOCKS5都可以做到娄柳,但SOCKS5能做到的SOCK4不一定能做到。

2艘绍,爬蟲(chóng)代理

對(duì)于爬蟲(chóng)來(lái)說(shuō)赤拒,由于爬蟲(chóng)爬取速度過(guò)快,在爬取過(guò)程中可能遇到同一個(gè)IP訪問(wèn)過(guò)于頻繁的問(wèn)題,此時(shí)網(wǎng)站就會(huì)讓我們輸入驗(yàn)證碼登錄或者直接封鎖IP挎挖,這樣會(huì)給爬取帶來(lái)極大的不便这敬。

使用代理隱藏真實(shí)的IP,讓服務(wù)器誤以為是代理服務(wù)器在請(qǐng)求自己蕉朵。這樣在爬取過(guò)程中通過(guò)不斷更換代理崔涂,就不會(huì)被封鎖,可以達(dá)到很好的爬取效果始衅。

3冷蚂,什么是HTTP代理

,HTTP代理本質(zhì)上是一個(gè)Web應(yīng)用汛闸,它和其他普通Web應(yīng)用沒(méi)有根本區(qū)別蝙茶。HTTP代理收到請(qǐng)求后,根據(jù)Header中Host字段的主機(jī)名和Get/POST請(qǐng)求地址綜合判斷目標(biāo)主機(jī)诸老,建立新的HTTP請(qǐng)求并轉(zhuǎn)發(fā)請(qǐng)求數(shù)據(jù)隆夯,并將收到的響應(yīng)數(shù)據(jù)轉(zhuǎn)發(fā)給客戶端。

4孕锄,python使用代理訪問(wèn)服務(wù)器

python使用代理訪問(wèn)服務(wù)器主要有一下3個(gè)步驟:

1.創(chuàng)建一個(gè)代理處理器ProxyHandler:

proxy_support = urllib.request.ProxyHandler()吮廉,ProxyHandler是一個(gè)類,其參數(shù)是一個(gè)字典:{ '類型':'代理ip:端口號(hào)'}

什么是Handler畸肆?Handler也叫作處理器宦芦,每個(gè)handlers知道如何通過(guò)特定協(xié)議打開(kāi)URLs,或者如何處理URL打開(kāi)時(shí)的各個(gè)方面轴脐,例如HTTP重定向或者HTTP cookies调卑。

2.定制、創(chuàng)建一個(gè)opener:

opener = urllib.request.build_opener(proxy_support)

什么是opener大咱?python在打開(kāi)一個(gè)url鏈接時(shí)恬涧,就會(huì)使用opener。其實(shí)碴巾,urllib.request.urlopen()函數(shù)實(shí)際上是使用的是默認(rèn)的opener溯捆,只不過(guò)在這里我們需要定制一個(gè)opener來(lái)指定handler。

3a.安裝opener

urllib.request.install_opener(opener)

install_opener 用來(lái)創(chuàng)建(全局)默認(rèn)opener厦瓢,這個(gè)表示調(diào)用urlopen將使用你安裝的opener提揍。

3b.調(diào)用opener

opener.open(url)

該方法可以像urlopen函數(shù)那樣直接用來(lái)獲取urls:通常不必調(diào)用install_opener,除了為了方便煮仇。


proxy = {u'https':u'14.118.253.99:6666'}

proxy_support = urllib2.ProxyHandler(proxy)# 注冊(cè)代理

opener = urllib2.build_opener(proxy_support)

urllib2.install_opener(opener)

opener.open(url)? ? #url 是你要訪問(wèn)的地址



5劳跃,從代理ip列表中隨機(jī)使用某ip去訪問(wèn)URL的例子

import urllib.request

import random

url = 'http://www.whatismyip.com.tw'

iplist = ['115.32.41.100:80','58.30.231.36:80','123.56.90.175:3128']

proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})

opener = urllib.request.build_opener(proxy_support)

opener.addheaders = [('User-Agent','Test_Proxy_Python3.5_maminyao')]

urllib.request.install_opener(opener)

response = urllib.request.urlopen(url)

html = response.read().decode('utf-8')

print(html)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市浙垫,隨后出現(xiàn)的幾起案子刨仑,更是在濱河造成了極大的恐慌郑诺,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杉武,死亡現(xiàn)場(chǎng)離奇詭異辙诞,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)艺智,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門倘要,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人十拣,你說(shuō)我怎么就攤上這事封拧。” “怎么了夭问?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵泽西,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我缰趋,道長(zhǎng)捧杉,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任秘血,我火速辦了婚禮味抖,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘灰粮。我一直安慰自己仔涩,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布粘舟。 她就那樣靜靜地躺著熔脂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柑肴。 梳的紋絲不亂的頭發(fā)上霞揉,一...
    開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音晰骑,去河邊找鬼适秩。 笑死,一個(gè)胖子當(dāng)著我的面吹牛硕舆,可吹牛的內(nèi)容都是我干的隶症。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼岗宣,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了淋样?” 一聲冷哼從身側(cè)響起丘侠,我...
    開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎矿瘦,沒(méi)想到半個(gè)月后检号,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡萌腿,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片余指。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖跷坝,靈堂內(nèi)的尸體忽然破棺而出酵镜,到底是詐尸還是另有隱情,我是刑警寧澤柴钻,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布淮韭,位于F島的核電站,受9級(jí)特大地震影響贴届,放射性物質(zhì)發(fā)生泄漏靠粪。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一毫蚓、第九天 我趴在偏房一處隱蔽的房頂上張望占键。 院中可真熱鬧,春花似錦元潘、人聲如沸畔乙。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)啸澡。三九已至,卻和暖如春氮帐,著一層夾襖步出監(jiān)牢的瞬間嗅虏,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工上沐, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留皮服,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓参咙,卻偏偏與公主長(zhǎng)得像龄广,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蕴侧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 一择同、概述 urllib2是Python的一個(gè)針對(duì)URLs的庫(kù)。他以u(píng)rlopen函數(shù)的形式提供了一個(gè)非常簡(jiǎn)單的...
    MiracleJQ閱讀 1,490評(píng)論 0 5
  • 一净宵、網(wǎng)絡(luò)爬蟲(chóng)的定義 網(wǎng)絡(luò)爬蟲(chóng)敲才,即Web Spider裹纳,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng)紧武,那么Spide...
    隨風(fēng)化作雨閱讀 1,095評(píng)論 0 0
  • Python爬蟲(chóng)入門(urllib+Beautifulsoup) 本文包括:1剃氧、爬蟲(chóng)簡(jiǎn)單介紹2、爬蟲(chóng)架構(gòu)三大模塊3...
    廖少少閱讀 9,835評(píng)論 0 6
  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理阻星,服務(wù)發(fā)現(xiàn)朋鞍,斷路器,智...
    卡卡羅2017閱讀 134,665評(píng)論 18 139
  • 自由是太陽(yáng)的光妥箕, 遮擋著天空的顏色滥酥。 自由是月亮的暈, 藏匿著大地的紅妝矾踱。 自由是那遙不可及的海平面恨狈, 在風(fēng)起時(shí)揚(yáng)...
    墨小凝閱讀 318評(píng)論 2 2