【爬蟲(chóng)】http請(qǐng)求代理設(shè)置

  1. 設(shè)置代理需要設(shè)置什么地方
  2. 如何設(shè)置代理(user-agent)
  3. 如何設(shè)置代理(proxy)
  4. 使用方式

1. 為什么要設(shè)置代理:

代理分為用戶代理use-agent和ip代理proxy兄一,兩者的區(qū)別在于user-agent更多在于本地用戶服務(wù)管理來(lái)偽裝自己,相當(dāng)于人換了件衣服,而proxy代理更傾向于服務(wù)器訪問(wèn),例如,A要訪問(wèn)B平挑,但是不能直接訪問(wèn)B,就要通過(guò)proxyC來(lái)訪問(wèn),相當(dāng)于借刀殺人的作用攀隔。

一般來(lái)說(shuō),服務(wù)器會(huì)禁止同一用戶或者同一ip在某個(gè)時(shí)段高頻率訪問(wèn)網(wǎng)站栖榨,或者為了防止黑客攻擊手段昆汹,都會(huì)對(duì)用戶進(jìn)行反爬蟲(chóng)處理,而我們需要設(shè)置代理池來(lái)偽裝自己婴栽,假裝自己不是機(jī)器人而是一個(gè)真實(shí)的用戶满粗。

2. 如何設(shè)置用戶代理(user-agent)

user-agent一般是存在http請(qǐng)求頭里面。UA是一個(gè)特殊字符串頭愚争,使得服務(wù)器能夠識(shí)別客戶使用的操作系統(tǒng)及版本映皆、CPU 類型、瀏覽器及版本轰枝、瀏覽器渲染引擎捅彻、瀏覽器語(yǔ)言、瀏覽器插件等鞍陨。

常用的ua頭包括:
UserAgent_List = [

    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",
    "Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1944.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2309.372 Safari/537.36",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/4E423F",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1",
    "Mozilla/5.0 (Windows NT 6.3; rv:36.0) Gecko/20100101 Firefox/36.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10; rv:33.0) Gecko/20100101 Firefox/33.0",
    "Mozilla/5.0 (X11; Linux i586; rv:31.0) Gecko/20100101 Firefox/31.0",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20130401 Firefox/31.0",
    "Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0",
    "Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16",
    "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14",
    "Mozilla/5.0 (Windows NT 6.0; rv:2.0) Gecko/20100101 Firefox/4.0 Opera 12.14",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0) Opera 12.14",
    "Opera/9.80 (Windows NT 5.1; U; zh-sg) Presto/2.9.181 Version/12.00"
]

3. 如何設(shè)置proxy代理(proxy)

以下是兩種方式比較常用的方式設(shè)置代理

3.1 在訪問(wèn)請(qǐng)求的時(shí)候調(diào)用代理

import requests

    proxies = { 'http': 'http://172.18.101.221:3182', 'https': 'http://172.18.101.221:1080', }

    requests.get("[http://example.org](http://example.org/)", proxies=proxies)

3.2 設(shè)置http-proxy和https-proxy全局變量

$ export HTTP_PROXY="http://10.10.1.10:3128" 

$ export HTTPS_PROXY="http://10.10.1.10:1080" 

import requests

    requests.get("[http://example.org](http://example.org/)")

3.3 若代理需要使用HTTP Basic Auth步淹,可以使用 http://user:password@host/ 語(yǔ)法:

proxies = { "http": "[http://user:pass](http://user:pass/)@10.10.1.10:3128/", }

3.4 要為某個(gè)特定的連接方式或者主機(jī)設(shè)置代理,使用 scheme://hostname 作為 key, 它會(huì)針對(duì)指定的主機(jī)和連接方式進(jìn)行匹配:
proxies = {'http://10.20.1.128': 'http://10.10.1.10:5323'}
3.5 一般來(lái)說(shuō)缭裆,這個(gè)是個(gè)人開(kāi)發(fā)的proxy代理設(shè)置键闺。企業(yè)級(jí)別的,會(huì)采用ip服務(wù)商提供的代理來(lái)獲取多個(gè)代理ip來(lái)制作一個(gè)ip代理池來(lái)負(fù)責(zé)爬蟲(chóng)的項(xiàng)目澈驼。免費(fèi)ip代理例如西刺艾杏、快代理

4. 含代理的項(xiàng)目開(kāi)發(fā):

4.1 添加代理池
4.2 不同的請(qǐng)求頭
4.3. 生成不同的請(qǐng)求

#user-agent代理池

UserAgent_List = [

    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",

    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36",

    "Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",

    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36",

    "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",

    "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",

    "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",

    "Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",

    "Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1944.0 Safari/537.36",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2309.372 Safari/537.36",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/4E423F",

    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1",

    "Mozilla/5.0 (Windows NT 6.3; rv:36.0) Gecko/20100101 Firefox/36.0",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10; rv:33.0) Gecko/20100101 Firefox/33.0",

    "Mozilla/5.0 (X11; Linux i586; rv:31.0) Gecko/20100101 Firefox/31.0",

    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20130401 Firefox/31.0",

    "Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0",

    "Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16",

    "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14",

    "Mozilla/5.0 (Windows NT 6.0; rv:2.0) Gecko/20100101 Firefox/4.0 Opera 12.14",

    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0) Opera 12.14",

    "Opera/9.80 (Windows NT 5.1; U; zh-sg) Presto/2.9.181 Version/12.00"

]

#http代理池

Http_Proxy_Pool = [

    'http://10.10.1.10:3128',

    'http://172.18.101.221:1080',    

    'http://172.18.101.221:1080',

    'http://10.10.1.10:3128',

]

#https代理池

Https_Proxy_Pool = [

    'http://10.10.1.10:3128',

    'http://172.18.101.221:1080',    

    'http://172.18.101.221:1080',

    'http://10.10.1.10:3128',

]

#獲取ip代理信息

def getProxies(){

    return {"http":random.choice(Http_Proxy_Pool),"https":random.choice(Https_Proxy_Pool)

    }

}

def get_user_agent():

    return random.choice(UserAgent_List)

#生成請(qǐng)求頭

def getHeaders():

    headers = {

    'User-Agent': get_user_agent(),

    'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

    'Accept-Encoding': 'gzip, deflate, sdch',

    'Accept-Language': 'zh-CN,zh;q=0.8',

    'Host':'www.xiaoxinxin.com',

    ...

}

#發(fā)送請(qǐng)求

import requests

def run():

    response = requests.get("www.xiaoxinxin.com", headers=getHeaders(), proxies=getProxies(), timeout=30)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市盅藻,隨后出現(xiàn)的幾起案子购桑,更是在濱河造成了極大的恐慌,老刑警劉巖氏淑,帶你破解...
    沈念sama閱讀 221,331評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件勃蜘,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡假残,警方通過(guò)查閱死者的電腦和手機(jī)缭贡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,372評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)辉懒,“玉大人阳惹,你說(shuō)我怎么就攤上這事】袅” “怎么了莹汤?”我有些...
    開(kāi)封第一講書人閱讀 167,755評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)颠印。 經(jīng)常有香客問(wèn)我纲岭,道長(zhǎng),這世上最難降的妖魔是什么线罕? 我笑而不...
    開(kāi)封第一講書人閱讀 59,528評(píng)論 1 296
  • 正文 為了忘掉前任止潮,我火速辦了婚禮,結(jié)果婚禮上钞楼,老公的妹妹穿的比我還像新娘喇闸。我一直安慰自己,他們只是感情好询件,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,526評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布燃乍。 她就那樣靜靜地躺著,像睡著了一般雳殊。 火紅的嫁衣襯著肌膚如雪橘沥。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 52,166評(píng)論 1 308
  • 那天夯秃,我揣著相機(jī)與錄音座咆,去河邊找鬼痢艺。 笑死,一個(gè)胖子當(dāng)著我的面吹牛介陶,可吹牛的內(nèi)容都是我干的堤舒。 我是一名探鬼主播,決...
    沈念sama閱讀 40,768評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼哺呜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼舌缤!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起某残,我...
    開(kāi)封第一講書人閱讀 39,664評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤国撵,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后玻墅,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體介牙,經(jīng)...
    沈念sama閱讀 46,205評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,290評(píng)論 3 340
  • 正文 我和宋清朗相戀三年澳厢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了环础。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,435評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡剩拢,死狀恐怖线得,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情徐伐,我是刑警寧澤贯钩,帶...
    沈念sama閱讀 36,126評(píng)論 5 349
  • 正文 年R本政府宣布,位于F島的核電站呵晨,受9級(jí)特大地震影響魏保,放射性物質(zhì)發(fā)生泄漏熬尺。R本人自食惡果不足惜摸屠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,804評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望粱哼。 院中可真熱鬧季二,春花似錦、人聲如沸揭措。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,276評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)绊含。三九已至桑嘶,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間躬充,已是汗流浹背逃顶。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,393評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工讨便, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人以政。 一個(gè)月前我還...
    沈念sama閱讀 48,818評(píng)論 3 376
  • 正文 我出身青樓霸褒,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親盈蛮。 傳聞我的和親對(duì)象是個(gè)殘疾皇子废菱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,442評(píng)論 2 359