1.爬蟲基礎(chǔ)庫之urllib

urllib
urllib庫是python中一個(gè)最基本的網(wǎng)絡(luò)請(qǐng)求庫婶肩×昝梗可以模擬瀏覽器的行為被盈,向指定的服務(wù)器發(fā)送一個(gè)請(qǐng)求析孽,并可以保存服務(wù)器返回的數(shù)據(jù)搭伤。

urlopen

在python3的urllib庫中,所有和網(wǎng)絡(luò)請(qǐng)求相關(guān)的方法袜瞬,都被集成到urllib.request模塊下怜俐,以下先來看urlopen函數(shù)的基本使用

from urllib import request

resp = request.urlopen('http://www.baidu.com')# 默認(rèn)是get請(qǐng)求,如果加data邓尤,則變?yōu)閜ost請(qǐng)求
print(resp.readlines())
print(resp.getcode())

實(shí)際上拍鲤,使用瀏覽器訪問百度,右鍵查看源代碼汞扎。你會(huì)發(fā)現(xiàn)殿漠,跟我們剛才打印出來的數(shù)據(jù)是一模一樣的。也就是說佩捞,上面的三行代碼就已經(jīng)幫我們把百度的首頁的全部代碼爬下來得。一個(gè)基本的url請(qǐng)求對(duì)應(yīng)的python代碼真的非常簡(jiǎn)單蕾哟。
以下對(duì)urlopen函數(shù)進(jìn)行詳細(xì)講解:

  1. url:請(qǐng)求的url
  2. data:請(qǐng)求的data一忱,如果設(shè)置了這個(gè)值,那么將變成post請(qǐng)求
  3. 返回值:返回值是一個(gè)http.client.HTTPResponse對(duì)象谭确,這個(gè)對(duì)象是一個(gè)類文件句柄對(duì)象帘营,有read(size),readline逐哈,readlines以及getcode等方法芬迄。

urlretrieve

urlretrieve函數(shù):
這個(gè)函數(shù)可以方便的將網(wǎng)頁上的一個(gè)文件保存帶本地。以下代碼可以方便將百度的首頁下載到本地:

from urllib import request

resp = request.urlopen('http://www.baidu.com')# 默認(rèn)是get請(qǐng)求昂秃,如果加data禀梳,則變?yōu)閜ost請(qǐng)求
print(resp.readlines())
print(resp.getcode())

request.urlretrieve('http://www.baidu.com','baidu.html')

urlencode

urlencode函數(shù):
用瀏覽器發(fā)送請(qǐng)求的時(shí)候,如果url中包含了中文或者其他特殊字符肠骆,那么瀏覽器會(huì)自動(dòng)將我們進(jìn)行編碼算途。而如果使用代碼發(fā)送請(qǐng)求,那么就必須手動(dòng)的進(jìn)行編碼蚀腿,這時(shí)候就應(yīng)該使用urlencode函數(shù)來實(shí)現(xiàn)嘴瓤。urlencode可以把字典數(shù)據(jù)轉(zhuǎn)換為URL編碼的數(shù)據(jù)。示例代碼如下:

from urllib import parse

data = {'name':'張三','age':18}

ps = parse.urlencode(data)
print(ps)

打印結(jié)果

name=%E5%BC%A0%E4%B8%89&age=18

parse_qs函數(shù)
可以將經(jīng)過編碼后的url參數(shù)進(jìn)行解碼莉钙。示例代碼如下:

from urllib import parse

qs = 'name=%E5%BC%A0%E4%B8%89&age=18'
print(parse.parse_qs(qs))

打印結(jié)果:

{'name': ['張三'], 'age': ['18']}

urlparse和urlsplit

有時(shí)候拿到一個(gè)url廓脆,想要對(duì)這個(gè)url的各個(gè)組成部分進(jìn)行分割,那么這時(shí)候就可以使用urlparse或是urlsplit進(jìn)行分割磁玉。示例代碼如下:

from urllib import parse

url = 'http://www.baidu.com?user=liang'
result = parse.urlsplit(url)
print('scheme:',result.scheme)
print('netloc:',result.netloc)
print('path:',result.path)
print('query:',result.query)

打印結(jié)果

scheme: http
netloc: www.baidu.com
path: 
query: user=liang

urlspliturlparse基本上是一模一樣的停忿。唯一不同的是,urlparse里面多了一個(gè)params屬性蜀涨,而urlsplit沒有這個(gè)params屬性瞎嬉。比如有一個(gè)url為url=‘http"http://www.baidu.com/s;hello?wd=python#1’蝎毡,那么urlparse可以獲取到hello,而urlsplit不可以獲取到氧枣。url中的params也用的比較少沐兵。

request.Request類

如果想要在請(qǐng)求的時(shí)候增加一些請(qǐng)求頭,那么必須使用request.Request類來實(shí)現(xiàn)便监。比如要增加一個(gè)User-Agent扎谎,示例代碼如下:

from urllib import request

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'}
url = 'http://www.baidu.com'
req = request.Request(url,headers=headers)
resp = request.urlopen(req)
print(resp.read())

ProxyHandler處理器(代理設(shè)置)
很多網(wǎng)站會(huì)檢查某一段時(shí)間某個(gè)ip的訪問次數(shù)(流量統(tǒng)計(jì),系統(tǒng)日志等)烧董,如果訪問次數(shù)多的不像正常人毁靶,它會(huì)禁止這個(gè)ip的訪問。所以我們可以設(shè)置一些代理服務(wù)器逊移,每隔一段時(shí)間換一個(gè)代理预吆,就算ip被禁止,依然可以換個(gè)ip繼續(xù)爬取胳泉。
urllib中通過ProxyHandler來設(shè)置代理服務(wù)器拐叉,下面代碼說明如何使用自定義opener來使用代理

from urllib import request

handler = request.Request({'http':'218.66.161.88:31769'})
opener = request.build_opener(handler)
req = request.Request('http://httpbin.org/ip')
resp = opener.open(req)
print(resp.read())

常用的代理有:

cookie

在網(wǎng)站中,http請(qǐng)求是無狀態(tài)的扇商,也就是說即使第一次和服務(wù)器連接后并且登錄成功后凤瘦,第二次請(qǐng)求服務(wù)器依然不能知道當(dāng)前請(qǐng)求是哪個(gè)用戶。cookie的出現(xiàn)就是為了解決這個(gè)問題案铺,第一登錄后服務(wù)器返回一些數(shù)據(jù)(cookie)給瀏覽器蔬芥,然后瀏覽器保存在本地,當(dāng)該用戶發(fā)送第二次請(qǐng)求的時(shí)候控汉,就會(huì)自動(dòng)把上一次請(qǐng)求存儲(chǔ)的cookie數(shù)據(jù)自動(dòng)的攜帶給服務(wù)器笔诵,服務(wù)器通過瀏覽器攜帶的數(shù)據(jù)就能判斷當(dāng)前用戶是哪個(gè)了。cookie存儲(chǔ)的數(shù)據(jù)量是有限的姑子,不同的瀏覽器有不同的存儲(chǔ)大小嗤放,但一般不超過4kB。因此使用cookie只能存儲(chǔ)一些小量的數(shù)據(jù)壁酬。
cookie的格式

Set-Cookie:NAME-VALUE; Expire/Max-age=DATE;Path=Path; Domain=DOMAIN_NAME; SECURE

參數(shù)意義:

  • NAME:Cookie的名字
  • VALUE:Cookie的值
  • Expire:Cookie的過期時(shí)間
  • Path:Cookie作用的路徑
  • Domain:Cookie作用的域名
  • SECURE:是否只在https協(xié)議下起作用

使用cookielibHTTPCookieProcessor模擬登錄:
cookie是指網(wǎng)站服務(wù)器為了辨別用戶和進(jìn)行session(會(huì)話)跟蹤次酌,而存儲(chǔ)在瀏覽器上的文本文件,cookie可以保持登錄信息到用戶下次與服務(wù)器的會(huì)話舆乔。
這里以人人網(wǎng)為例岳服。人人網(wǎng)中,要訪問某個(gè)人的主頁希俩,必須先登錄才能訪問吊宋,登錄說白了就是要有cookie信息。那么如果我們想要用代碼的方式訪問颜武,就必須要有正確的cookie信息才能訪問璃搜。解決方案有兩種拖吼,第一種是使用瀏覽器訪問,然后將cookie信息復(fù)制下來放到headers中这吻。示例代碼如下:

from urllib import request

headers = {
    "User-Agent":'xxxxxxxx',
    "Cookie":'yyyyyyyyyyy'
}

url = 'http://www.renren.com/880151247/profile'

req = request.Request(url,headers=headers)
resp = request.urlopen(req)
with open('renren.html','w') as fp:
    fp.write(resp.read().decode('utf-8'))

但是每次在訪問需要cookie的頁面都要重瀏覽器中復(fù)制cookie比較麻煩誊役。在python處理cookie却邓,一般通過http.cookiejar模塊和urllib模塊的HTTPCookieProcessor處理模塊類一起使用恶导。http.cookiejar模塊主要作用是提供用于存儲(chǔ)cookie對(duì)象淮摔。而HTTPCookieProcessor處理器主要作用是處理這些cookie對(duì)象,并構(gòu)建handler對(duì)象

from urllib import request
from http.cookiejar import MozillaCookieJar

cookiejar = MozillaCookieJar('cookie.txt')
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)

resp = opener.open('http://httpbin.org/cookies/set?course=abc')
cookiejar.save(ignore_discard=True)

查看生成的cookie.txt

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

httpbin.org FALSE   /   FALSE       course  abc
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末移怯,一起剝皮案震驚了整個(gè)濱河市香璃,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌舟误,老刑警劉巖葡秒,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異嵌溢,居然都是意外死亡同云,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門堵腹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人星澳,你說我怎么就攤上這事疚顷。” “怎么了禁偎?”我有些...
    開封第一講書人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵腿堤,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我如暖,道長(zhǎng)笆檀,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任盒至,我火速辦了婚禮酗洒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘枷遂。我一直安慰自己樱衷,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開白布酒唉。 她就那樣靜靜地躺著矩桂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪痪伦。 梳的紋絲不亂的頭發(fā)上侄榴,一...
    開封第一講書人閱讀 51,754評(píng)論 1 307
  • 那天雹锣,我揣著相機(jī)與錄音,去河邊找鬼癞蚕。 笑死蕊爵,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的涣达。 我是一名探鬼主播在辆,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼度苔!你這毒婦竟也來了匆篓?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤寇窑,失蹤者是張志新(化名)和其女友劉穎鸦概,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體甩骏,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡窗市,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了饮笛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咨察。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖福青,靈堂內(nèi)的尸體忽然破棺而出摄狱,到底是詐尸還是另有隱情,我是刑警寧澤无午,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布媒役,位于F島的核電站,受9級(jí)特大地震影響宪迟,放射性物質(zhì)發(fā)生泄漏酣衷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一次泽、第九天 我趴在偏房一處隱蔽的房頂上張望穿仪。 院中可真熱鬧,春花似錦意荤、人聲如沸牡借。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钠龙。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間碴里,已是汗流浹背沈矿。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留咬腋,地道東北人羹膳。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像根竿,于是被迫代替她去往敵國(guó)和親陵像。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 說好的每天都是寵寵日寇壳,實(shí)際上醒颖,只有每月的你那一天休假,才是寵寵日壳炎。
    曼曼冰冰閱讀 251評(píng)論 3 0
  • 誠(chéng)邀馬春梅小姐于今晚七點(diǎn)共進(jìn)晚餐泞歉,地點(diǎn)熙街同期聲旁,不見不散 到了call me 喲 ...............
    木子有毒閱讀 225評(píng)論 0 0
  • 2017年9月6日 周三 陰 在簡(jiǎn)書的第二十五天匿辩,我寫的第十三篇文章《由產(chǎn)婦跳樓想到母系社會(huì)的即將崛起》這次真的被...
    木木青苔閱讀 248評(píng)論 0 4
  • 一高大男性腰耙,71歲,皮膚白潤(rùn)铲球,少皺紋挺庞,年輕時(shí)練過拳擊,舉重可達(dá)兩百斤稼病,俯臥撐一口氣上百個(gè)选侨,近來氣喘,乏力溯饵。黃芪 白...
    小艾君閱讀 175評(píng)論 0 0