1.爬蟲基礎(chǔ)庫之urllib

urllib庫
urllib庫是python中一個(gè)最基本的網(wǎng)絡(luò)請(qǐng)求庫婶肩×昝梗可以模擬瀏覽器的行為被盈，向指定的服務(wù)器發(fā)送一個(gè)請(qǐng)求析孽，并可以保存服務(wù)器返回的數(shù)據(jù)搭伤。

urlopen

在python3的urllib庫中，所有和網(wǎng)絡(luò)請(qǐng)求相關(guān)的方法袜瞬，都被集成到urllib.request模塊下怜俐，以下先來看urlopen函數(shù)的基本使用

from urllib import request

resp = request.urlopen('http://www.baidu.com')# 默認(rèn)是get請(qǐng)求，如果加data邓尤，則變?yōu)閜ost請(qǐng)求
print(resp.readlines())
print(resp.getcode())

實(shí)際上拍鲤，使用瀏覽器訪問百度，右鍵查看源代碼汞扎。你會(huì)發(fā)現(xiàn)殿漠，跟我們剛才打印出來的數(shù)據(jù)是一模一樣的。也就是說佩捞，上面的三行代碼就已經(jīng)幫我們把百度的首頁的全部代碼爬下來得。一個(gè)基本的url請(qǐng)求對(duì)應(yīng)的python代碼真的非常簡(jiǎn)單蕾哟。
以下對(duì)urlopen函數(shù)進(jìn)行詳細(xì)講解：

url：請(qǐng)求的url
data：請(qǐng)求的data一忱，如果設(shè)置了這個(gè)值，那么將變成post請(qǐng)求
返回值：返回值是一個(gè)http.client.HTTPResponse對(duì)象谭确，這個(gè)對(duì)象是一個(gè)類文件句柄對(duì)象帘营，有read(size)，readline逐哈，readlines以及getcode等方法芬迄。

urlretrieve

urlretrieve函數(shù)：
這個(gè)函數(shù)可以方便的將網(wǎng)頁上的一個(gè)文件保存帶本地。以下代碼可以方便將百度的首頁下載到本地：

from urllib import request

resp = request.urlopen('http://www.baidu.com')# 默認(rèn)是get請(qǐng)求昂秃，如果加data禀梳，則變?yōu)閜ost請(qǐng)求
print(resp.readlines())
print(resp.getcode())

request.urlretrieve('http://www.baidu.com','baidu.html')

urlencode

urlencode函數(shù)：
用瀏覽器發(fā)送請(qǐng)求的時(shí)候，如果url中包含了中文或者其他特殊字符肠骆，那么瀏覽器會(huì)自動(dòng)將我們進(jìn)行編碼算途。而如果使用代碼發(fā)送請(qǐng)求，那么就必須手動(dòng)的進(jìn)行編碼蚀腿，這時(shí)候就應(yīng)該使用urlencode函數(shù)來實(shí)現(xiàn)嘴瓤。urlencode可以把字典數(shù)據(jù)轉(zhuǎn)換為URL編碼的數(shù)據(jù)。示例代碼如下：

from urllib import parse

data = {'name':'張三','age':18}

ps = parse.urlencode(data)
print(ps)

打印結(jié)果

name=%E5%BC%A0%E4%B8%89&age=18

parse_qs函數(shù)
可以將經(jīng)過編碼后的url參數(shù)進(jìn)行解碼莉钙。示例代碼如下：

from urllib import parse

qs = 'name=%E5%BC%A0%E4%B8%89&age=18'
print(parse.parse_qs(qs))

打印結(jié)果：

{'name': ['張三'], 'age': ['18']}

urlparse和urlsplit

有時(shí)候拿到一個(gè)url廓脆，想要對(duì)這個(gè)url的各個(gè)組成部分進(jìn)行分割，那么這時(shí)候就可以使用urlparse或是urlsplit進(jìn)行分割磁玉。示例代碼如下：

from urllib import parse

url = 'http://www.baidu.com?user=liang'
result = parse.urlsplit(url)
print('scheme:',result.scheme)
print('netloc:',result.netloc)
print('path:',result.path)
print('query:',result.query)

打印結(jié)果

scheme: http
netloc: www.baidu.com
path: 
query: user=liang

urlsplit和urlparse基本上是一模一樣的停忿。唯一不同的是，urlparse里面多了一個(gè)params屬性蜀涨，而urlsplit沒有這個(gè)params屬性瞎嬉。比如有一個(gè)url為url=‘http"http://www.baidu.com/s;hello?wd=python#1’蝎毡，那么urlparse可以獲取到hello，而urlsplit不可以獲取到氧枣。url中的params也用的比較少沐兵。

request.Request類

如果想要在請(qǐng)求的時(shí)候增加一些請(qǐng)求頭，那么必須使用request.Request類來實(shí)現(xiàn)便监。比如要增加一個(gè)User-Agent扎谎，示例代碼如下：

from urllib import request

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'}
url = 'http://www.baidu.com'
req = request.Request(url,headers=headers)
resp = request.urlopen(req)
print(resp.read())

ProxyHandler處理器（代理設(shè)置）
很多網(wǎng)站會(huì)檢查某一段時(shí)間某個(gè)ip的訪問次數(shù)（流量統(tǒng)計(jì)，系統(tǒng)日志等）烧董，如果訪問次數(shù)多的不像正常人毁靶，它會(huì)禁止這個(gè)ip的訪問。所以我們可以設(shè)置一些代理服務(wù)器逊移，每隔一段時(shí)間換一個(gè)代理预吆，就算ip被禁止，依然可以換個(gè)ip繼續(xù)爬取胳泉。
urllib中通過ProxyHandler來設(shè)置代理服務(wù)器拐叉，下面代碼說明如何使用自定義opener來使用代理

from urllib import request

handler = request.Request({'http':'218.66.161.88:31769'})
opener = request.build_opener(handler)
req = request.Request('http://httpbin.org/ip')
resp = opener.open(req)
print(resp.read())

常用的代理有：

西刺免費(fèi)代理：http://www.xicidaili.com/
快代理：https://www.kuaidaili.com/
http://www.httpbin.org這個(gè)網(wǎng)站可以方便的查看http請(qǐng)求的一些參數(shù)

cookie

在網(wǎng)站中，http請(qǐng)求是無狀態(tài)的扇商，也就是說即使第一次和服務(wù)器連接后并且登錄成功后凤瘦，第二次請(qǐng)求服務(wù)器依然不能知道當(dāng)前請(qǐng)求是哪個(gè)用戶。cookie的出現(xiàn)就是為了解決這個(gè)問題案铺，第一登錄后服務(wù)器返回一些數(shù)據(jù)（cookie）給瀏覽器蔬芥，然后瀏覽器保存在本地，當(dāng)該用戶發(fā)送第二次請(qǐng)求的時(shí)候控汉，就會(huì)自動(dòng)把上一次請(qǐng)求存儲(chǔ)的cookie數(shù)據(jù)自動(dòng)的攜帶給服務(wù)器笔诵，服務(wù)器通過瀏覽器攜帶的數(shù)據(jù)就能判斷當(dāng)前用戶是哪個(gè)了。cookie存儲(chǔ)的數(shù)據(jù)量是有限的姑子，不同的瀏覽器有不同的存儲(chǔ)大小嗤放，但一般不超過4kB。因此使用cookie只能存儲(chǔ)一些小量的數(shù)據(jù)壁酬。
cookie的格式

Set-Cookie:NAME-VALUE; Expire/Max-age=DATE;Path=Path; Domain=DOMAIN_NAME; SECURE

參數(shù)意義：

NAME：Cookie的名字
VALUE：Cookie的值
Expire：Cookie的過期時(shí)間
Path：Cookie作用的路徑
Domain：Cookie作用的域名
SECURE：是否只在https協(xié)議下起作用

使用cookielib和HTTPCookieProcessor模擬登錄：
cookie是指網(wǎng)站服務(wù)器為了辨別用戶和進(jìn)行session（會(huì)話）跟蹤次酌，而存儲(chǔ)在瀏覽器上的文本文件，cookie可以保持登錄信息到用戶下次與服務(wù)器的會(huì)話舆乔。
這里以人人網(wǎng)為例岳服。人人網(wǎng)中，要訪問某個(gè)人的主頁希俩，必須先登錄才能訪問吊宋，登錄說白了就是要有cookie信息。那么如果我們想要用代碼的方式訪問颜武，就必須要有正確的cookie信息才能訪問璃搜。解決方案有兩種拖吼，第一種是使用瀏覽器訪問，然后將cookie信息復(fù)制下來放到headers中这吻。示例代碼如下：

from urllib import request

headers = {
    "User-Agent":'xxxxxxxx',
    "Cookie":'yyyyyyyyyyy'
}

url = 'http://www.renren.com/880151247/profile'

req = request.Request(url,headers=headers)
resp = request.urlopen(req)
with open('renren.html','w') as fp:
    fp.write(resp.read().decode('utf-8'))

但是每次在訪問需要cookie的頁面都要重瀏覽器中復(fù)制cookie比較麻煩誊役。在python處理cookie却邓，一般通過http.cookiejar模塊和urllib模塊的HTTPCookieProcessor處理模塊類一起使用恶导。http.cookiejar模塊主要作用是提供用于存儲(chǔ)cookie對(duì)象淮摔。而HTTPCookieProcessor處理器主要作用是處理這些cookie對(duì)象，并構(gòu)建handler對(duì)象

from urllib import request
from http.cookiejar import MozillaCookieJar

cookiejar = MozillaCookieJar('cookie.txt')
handler = request.HTTPCookieProcessor(cookiejar)
opener = request.build_opener(handler)

resp = opener.open('http://httpbin.org/cookies/set?course=abc')
cookiejar.save(ignore_discard=True)

查看生成的cookie.txt

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

httpbin.org FALSE   /   FALSE       course  abc

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末移怯，一起剝皮案震驚了整個(gè)濱河市香璃，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌舟误，老刑警劉巖葡秒，帶你破解...
沈念sama閱讀 219,490評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異嵌溢，居然都是意外死亡同云，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,581評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門堵腹，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人星澳，你說我怎么就攤上這事疚顷。” “怎么了禁偎？”我有些...
開封第一講書人閱讀 165,830評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵腿堤，是天一觀的道長(zhǎng)。經(jīng)常有香客問我如暖，道長(zhǎng)笆檀，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,957評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任盒至，我火速辦了婚禮酗洒，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘枷遂。我一直安慰自己樱衷，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,974評(píng)論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布酒唉。她就那樣靜靜地躺著矩桂，像睡著了一般。火紅的嫁衣襯著肌膚如雪痪伦。梳的紋絲不亂的頭發(fā)上侄榴，一...
開封第一講書人閱讀 51,754評(píng)論 1贊 307
城市分裂傳說
那天雹锣，我揣著相機(jī)與錄音，去河邊找鬼癞蚕。笑死蕊爵，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的涣达。我是一名探鬼主播在辆，決...
沈念sama閱讀 40,464評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼度苔！你這毒婦竟也來了匆篓？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,357評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤寇窑，失蹤者是張志新（化名）和其女友劉穎鸦概，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體甩骏，經(jīng)...
沈念sama閱讀 45,847評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡窗市，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,995評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了饮笛。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咨察。...
茶點(diǎn)故事閱讀 40,137評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖福青，靈堂內(nèi)的尸體忽然破棺而出摄狱，到底是詐尸還是另有隱情，我是刑警寧澤无午，帶...
沈念sama閱讀 35,819評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布媒役，位于F島的核電站，受9級(jí)特大地震影響宪迟，放射性物質(zhì)發(fā)生泄漏酣衷。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,482評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一次泽、第九天我趴在偏房一處隱蔽的房頂上張望穿仪。院中可真熱鬧，春花似錦意荤、人聲如沸牡借。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,023評(píng)論 0贊 22
一樁弒父案袭异，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽钠龙。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間碴里，已是汗流浹背沈矿。一陣腳步聲響...
開封第一講書人閱讀 33,149評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留咬腋，地道東北人羹膳。一個(gè)月前我還...
沈念sama閱讀 48,409評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像根竿，于是被迫代替她去往敵國(guó)和親陵像。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,086評(píng)論 2贊 355