Python入門網(wǎng)絡(luò)爬蟲之精華版

網(wǎng)址: https://github.com/lining0806/PythonSpiderNotes

Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個(gè)大的版塊：抓取构哺，分析，存儲(chǔ)

另外徐伐，比較常用的爬蟲框架Scrapy评甜，這里最后也詳細(xì)介紹一下。

首先列舉一下本人總結(jié)的相關(guān)文章福澡，這些覆蓋了入門網(wǎng)絡(luò)爬蟲需要的基本概念和技巧：寧哥的小站-網(wǎng)絡(luò)爬蟲

當(dāng)我們?cè)跒g覽器中輸入一個(gè)url后回車谦屑，后臺(tái)會(huì)發(fā)生什么马靠？比如說(shuō)你輸入http://www.lining0806.com/，你就會(huì)看到寧哥的小站首頁(yè)看蚜。

簡(jiǎn)單來(lái)說(shuō)這段過(guò)程發(fā)生了以下四個(gè)步驟：

查找域名對(duì)應(yīng)的IP地址叫搁。

向IP對(duì)應(yīng)的服務(wù)器發(fā)送請(qǐng)求。

服務(wù)器響應(yīng)請(qǐng)求供炎，發(fā)回網(wǎng)頁(yè)內(nèi)容渴逻。

瀏覽器解析網(wǎng)頁(yè)內(nèi)容。

網(wǎng)絡(luò)爬蟲要做的音诫，簡(jiǎn)單來(lái)說(shuō)惨奕，就是實(shí)現(xiàn)瀏覽器的功能。通過(guò)指定url竭钝，直接返回給用戶所需要的數(shù)據(jù)梨撞，而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步香罐，你要明確要得到的內(nèi)容是什么卧波？是HTML源碼，還是Json格式的字符串等庇茫。

1. 最基本的抓取

抓取大多數(shù)情況屬于get請(qǐng)求港粱，即直接從對(duì)方服務(wù)器上獲取數(shù)據(jù)。

首先旦签，Python中自帶urllib及urllib2這兩個(gè)模塊啥容，基本上能滿足一般的頁(yè)面抓取。另外顷霹，requests也是非常有用的包咪惠，與此類似的，還有httplib2等等淋淀。

Requests：

import requests

response = requests.get(url)

content = requests.get(url).content

print "response headers:", response.headers

print "content:", content

Urllib2：

import urllib2

response = urllib2.urlopen(url)

content = urllib2.urlopen(url).read()

print "response headers:", response.headers

print "content:", content

Httplib2：

import httplib2

http = httplib2.Http()

response_headers, content = http.request(url, 'GET')

print "response headers:", response_headers

print "content:", content

此外遥昧，對(duì)于帶有查詢字段的url，get請(qǐng)求一般會(huì)將來(lái)請(qǐng)求的數(shù)據(jù)附在url之后朵纷，以?分割url和傳輸數(shù)據(jù)炭臭，多個(gè)參數(shù)用&連接。

data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests：data為dict袍辞，json

import requests

response = requests.get(url=url, params=data)

Urllib2：data為string

import urllib, urllib2

data = urllib.urlencode(data)

full_url = url+'?'+data

response = urllib2.urlopen(full_url)

相關(guān)參考：網(wǎng)易新聞排行榜抓取回顧

參考項(xiàng)目：網(wǎng)絡(luò)爬蟲之最基本的爬蟲：爬取網(wǎng)易新聞排行榜

2. 對(duì)于登陸情況的處理

2.1 使用表單登陸

這種情況屬于post請(qǐng)求鞋仍，即先向服務(wù)器發(fā)送表單數(shù)據(jù)，服務(wù)器再將返回的cookie存入本地搅吁。

data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests：data為dict威创，json

import requests

response = requests.post(url=url, data=data)

Urllib2：data為string

import urllib, urllib2

data = urllib.urlencode(data)

req = urllib2.Request(url=url, data=data)

response = urllib2.urlopen(req)

2.2 使用cookie登陸

使用cookie登陸落午，服務(wù)器會(huì)認(rèn)為你是一個(gè)已登陸的用戶，所以就會(huì)返回給你一個(gè)已登陸的內(nèi)容肚豺。因此溃斋，需要驗(yàn)證碼的情況可以使用帶驗(yàn)證碼登陸的cookie解決。

import requests

requests_session = requests.session()

response = requests_session.post(url=url_login, data=data)

若存在驗(yàn)證碼吸申，此時(shí)采用response = requests_session.post(url=url_login, data=data)是不行的梗劫，做法應(yīng)該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)

response1 = requests.get(url_login) # 未登陸

response2 = requests_session.get(url_login) # 已登陸，因?yàn)橹澳玫搅薘esponse Cookie截碴！

response3 = requests_session.get(url_results) # 已登陸梳侨，因?yàn)橹澳玫搅薘esponse Cookie！

相關(guān)參考：網(wǎng)絡(luò)爬蟲-驗(yàn)證碼登陸

參考項(xiàng)目：網(wǎng)絡(luò)爬蟲之用戶名密碼及驗(yàn)證碼登陸：爬取知乎網(wǎng)站

3. 對(duì)于反爬蟲機(jī)制的處理

3.1 使用代理

適用情況：限制IP地址情況日丹，也可解決由于“頻繁點(diǎn)擊”而需要輸入驗(yàn)證碼登陸的情況猫妙。

這種情況最好的辦法就是維護(hù)一個(gè)代理IP池，網(wǎng)上有很多免費(fèi)的代理IP聚凹，良莠不齊割坠，可以通過(guò)篩選找到能用的。對(duì)于“頻繁點(diǎn)擊”的情況妒牙，我們還可以通過(guò)限制爬蟲訪問(wèn)網(wǎng)站的頻率來(lái)避免被網(wǎng)站禁掉彼哼。

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}

Requests：

import requests

response = requests.get(url=url, proxies=proxies)

Urllib2：

import urllib2

proxy_support = urllib2.ProxyHandler(proxies)

opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)

urllib2.install_opener(opener) # 安裝opener，此后調(diào)用urlopen()時(shí)都會(huì)使用安裝過(guò)的opener對(duì)象

response = urllib2.urlopen(url)

3.2 時(shí)間設(shè)置

適用情況：限制頻率情況湘今。

Requests敢朱，Urllib2都可以使用time庫(kù)的sleep()函數(shù)：

import time

time.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”

有些網(wǎng)站會(huì)檢查你是不是真的瀏覽器訪問(wèn)摩瞎，還是機(jī)器自動(dòng)訪問(wèn)的拴签。這種情況，加上User-Agent旗们，表明你是瀏覽器訪問(wèn)即可蚓哩。有時(shí)還會(huì)檢查是否帶Referer信息還會(huì)檢查你的Referer是否合法，一般再加上Referer上渴。

headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問(wèn)岸梨，適用于拒絕爬蟲的網(wǎng)站

headers = {'Referer':'XXXXX'}

headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}

Requests：

response = requests.get(url=url, headers=headers)

Urllib2：

import urllib, urllib2

req = urllib2.Request(url=url, headers=headers)

response = urllib2.urlopen(req)

4. 對(duì)于斷線重連

不多說(shuō)。

def multi_session(session, *arg):

retryTimes = 20

while retryTimes>0:

try:

return session.post(*arg)

except:

print '.',

retryTimes -= 1

或者

def multi_open(opener, *arg):

retryTimes = 20

while retryTimes>0:

try:

return opener.open(*arg)

except:

print '.',

retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對(duì)爬蟲抓取的session或opener進(jìn)行保持稠氮。

5. 多進(jìn)程抓取

這里針對(duì)華爾街見(jiàn)聞進(jìn)行并行抓取的實(shí)驗(yàn)對(duì)比：Python多進(jìn)程抓取與Java單線程和多線程抓取

6. 對(duì)于Ajax請(qǐng)求的處理

對(duì)于“加載更多”情況曹阔，使用Ajax來(lái)傳輸很多數(shù)據(jù)。

它的工作原理是：從網(wǎng)頁(yè)的url加載網(wǎng)頁(yè)的源代碼之后隔披，會(huì)在瀏覽器里執(zhí)行JavaScript程序赃份。這些程序會(huì)加載更多的內(nèi)容，“填充”到網(wǎng)頁(yè)里奢米。這就是為什么如果你直接去爬網(wǎng)頁(yè)本身的url抓韩，你會(huì)找不到頁(yè)面的實(shí)際內(nèi)容纠永。

這里，若使用Google Chrome分析”請(qǐng)求“對(duì)應(yīng)的鏈接(方法：右鍵→審查元素→Network→清空园蝠，點(diǎn)擊”加載更多“，出現(xiàn)對(duì)應(yīng)的GET鏈接尋找Type為text/html的痢士，點(diǎn)擊彪薛，查看get參數(shù)或者復(fù)制Request URL)，循環(huán)過(guò)程怠蹂。

如果“請(qǐng)求”之前有頁(yè)面善延，依據(jù)上一步的網(wǎng)址進(jìn)行分析推導(dǎo)第1頁(yè)。以此類推城侧，抓取抓Ajax地址的數(shù)據(jù)易遣。

對(duì)返回的json格式數(shù)據(jù)(str)進(jìn)行正則匹配。json格式數(shù)據(jù)中嫌佑，需從'\uxxxx'形式的unicode_escape編碼轉(zhuǎn)換成u'\uxxxx'的unicode編碼豆茫。

7. 自動(dòng)化測(cè)試工具Selenium

Selenium是一款自動(dòng)化測(cè)試工具。它能實(shí)現(xiàn)操縱瀏覽器屋摇，包括字符填充揩魂、鼠標(biāo)點(diǎn)擊、獲取元素炮温、頁(yè)面切換等一系列操作火脉。總之柒啤，凡是瀏覽器能做的事倦挂，Selenium都能夠做到。

這里列出在給定城市列表后担巩，使用selenium來(lái)動(dòng)態(tài)抓取去哪兒網(wǎng)的票價(jià)信息的代碼方援。

參考項(xiàng)目：網(wǎng)絡(luò)爬蟲之Selenium使用代理登陸：爬取去哪兒網(wǎng)站

8. 驗(yàn)證碼識(shí)別

對(duì)于網(wǎng)站有驗(yàn)證碼的情況，我們有三種辦法：

使用代理涛癌，更新IP肯骇。

使用cookie登陸。

驗(yàn)證碼識(shí)別祖很。

使用代理和使用cookie登陸之前已經(jīng)講過(guò)笛丙，下面講一下驗(yàn)證碼識(shí)別。

可以利用開源的Tesseract-OCR系統(tǒng)進(jìn)行驗(yàn)證碼圖片的下載及識(shí)別假颇，將識(shí)別的字符傳到爬蟲系統(tǒng)進(jìn)行模擬登陸胚鸯。當(dāng)然也可以將驗(yàn)證碼圖片上傳到打碼平臺(tái)上進(jìn)行識(shí)別。如果不成功笨鸡，可以再次更新驗(yàn)證碼識(shí)別姜钳，直到成功為止坦冠。

參考項(xiàng)目：驗(yàn)證碼識(shí)別項(xiàng)目第一版：Captcha1

爬取有兩個(gè)需要注意的問(wèn)題：

如何監(jiān)控一系列網(wǎng)站的更新情況，也就是說(shuō)哥桥，如何進(jìn)行增量式爬日藁搿？

對(duì)于海量數(shù)據(jù)拟糕，如何實(shí)現(xiàn)分布式爬扰信弧？

分析

抓取之后就是對(duì)抓取的內(nèi)容進(jìn)行分析送滞，你需要什么內(nèi)容侠草，就從中提煉出相關(guān)的內(nèi)容來(lái)。

常見(jiàn)的分析工具有正則表達(dá)式犁嗅，BeautifulSoup边涕，lxml等等。

存儲(chǔ)

分析出我們需要的內(nèi)容之后褂微，接下來(lái)就是存儲(chǔ)了功蜓。

我們可以選擇存入文本文件，也可以選擇存入MySQL或MongoDB數(shù)據(jù)庫(kù)等宠蚂。

存儲(chǔ)有兩個(gè)需要注意的問(wèn)題：

如何進(jìn)行網(wǎng)頁(yè)去重霞赫？

內(nèi)容以什么形式存儲(chǔ)？

Scrapy

Scrapy是一個(gè)基于Twisted的開源的Python爬蟲框架肥矢，在工業(yè)中應(yīng)用非常廣泛端衰。

相關(guān)內(nèi)容可以參考基于Scrapy網(wǎng)絡(luò)爬蟲的搭建，同時(shí)給出這篇文章介紹的微信搜索爬取的項(xiàng)目代碼甘改，給大家作為學(xué)習(xí)參考旅东。

參考項(xiàng)目：使用Scrapy或Requests遞歸抓取微信搜索結(jié)果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市十艾，隨后出現(xiàn)的幾起案子抵代，更是在濱河造成了極大的恐慌，老刑警劉巖忘嫉，帶你破解...
沈念sama閱讀 221,576評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件荤牍，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡庆冕，警方通過(guò)查閱死者的電腦和手機(jī)康吵，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,515評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)访递，“玉大人晦嵌，你說(shuō)我怎么就攤上這事。” “怎么了惭载？”我有些...
開封第一講書人閱讀 168,017評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵旱函，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我描滔，道長(zhǎng)棒妨，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,626評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任含长，我火速辦了婚禮券腔，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘茎芋。我一直安慰自己颅眶，他們只是感情好蜈出，可當(dāng)我...
茶點(diǎn)故事閱讀 68,625評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布田弥。她就那樣靜靜地躺著，像睡著了一般铡原。火紅的嫁衣襯著肌膚如雪偷厦。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,255評(píng)論 1贊 308
城市分裂傳說(shuō)
那天燕刻，我揣著相機(jī)與錄音只泼，去河邊找鬼。笑死卵洗，一個(gè)胖子當(dāng)著我的面吹牛请唱，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播过蹂，決...
沈念sama閱讀 40,825評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼十绑，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了酷勺？” 一聲冷哼從身側(cè)響起本橙，我...
開封第一講書人閱讀 39,729評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎脆诉，沒(méi)想到半個(gè)月后甚亭，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,271評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡击胜，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,363評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年亏狰，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片偶摔。...
茶點(diǎn)故事閱讀 40,498評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡骚揍，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情信不，我是刑警寧澤嘲叔，帶...
沈念sama閱讀 36,183評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站抽活，受9級(jí)特大地震影響硫戈，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜下硕，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,867評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一丁逝、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧梭姓，春花似錦霜幼、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,338評(píng)論 0贊 24
一樁弒父案罪既，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至铡恕，卻和暖如春琢感，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背探熔。一陣腳步聲響...
開封第一講書人閱讀 33,458評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工驹针，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人诀艰。一個(gè)月前我還...
沈念sama閱讀 48,906評(píng)論 3贊 376
代替公主和親
正文我出身青樓柬甥，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親其垄。傳聞我的和親對(duì)象是個(gè)殘疾皇子苛蒲，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,507評(píng)論 2贊 359

Python入門網(wǎng)絡(luò)爬蟲之精華版

推薦閱讀更多精彩內(nèi)容