歡迎關(guān)注公眾號(hào)【哈希大數(shù)據(jù)】
前言
首先簡(jiǎn)單介紹Python網(wǎng)絡(luò)爬蟲用到哪些軟件以及其如何配置
如果只做爬蟲采用如下方式就OK啦:
1.建議大家使用Python3最新版本,可直接到官網(wǎng)下載安裝僚害。
2.編譯工具建議大家用pycharm粱快。Python和pycharm的詳細(xì)安裝步驟可參考:http://blog.csdn.net/qq_29883591/article/details/52664478(謝謝陌上行走的分享)
但如果后面還要做數(shù)據(jù)分析等更進(jìn)一步的工作搀别,建議大家直接配置anaconda和pycharm碑隆,anaconda已經(jīng)集成了Python和非常多科學(xué)計(jì)算需要的包猴贰,所以不用再安裝Python麦轰。安裝步驟可參考:
http://blog.csdn.net/qq_36790747/article/details/63257244(感謝Theigrams的分享)在完成以上配置后淑倾,下面正式進(jìn)入Requests庫(kù)的學(xué)習(xí)
Requests庫(kù)的安裝與測(cè)試
Windows平臺(tái):首先介紹一種簡(jiǎn)單的安裝包的方法馏鹤,打開cmd,執(zhí)行pip install requests 命令,如下圖:
此外如果第一種方法出現(xiàn)如timeout等問題娇哆,我們還可以采用手動(dòng)方法安裝湃累,步驟如下:
1、 登陸該網(wǎng)站(https://www.lfd.uci.edu/~gohlke/pythonlibs/)下載你所需要的第三包的whl文件(用Ctrl+F命令搜索你想安裝的第三方包)碍讨,建議存儲(chǔ)在Python安裝目錄中的\Lib\site-packages目錄下治力。
2、 下載完成后打開命令行勃黍,輸入pip install 文件絕對(duì)路徑 宵统,然后點(diǎn)擊回車就OK啦
安裝完成后,新建一個(gè)存放爬蟲程序的文件夾覆获,我們打開pycharm马澈,如下圖所示打開剛才所建文件夾,然后如下圖所示弄息,在文件夾中新建一個(gè)Python文件痊班。
下面首先測(cè)試requests庫(kù)是否安裝成功。
在文件中輸入:
import requests
r=requests.get("http://www.baidu.com")
print(r.status_code)print(r.text)
對(duì)于入門的小白來(lái)說(shuō)摹量,希望大家能夠養(yǎng)成自己手動(dòng)碼代碼的習(xí)慣不要直接復(fù)制粘貼涤伐。
點(diǎn)擊下圖中的綠色按鈕進(jìn)行執(zhí)行,得到結(jié)果如下圖所示荆永,表明已經(jīng)可以正常獲取百度的首頁(yè)內(nèi)容废亭。
Requests庫(kù)的主要方法介紹
對(duì)應(yīng)于request的6種請(qǐng)求,Requests庫(kù)對(duì)應(yīng)給出了6種方法具钥。
以上請(qǐng)求的返回結(jié)果就是Response(響應(yīng))豆村,如r 以上請(qǐng)求的返回結(jié)果就是Response(響應(yīng)),如r=requests.get("http://www.baidu.com")骂删,r便是響應(yīng)掌动,它包含響應(yīng)狀態(tài):r.status_code,響應(yīng)頭:r.headers和響應(yīng)體:r.text或r.content或r.json(),分別代表響應(yīng)內(nèi)容的字符串格式宁玫,二進(jìn)制格式和json格式粗恢。此外它還包含r.encoding:從HTTP header中獲得的響應(yīng)內(nèi)容編碼方式同時(shí)程序也是利用該格式對(duì)獲取到的內(nèi)容進(jìn)行解碼的,r.apparent_encoding:從內(nèi)容中分析出的響應(yīng)內(nèi)容編碼方式欧瘪。
異常情況處理
在第一部分最后的測(cè)試中眷射,我們可以看到返回的狀態(tài)碼是200,表明響應(yīng)成功,但返回的內(nèi)容存在亂碼:
說(shuō)明解析的解碼方式不對(duì)妖碉。對(duì)此我們可以采用r.encoding = r.apparent_encoding 來(lái)解決涌庭。
此外在爬取過程中會(huì)存在很多種異常情況,為了使我們的代碼更健壯欧宜,做好異常處理很重要坐榆。
Requests庫(kù)主要有以下異常:
該表引自嵩天老師Python網(wǎng)絡(luò)爬蟲與信息提取
我們還要注意,只有當(dāng)狀態(tài)碼為200時(shí)冗茸,我們才可能獲取到想要的內(nèi)容席镀,為什么是可能呢這里留個(gè)懸念咱們之后再講。所以我們開始需要對(duì)狀態(tài)碼做if判斷夏漱,但Python提供了raise_for_status()方法豪诲,使用該方法會(huì)自動(dòng)判斷狀態(tài)碼是否等于200,不需要if判斷麻蹋。
Python中做異常處理很方便跛溉,可使用try-except語(yǔ)句,以下為簡(jiǎn)單的try...except...else的語(yǔ)法:
try:<語(yǔ)句>#運(yùn)行別的代碼except<name1>:<語(yǔ)句>#如果在try部份引發(fā)了'name1'異常扮授,執(zhí)行該部分語(yǔ)句except<name2>,<數(shù)據(jù)>:<語(yǔ)句>#如果引發(fā)了'name2'異常专肪,獲得附加的數(shù)據(jù)刹勃,執(zhí)行該部分語(yǔ)句else:<語(yǔ)句>#如果沒有異常發(fā)生執(zhí)行該部分語(yǔ)句
如果不知道具體會(huì)出現(xiàn)什么異常時(shí),可以不寫異常的名字嚎尤,Python會(huì)自動(dòng)幫你捕捉發(fā)生的異常荔仁,但這樣會(huì)比較慢,所以如果知道會(huì)出現(xiàn)的異常芽死,請(qǐng)寫到程序中乏梁。
健壯的代碼實(shí)例
一個(gè)較為健壯的利用Requests庫(kù)獲取網(wǎng)頁(yè)內(nèi)容的代碼為:
import requests
url = "http://www.baidu.com"
try:
r = requests.get(url) r.raise_for_status()
r.encoding=r.apparent_encoding # 如果出現(xiàn)HTML出現(xiàn)亂碼再加入該語(yǔ)句
print(r.text)
except Exception as e:
print("爬取失敗,錯(cuò)誤為:" + e)
小結(jié)
簡(jiǎn)單介紹了Python关贵、anaconda遇骑、pycharm的安裝與配置
介紹兩種Python安裝第三方包的方法,pip install <包名> 以及手動(dòng)安裝
簡(jiǎn)單介紹Requests庫(kù)中6種請(qǐng)求方法
如何處理爬取過程的異常情況
給出了一個(gè)簡(jiǎn)單的抓取網(wǎng)頁(yè)的樣例程序
本次分享到此結(jié)束揖曾,下次分享將對(duì)正則表達(dá)式進(jìn)行較為詳細(xì)的介紹落萎。