小白學(xué)爬蟲連載（2）--Requests庫(kù)介紹

歡迎關(guān)注公眾號(hào)【哈希大數(shù)據(jù)】

前言
首先簡(jiǎn)單介紹Python網(wǎng)絡(luò)爬蟲用到哪些軟件以及其如何配置
如果只做爬蟲采用如下方式就OK啦：
1.建議大家使用Python3最新版本，可直接到官網(wǎng)下載安裝僚害。
2.編譯工具建議大家用pycharm粱快。Python和pycharm的詳細(xì)安裝步驟可參考：http://blog.csdn.net/qq_29883591/article/details/52664478（謝謝陌上行走的分享）
但如果后面還要做數(shù)據(jù)分析等更進(jìn)一步的工作搀别，建議大家直接配置anaconda和pycharm碑隆，anaconda已經(jīng)集成了Python和非常多科學(xué)計(jì)算需要的包猴贰，所以不用再安裝Python麦轰。安裝步驟可參考：
http://blog.csdn.net/qq_36790747/article/details/63257244（感謝Theigrams的分享）在完成以上配置后淑倾，下面正式進(jìn)入Requests庫(kù)的學(xué)習(xí)

Requests庫(kù)的安裝與測(cè)試

Windows平臺(tái)：首先介紹一種簡(jiǎn)單的安裝包的方法馏鹤，打開cmd,執(zhí)行pip install requests 命令，如下圖:

image

此外如果第一種方法出現(xiàn)如timeout等問題娇哆，我們還可以采用手動(dòng)方法安裝湃累，步驟如下：
1、登陸該網(wǎng)站（https://www.lfd.uci.edu/~gohlke/pythonlibs/）下載你所需要的第三包的whl文件（用Ctrl+F命令搜索你想安裝的第三方包）碍讨，建議存儲(chǔ)在Python安裝目錄中的\Lib\site-packages目錄下治力。
2、下載完成后打開命令行勃黍，輸入pip install 文件絕對(duì)路徑宵统，然后點(diǎn)擊回車就OK啦

image

安裝完成后，新建一個(gè)存放爬蟲程序的文件夾覆获，我們打開pycharm马澈，如下圖所示打開剛才所建文件夾，然后如下圖所示弄息，在文件夾中新建一個(gè)Python文件痊班。

image

下面首先測(cè)試requests庫(kù)是否安裝成功。
在文件中輸入：

import requests
r=requests.get("http://www.baidu.com")
print(r.status_code)print(r.text)

對(duì)于入門的小白來(lái)說(shuō)摹量，希望大家能夠養(yǎng)成自己手動(dòng)碼代碼的習(xí)慣不要直接復(fù)制粘貼涤伐。
點(diǎn)擊下圖中的綠色按鈕進(jìn)行執(zhí)行，得到結(jié)果如下圖所示荆永，表明已經(jīng)可以正常獲取百度的首頁(yè)內(nèi)容废亭。

image

Requests庫(kù)的主要方法介紹

對(duì)應(yīng)于request的6種請(qǐng)求，Requests庫(kù)對(duì)應(yīng)給出了6種方法具钥。

image

以上請(qǐng)求的返回結(jié)果就是Response（響應(yīng)）豆村，如r 以上請(qǐng)求的返回結(jié)果就是Response（響應(yīng)），如r=requests.get("http://www.baidu.com")骂删，r便是響應(yīng)掌动，它包含響應(yīng)狀態(tài)：r.status_code,響應(yīng)頭：r.headers和響應(yīng)體：r.text或r.content或r.json()，分別代表響應(yīng)內(nèi)容的字符串格式宁玫，二進(jìn)制格式和json格式粗恢。此外它還包含r.encoding:從HTTP header中獲得的響應(yīng)內(nèi)容編碼方式同時(shí)程序也是利用該格式對(duì)獲取到的內(nèi)容進(jìn)行解碼的，r.apparent_encoding:從內(nèi)容中分析出的響應(yīng)內(nèi)容編碼方式欧瘪。

異常情況處理

在第一部分最后的測(cè)試中眷射，我們可以看到返回的狀態(tài)碼是200，表明響應(yīng)成功，但返回的內(nèi)容存在亂碼：

image

說(shuō)明解析的解碼方式不對(duì)妖碉。對(duì)此我們可以采用r.encoding = r.apparent_encoding 來(lái)解決涌庭。

image

此外在爬取過程中會(huì)存在很多種異常情況，為了使我們的代碼更健壯欧宜，做好異常處理很重要坐榆。

Requests庫(kù)主要有以下異常：

image

該表引自嵩天老師Python網(wǎng)絡(luò)爬蟲與信息提取

我們還要注意，只有當(dāng)狀態(tài)碼為200時(shí)冗茸，我們才可能獲取到想要的內(nèi)容席镀，為什么是可能呢這里留個(gè)懸念咱們之后再講。所以我們開始需要對(duì)狀態(tài)碼做if判斷夏漱，但Python提供了raise_for_status()方法豪诲，使用該方法會(huì)自動(dòng)判斷狀態(tài)碼是否等于200，不需要if判斷麻蹋。

Python中做異常處理很方便跛溉，可使用try-except語(yǔ)句，以下為簡(jiǎn)單的try...except...else的語(yǔ)法：
try:<語(yǔ)句>#運(yùn)行別的代碼except<name1>：<語(yǔ)句>#如果在try部份引發(fā)了'name1'異常扮授，執(zhí)行該部分語(yǔ)句except<name2>，<數(shù)據(jù)>:<語(yǔ)句>#如果引發(fā)了'name2'異常专肪，獲得附加的數(shù)據(jù)刹勃，執(zhí)行該部分語(yǔ)句else:<語(yǔ)句>#如果沒有異常發(fā)生執(zhí)行該部分語(yǔ)句

如果不知道具體會(huì)出現(xiàn)什么異常時(shí)，可以不寫異常的名字嚎尤，Python會(huì)自動(dòng)幫你捕捉發(fā)生的異常荔仁，但這樣會(huì)比較慢，所以如果知道會(huì)出現(xiàn)的異常芽死，請(qǐng)寫到程序中乏梁。

健壯的代碼實(shí)例

一個(gè)較為健壯的利用Requests庫(kù)獲取網(wǎng)頁(yè)內(nèi)容的代碼為：

import requests
url = "http://www.baidu.com"
try: 
r = requests.get(url) r.raise_for_status()
 r.encoding=r.apparent_encoding # 如果出現(xiàn)HTML出現(xiàn)亂碼再加入該語(yǔ)句
 print(r.text)
except Exception as e: 
print("爬取失敗，錯(cuò)誤為：" + e)

小結(jié)

簡(jiǎn)單介紹了Python关贵、anaconda遇骑、pycharm的安裝與配置
介紹兩種Python安裝第三方包的方法，pip install <包名> 以及手動(dòng)安裝
簡(jiǎn)單介紹Requests庫(kù)中6種請(qǐng)求方法
如何處理爬取過程的異常情況
給出了一個(gè)簡(jiǎn)單的抓取網(wǎng)頁(yè)的樣例程序

本次分享到此結(jié)束揖曾，下次分享將對(duì)正則表達(dá)式進(jìn)行較為詳細(xì)的介紹落萎。

最后編輯于：2018.05.06 19:08:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市炭剪，隨后出現(xiàn)的幾起案子练链，更是在濱河造成了極大的恐慌，老刑警劉巖奴拦，帶你破解...
沈念sama閱讀 207,113評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件媒鼓，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)绿鸣，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評(píng)論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門疚沐，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人枚驻，你說(shuō)我怎么就攤上這事濒旦。” “怎么了再登？”我有些...
開封第一講書人閱讀 153,340評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵尔邓，是天一觀的道長(zhǎng)。經(jīng)常有香客問我锉矢，道長(zhǎng)梯嗽，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,449評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任沽损，我火速辦了婚禮灯节，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘绵估。我一直安慰自己炎疆，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,445評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布国裳。她就那樣靜靜地躺著形入，像睡著了一般。火紅的嫁衣襯著肌膚如雪缝左。梳的紋絲不亂的頭發(fā)上亿遂，一...
開封第一講書人閱讀 49,166評(píng)論 1贊 284
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音渺杉，去河邊找鬼蛇数。笑死，一個(gè)胖子當(dāng)著我的面吹牛是越，可吹牛的內(nèi)容都是我干的耳舅。我是一名探鬼主播，決...
沈念sama閱讀 38,442評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼英妓，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼挽放！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起蔓纠，我...
開封第一講書人閱讀 37,105評(píng)論 0贊 261
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤辑畦，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后腿倚，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纯出，經(jīng)...
沈念sama閱讀 43,601評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,066評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了暂筝。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片箩言。...
茶點(diǎn)故事閱讀 38,161評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖焕襟，靈堂內(nèi)的尸體忽然破棺而出陨收，到底是詐尸還是另有隱情，我是刑警寧澤鸵赖，帶...
沈念sama閱讀 33,792評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布务漩，位于F島的核電站，受9級(jí)特大地震影響它褪，放射性物質(zhì)發(fā)生泄漏饵骨。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,351評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一茫打、第九天我趴在偏房一處隱蔽的房頂上張望居触。院中可真熱鬧，春花似錦老赤、人聲如沸轮洋。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,352評(píng)論 0贊 19
一樁弒父案抬旺，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)砖瞧。三九已至，卻和暖如春嚷狞，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背荣堰。一陣腳步聲響...
開封第一講書人閱讀 31,584評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工床未，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人振坚。一個(gè)月前我還...
沈念sama閱讀 45,618評(píng)論 2贊 355
代替公主和親
正文我出身青樓薇搁，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親渡八。傳聞我的和親對(duì)象是個(gè)殘疾皇子啃洋，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,916評(píng)論 2贊 344

小白學(xué)爬蟲連載（2）--Requests庫(kù)介紹

推薦閱讀更多精彩內(nèi)容