python網(wǎng)絡(luò)爬蟲—爬取網(wǎng)頁的通用代碼框架及HTTP協(xié)議【2】

?-Modest_Proud-

一、爬取網(wǎng)頁的通用代碼框架

首先藕溅,我們使用Requests庫進(jìn)行網(wǎng)頁訪問的時(shí)候,經(jīng)常用get(),獲得url的相關(guān)內(nèi)容汁掠。

由于網(wǎng)絡(luò)連接是有風(fēng)險(xiǎn)的,所以異常處理語句很重要考阱。

理解爬取網(wǎng)頁的通用代碼框架

import requests ?##加載Requests庫

def getHTMLText(url):

##定義getHTMLTexl函數(shù)

try:

r=requests.get(url,timeout=30)

##設(shè)定get函數(shù)參數(shù),超時(shí)限制30s

r.raise_for_status()

##如果狀態(tài)不是200乞榨,引發(fā)HTMLError異常

r.encoding="utf-8"

##更改編碼為utf-8格式

return r.text

##返回網(wǎng)頁文本內(nèi)容

except:

return "產(chǎn)生異常"

##返回異常提示

if __name__=="__main__":

##運(yùn)行模塊

url="http://www.baidu.com"

##給url賦值

print(getHTMLText(url))

##打印函數(shù)內(nèi)容

輸出結(jié)果如下圖

如果我們將url=“http://www.baidu.com"改成url="http:www.baidu.com" 會(huì)出現(xiàn)什么情況秽之?

二、理解HTTP協(xié)議

HTTP(超文本傳輸協(xié)議)是一個(gè)基于請求與響應(yīng)模式的姜凄、無狀態(tài)的政溃、應(yīng)用層的協(xié)議,程恚基于TCP的連接方式,HTTP1.1版本中給出一種持續(xù)連接的機(jī)制扼鞋,絕大多數(shù)的Web開發(fā)申鱼,都是構(gòu)建在HTTP協(xié)議之上的Web應(yīng)用。

URL格式:http://host[:port][path]

host:合法的Internet主機(jī)域名或IP地址

port:端口好云头,缺省端口為80

path:請求資源的路徑

HTTP URL 實(shí)例:

http://www.baidu.com

http://120.76.26.60:8188/xcb/login.jsp

HTTP URL 理解:

URL是通過HTTP協(xié)議存取資源的Internet路徑捐友,一個(gè)URL對應(yīng)一個(gè)數(shù)據(jù)資源。

HTTP協(xié)議對資源的操作

備注:PUT和PATCH同樣是更新URL位置的資源溃槐,區(qū)別在于:

PUT提交更新全部位置的資源請求匣砖,PATCH提交局部更新請求

例:有A、B昏滴、C猴鲫,我們現(xiàn)在需要把A改成G

PUT:請求將A、B谣殊、C用G拂共、B、C替換

PATCH:請求G替換位置為A

若用PUT提交PATCH姻几,則會(huì)出現(xiàn)A宜狐、B、C—>G

HTTP協(xié)議與Requests庫方法功能對比

Requests庫的HEAD()方法

Requests庫的POST()方法

向URL POST一個(gè)字典蛇捌,自動(dòng)編碼為from(表單)

向URL POST一個(gè)字符串抚恒,自動(dòng)編碼為data

關(guān)注微信公眾號(hào)獲得最新內(nèi)容
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市络拌,隨后出現(xiàn)的幾起案子俭驮,更是在濱河造成了極大的恐慌,老刑警劉巖盒音,帶你破解...
    沈念sama閱讀 216,997評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件表鳍,死亡現(xiàn)場離奇詭異馅而,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)譬圣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評論 3 392
  • 文/潘曉璐 我一進(jìn)店門瓮恭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人厘熟,你說我怎么就攤上這事屯蹦。” “怎么了绳姨?”我有些...
    開封第一講書人閱讀 163,359評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長脑蠕。 經(jīng)常有香客問我跪削,道長,這世上最難降的妖魔是什么晃跺? 我笑而不...
    開封第一講書人閱讀 58,309評論 1 292
  • 正文 為了忘掉前任毫玖,我火速辦了婚禮,結(jié)果婚禮上烹玉,老公的妹妹穿的比我還像新娘励背。我一直安慰自己,他們只是感情好叶眉,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評論 6 390
  • 文/花漫 我一把揭開白布衅疙。 她就那樣靜靜地躺著莲趣,像睡著了一般。 火紅的嫁衣襯著肌膚如雪饱溢。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,258評論 1 300
  • 那天翁逞,我揣著相機(jī)與錄音溉仑,去河邊找鬼。 笑死浊竟,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的必怜。 我是一名探鬼主播后频,決...
    沈念sama閱讀 40,122評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼靠益!你這毒婦竟也來了残揉?” 一聲冷哼從身側(cè)響起抱环,我...
    開封第一講書人閱讀 38,970評論 0 275
  • 序言:老撾萬榮一對情侶失蹤纸巷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后梯啤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,403評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡因宇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評論 3 334
  • 正文 我和宋清朗相戀三年察滑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了修肠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,769評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡莽鸭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出硫眨,到底是詐尸還是另有隱情撩笆,我是刑警寧澤捺球,帶...
    沈念sama閱讀 35,464評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站氮兵,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏泣栈。R本人自食惡果不足惜弥姻,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望疼进。 院中可真熱鬧秧廉,春花似錦、人聲如沸疼电。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽修陡。三九已至沧侥,卻和暖如春正什,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背婴氮。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留荣暮,地道東北人罩驻。 一個(gè)月前我還...
    沈念sama閱讀 47,831評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像惠遏,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子抽高,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評論 2 354

推薦閱讀更多精彩內(nèi)容