Python3爬蟲學(xué)習(xí)入門

Http協(xié)議簡述

引自:Python3.x爬蟲教程:爬網(wǎng)頁、爬圖片稿黍、自動登錄

HTTP是Hyper Text Transfer Protocol(超文本傳輸協(xié)議)的縮寫镣衡。
Http請求響應(yīng)模型:



Http請求流程(又稱為事務(wù)):


  1. 建立連接
  2. 建立連接后暇番,客戶機(jī)發(fā)送一個請求給服務(wù)器嗤放,請求方式的格式為:統(tǒng)一資源標(biāo)識符(URL)、協(xié)議版本號壁酬,后邊是MIME信息包括請求修飾符斤吐、客戶機(jī)信息和可能的內(nèi)容。
  3. 服務(wù)器接到請求后厨喂,給予相應(yīng)的響應(yīng)信息,其格式為一個狀態(tài)行庄呈,包括信息的協(xié)議版本號蜕煌、一個成功或錯誤的代碼,后邊是MIME信息包括服務(wù)器信息诬留、實(shí)體信息和可能的內(nèi)容斜纪。
  4. 客戶端接收服務(wù)器所返回的信息通過瀏覽器顯示在用戶的顯示屏上贫母,然后客戶機(jī)與服務(wù)器斷開連接。
請求報頭

請求報頭允許客戶端向服務(wù)器端傳遞請求的附加信息以及客戶端自身的信息盒刚。


** 常用報頭:**

** 1. Accept **
Accept請求報頭域用于指定客戶端接受哪些類型的信息腺劣。
**eg **:Accept:image/gif,表明客戶端希望接受GIF圖象格式的資源;
Accept:text/html因块,表明客戶端希望接受html文本橘原。
** 2. Accept-Charset **
Accept-Charset請求報頭域用于指定客戶端接受的字符集。
** eg **:Accept-Charset:iso-8859-1,gb2312.如果在請求消息中沒有設(shè)置這個域涡上,缺省是任何字符集都可以接受趾断。
** 3. Accept-Encoding **
Accept-Encoding請求報頭域類似于Accept,但是它是用于指定可接受的內(nèi)容編碼吩愧。
** eg **:Accept-Encoding:gzip.deflate.如果請求消息中沒有設(shè)置這個域服務(wù)器假定客戶端對各種內(nèi)容編碼都可以接受芋酌。
** 4. Accept-Language **
Accept-Language請求報頭域類似于Accept,但是它是用于指定一種自然語言雁佳。
** eg **:Accept-Language:zh-cn.如果請求消息中沒有設(shè)置這個報頭域脐帝,服務(wù)器假定客戶端對各種語言都可以接受。Authorization
** 5. Host **
Host請求報頭域主要用于指定被請求資源的Internet主機(jī)和端口號糖权。
** eg **:http://www.guet.edu.cn/index.html
Host:www.guet.edu.cn 此處使用缺省端口號80
** 6. User-Agent **
User-Agent請求報頭域允許客戶端將它的操作系統(tǒng)堵腹、瀏覽器和其它屬性告訴服務(wù)器。不過温兼,這個報頭域不是必需的秸滴。

響應(yīng)報頭

響應(yīng)報頭允許服務(wù)器傳遞不能放在狀態(tài)行中的附加響應(yīng)信息,以及關(guān)于服務(wù)器的信息和對Request-URI所標(biāo)識的資源進(jìn)行下一步訪問的信息募判。


**1. Location **
Location響應(yīng)報頭域用于重定向接受者到一個新的位置荡含。Location響應(yīng)報頭域常用在更換域名的時候。
** 2.Server **
Server響應(yīng)報頭域包含了服務(wù)器用來處理請求的軟件信息届垫。
** 3.WWW-Authenticate **
WWW-Authenticate響應(yīng)報頭域必須被包含在401(未授權(quán)的)響應(yīng)消息中释液,客戶端收到401響應(yīng)消息時候,并發(fā)送Authorization報頭域請求服務(wù)器對其進(jìn)行驗(yàn)證時装处,服務(wù)端響應(yīng)報頭就包含該報頭域误债。
** eg **:WWW-Authenticate:Basic realm=Basic Auth Test! //可以看出服務(wù)器對請求資源采用的是基本驗(yàn)證機(jī)制。

Python3 爬蟲入門

#python3.4
#這是一個簡單的示例
import urllib.request
url = 'http://douban.com/'
webPage = urllib.request.urlopen(url)
data = webPage.read()
data = data.decode('UTF-8')
print(data)    #顯示網(wǎng)頁源代碼
print(type(webPage))    #顯示網(wǎng)頁類型:<class 'http.client.HTTPResponse'>
print(webPage.geturl())    #顯示網(wǎng)址:https://www.douban.com/
print(webPage.info())    #顯示網(wǎng)頁信息
'''Date: Thu, 13 Oct 2016 13:33:16 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 95363
Connection: close
Vary: Accept-Encoding
X-Xss-Protection: 1; mode=block
X-Douban-Mobileapp: 0
Expires: Sun, 1 Jan 2006 01:00:00 GMT
Pragma: no-cache
Cache-Control: must-revalidate, no-cache, private
Set-Cookie: ll="118318"; path=/; domain=.douban.com; expires=Fri, 13-Oct-2017 13:33:16 GMT
Set-Cookie: bid=GPcbKhAfcmA; Expires=Fri, 13-Oct-17 13:33:16 GMT; Domain=.douban.com; Path=/
X-DOUBAN-NEWBID: GPcbKhAfcmA
X-DAE-Node: sindar10c
X-DAE-App: sns
Server: dae
Strict-Transport-Security: max-age=15552000;  '''
print(webPage.getcode())    #返回狀態(tài)碼:200
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末妄迁,一起剝皮案震驚了整個濱河市寝蹈,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌登淘,老刑警劉巖箫老,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異黔州,居然都是意外死亡耍鬓,警方通過查閱死者的電腦和手機(jī)阔籽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來牲蜀,“玉大人笆制,你說我怎么就攤上這事』链铮” “怎么了在辆?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長峭判。 經(jīng)常有香客問我开缎,道長,這世上最難降的妖魔是什么林螃? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任奕删,我火速辦了婚禮,結(jié)果婚禮上疗认,老公的妹妹穿的比我還像新娘完残。我一直安慰自己,他們只是感情好横漏,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布谨设。 她就那樣靜靜地躺著,像睡著了一般缎浇。 火紅的嫁衣襯著肌膚如雪扎拣。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天素跺,我揣著相機(jī)與錄音二蓝,去河邊找鬼。 笑死指厌,一個胖子當(dāng)著我的面吹牛刊愚,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播踩验,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼鸥诽,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了箕憾?” 一聲冷哼從身側(cè)響起牡借,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎袭异,沒想到半個月后钠龙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年俊鱼,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片畅买。...
    茶點(diǎn)故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡并闲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出谷羞,到底是詐尸還是另有隱情帝火,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布湃缎,位于F島的核電站犀填,受9級特大地震影響嗓违,放射性物質(zhì)發(fā)生泄漏蹂季。R本人自食惡果不足惜撒汉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瓣喊,春花似錦藻三、人聲如沸跪者。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瑟押。三九已至多望,卻和暖如春怀偷,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背晋渺。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工随静, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留燎猛,地道東北人重绷。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓愤钾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親伙菊。 傳聞我的和親對象是個殘疾皇子运翼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)自:http://blog.csdn.net/gueter/archive/2007/03/08/1524447...
    喜歡吃栗子閱讀 464評論 0 1
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理念恍,服務(wù)發(fā)現(xiàn),斷路器晚顷,智...
    卡卡羅2017閱讀 134,629評論 18 139
  • HTTP是一個屬于應(yīng)用層的面向?qū)ο蟮膮f(xié)議峰伙,由于其簡捷、快速的方式该默,適用于分布式超媒體信息系統(tǒng)瞳氓。它于1990年提出,...
    lilinjianshu閱讀 517評論 0 1
  • 引言 HTTP是一個屬于應(yīng)用層的面向?qū)ο蟮膮f(xié)議栓袖,由于其簡捷匣摘、快速的方式,適用于分布式超媒體信息系統(tǒng)裹刮。它于1990年...
    _燴面_閱讀 1,324評論 0 9
  • 水晶白世界橋的今天適合做斷舍離音榜。清理掉那些在夢想道路上給我們潑冷水的負(fù)能量的人際關(guān)系。把空間留給能支持你未來發(fā)展的...
    艾人家家Aileen_LiLi閱讀 262評論 0 0