當(dāng)今web程序的開發(fā)技術(shù)真是百家爭(zhēng)鳴,ASP.NET, PHP, JSP徽鼎,Perl, AJAX 等等赫蛇。 無論Web技術(shù)在未來如何發(fā)展,理解Web程序之間通信的基本協(xié)議相當(dāng)重要, 因?yàn)樗屛覀兝斫饬薟eb應(yīng)用程序的內(nèi)部工作. 本文將對(duì)HTTP協(xié)議進(jìn)行詳細(xì)的實(shí)例講解句灌,內(nèi)容較多,希望大家耐心看阵赠。也希望對(duì)大家的開發(fā)工作或者測(cè)試工作有所幫助涯塔。使用Fiddler工具非常方便地捕獲HTTP Request和HTTP Response,? 關(guān)于Fiddler工具的用法肌稻,請(qǐng)看我另一篇博客[Fiddler 教程]
閱讀目錄
打開一個(gè)網(wǎng)頁(yè)需要瀏覽器發(fā)送很多次Request
HTTP協(xié)議是無狀態(tài)的和Connection: keep-alive的區(qū)別
協(xié)議是指計(jì)算機(jī)通信網(wǎng)絡(luò)中兩臺(tái)計(jì)算機(jī)之間進(jìn)行通信所必須共同遵守的規(guī)定或規(guī)則匕荸,超文本傳輸協(xié)議(HTTP)是一種通信協(xié)議爹谭,它允許將超文本標(biāo)記語言(HTML)文檔從Web服務(wù)器傳送到客戶端的瀏覽器
目前我們使用的是HTTP/1.1 版本
當(dāng)我們打開瀏覽器榛搔,在地址欄中輸入U(xiǎn)RL诺凡,然后我們就看到了網(wǎng)頁(yè)。 原理是怎樣的呢践惑?
實(shí)際上我們輸入U(xiǎn)RL后腹泌,我們的瀏覽器給Web服務(wù)器發(fā)送了一個(gè)Request, Web服務(wù)器接到Request后進(jìn)行處理,生成相應(yīng)的Response尔觉,然后發(fā)送給瀏覽器凉袱, 瀏覽器解析Response中的HTML,這樣我們就看到了網(wǎng)頁(yè),過程如下圖所示
我們的Request 有可能是經(jīng)過了代理服務(wù)器侦铜,最后才到達(dá)Web服務(wù)器的专甩。
過程如下圖所示
代理服務(wù)器就是網(wǎng)絡(luò)信息的中轉(zhuǎn)站,有什么功能呢钉稍?
1. 提高訪問速度涤躲, 大多數(shù)的代理服務(wù)器都有緩存功能。
2. 突破限制贡未, 也就是FQ了
3. 隱藏身份种樱。
URL(Uniform Resource Locator) 地址用于描述一個(gè)網(wǎng)絡(luò)上的資源,? 基本格式如下
schema://host[:port#]/path/.../[?query-string][#anchor]
scheme?????????????? 指定低層使用的協(xié)議(例如:http, https, ftp)
host?????????????????? HTTP服務(wù)器的IP地址或者域名
port#???????????????? HTTP服務(wù)器的默認(rèn)端口是80,這種情況下端口號(hào)可以省略俊卤。如果使用了別的端口嫩挤,必須指明,例如 http://www.cnblogs.com:8080/
path?????????????????? 訪問資源的路徑
query-string?????? 發(fā)送給http服務(wù)器的數(shù)據(jù)
anchor-???????????? 錨
URL 的一個(gè)例子
http://www.mywebsite.com/sj/test/test.aspx?name=sviergn&x=true#stuff
Schema:? ? ? ? ? ? ? ? http
host:? ? ? ? ? ? ? ? ? www.mywebsite.com
path:? ? ? ? ? ? ? ? ? /sj/test/test.aspx
Query String:? ? ? ? ? name=sviergn&x=true
Anchor:? ? ? ? ? ? ? ? stuff
http協(xié)議是無狀態(tài)的瘾蛋,同一個(gè)客戶端的這次請(qǐng)求和上次請(qǐng)求是沒有對(duì)應(yīng)關(guān)系俐镐,對(duì)http服務(wù)器來說矫限,它并不知道這兩個(gè)請(qǐng)求來自同一個(gè)客戶端哺哼。 為了解決這個(gè)問題, Web程序引入了Cookie機(jī)制來維護(hù)狀態(tài).
打開一個(gè)網(wǎng)頁(yè)需要瀏覽器發(fā)送很多次Request
1. 當(dāng)你在瀏覽器輸入U(xiǎn)RL http://www.cnblogs.com 的時(shí)候叼风,瀏覽器發(fā)送一個(gè)Request去獲取 http://www.cnblogs.com 的html.? 服務(wù)器把Response發(fā)送回給瀏覽器.
2. 瀏覽器分析Response中的 HTML取董,發(fā)現(xiàn)其中引用了很多其他文件,比如圖片无宿,CSS文件茵汰,JS文件。
3. 瀏覽器會(huì)自動(dòng)再次發(fā)送Request去獲取圖片孽鸡,CSS文件蹂午,或者JS文件栏豺。
4. 等所有的文件都下載成功后。 網(wǎng)頁(yè)就被顯示出來了豆胸。
先看Request 消息的結(jié)構(gòu),?? Request 消息分為3部分奥洼,第一部分叫Request line, 第二部分叫Request header, 第三部分是body. header和body之間有個(gè)空行, 結(jié)構(gòu)如下圖
第一行中的Method表示請(qǐng)求方法,比如"POST","GET",? Path-to-resoure表示請(qǐng)求的資源晚胡, Http/version-number 表示HTTP協(xié)議的版本號(hào)
當(dāng)使用的是"GET" 方法的時(shí)候灵奖, body是為空的
比如我們打開博客園首頁(yè)的request 如下
GET http://www.cnblogs.com/ HTTP/1.1
Host: www.cnblogs.com
抽象的東西,難以理解估盘,老感覺是虛的瓷患, 所謂眼見為實(shí), 實(shí)際見到的東西,我們才能理解和記憶遣妥。 我們今天用Fiddler擅编,實(shí)際的看看Request和Response.
下面我們打開Fiddler 捕捉一個(gè)博客園登錄的Request 然后分析下它的結(jié)構(gòu), 在Inspectors tab下以Raw的方式可以看到完整的Request的消息, ? 如下圖
我們?cè)倏碦esponse消息的結(jié)構(gòu), 和Request消息的結(jié)構(gòu)基本一樣箫踩。 同樣也分為三部分,第一部分叫Response line, 第二部分叫Response header沙咏,第三部分是body. header和body之間也有個(gè)空行,? 結(jié)構(gòu)如下圖
HTTP/version-number表示HTTP協(xié)議的版本號(hào),? status-code 和message 請(qǐng)看下節(jié)[狀態(tài)代碼]的詳細(xì)解釋.
我們用Fiddler 捕捉一個(gè)博客園首頁(yè)的Response然后分析下它的結(jié)構(gòu), 在Inspectors tab下以Raw的方式可以看到完整的Response的消息班套, ? 如下圖
Http協(xié)議定義了很多與服務(wù)器交互的方法肢藐,最基本的有4種,分別是GET,POST,PUT,DELETE. 一個(gè)URL地址用于描述一個(gè)網(wǎng)絡(luò)上的資源吱韭,而HTTP中的GET, POST, PUT, DELETE就對(duì)應(yīng)著對(duì)這個(gè)資源的查吆豹,改,增理盆,刪4個(gè)操作痘煤。 我們最常見的就是GET和POST了。GET一般用于獲取/查詢資源信息猿规,而POST一般用于更新資源信息.
我們看看GET和POST的區(qū)別
1. GET提交的數(shù)據(jù)會(huì)放在URL之后衷快,以?分割URL和傳輸數(shù)據(jù),參數(shù)之間以&相連姨俩,如EditPosts.aspx?name=test1&id=123456.? POST方法是把提交的數(shù)據(jù)放在HTTP包的Body中.
2. GET提交的數(shù)據(jù)大小有限制(因?yàn)闉g覽器對(duì)URL的長(zhǎng)度有限制)蘸拔,而POST方法提交的數(shù)據(jù)沒有限制.
3. GET方式需要使用Request.QueryString來取得變量的值,而POST方式通過Request.Form來獲取變量的值环葵。
4. GET方式提交數(shù)據(jù)调窍,會(huì)帶來安全問題,比如一個(gè)登錄頁(yè)面张遭,通過GET方式提交數(shù)據(jù)時(shí)邓萨,用戶名和密碼將出現(xiàn)在URL上,如果頁(yè)面可以被緩存或者其他人可以訪問這臺(tái)機(jī)器,就可以從歷史記錄獲得該用戶的賬號(hào)和密碼.
Response 消息中的第一行叫做狀態(tài)行缔恳,由HTTP協(xié)議版本號(hào)宝剖, 狀態(tài)碼, 狀態(tài)消息 三部分組成歉甚。
狀態(tài)碼用來告訴HTTP客戶端,HTTP服務(wù)器是否產(chǎn)生了預(yù)期的Response.
HTTP/1.1中定義了5類狀態(tài)碼诈闺, 狀態(tài)碼由三位數(shù)字組成,第一個(gè)數(shù)字定義了響應(yīng)的類別
1XX? 提示信息 - 表示請(qǐng)求已被成功接收铃芦,繼續(xù)處理
2XX? 成功 - 表示請(qǐng)求已被成功接收雅镊,理解,接受
3XX? 重定向 - 要完成請(qǐng)求必須進(jìn)行更進(jìn)一步的處理
4XX? 客戶端錯(cuò)誤 -? 請(qǐng)求有語法錯(cuò)誤或請(qǐng)求無法實(shí)現(xiàn)
5XX? 服務(wù)器端錯(cuò)誤 -?? 服務(wù)器未能實(shí)現(xiàn)合法的請(qǐng)求
看看一些常見的狀態(tài)碼
最常見的就是成功響應(yīng)狀態(tài)碼200了刃滓, 這表明該請(qǐng)求被成功地完成仁烹,所請(qǐng)求的資源發(fā)送回客戶端
如下圖, 打開博客園首頁(yè)
302 Found
重定向咧虎,新的URL會(huì)在response 中的Location中返回卓缰,瀏覽器將會(huì)自動(dòng)使用新的URL發(fā)出新的Request
例如在IE中輸入, http://www.google.com. HTTP服務(wù)器會(huì)返回302砰诵, IE取到Response中Location header的新URL, 又重新發(fā)送了一個(gè)Request.
304 Not Modified
代表上次的文檔已經(jīng)被緩存了征唬, 還可以繼續(xù)使用,
例如打開博客園首頁(yè), 發(fā)現(xiàn)很多Response 的status code 都是304
提示: 如果你不想使用本地緩存可以用Ctrl+F5 強(qiáng)制刷新頁(yè)面
400 Bad Request? 客戶端請(qǐng)求與語法錯(cuò)誤茁彭,不能被服務(wù)器所理解
403 Forbidden 服務(wù)器收到請(qǐng)求总寒,但是拒絕提供服務(wù)
請(qǐng)求資源不存在(輸錯(cuò)了URL)
比如在IE中輸入一個(gè)錯(cuò)誤的URL, http://www.cnblogs.com/tesdf.aspx
500 Internal Server Error 服務(wù)器發(fā)生了不可預(yù)期的錯(cuò)誤
503 Server Unavailable 服務(wù)器當(dāng)前不能處理客戶端的請(qǐng)求理肺,一段時(shí)間后可能恢復(fù)正常
使用Fiddler 能很方便的查看Reques header, 點(diǎn)擊Inspectors tab ->Request tab-> headers? 如下圖所示.
header 有很多摄闸,比較難以記憶,我們也按照Fiddler那樣把header 進(jìn)行分類妹萨,這樣比較清晰也容易記憶年枕。
Cache 頭域
If-Modified-Since
作用: 把瀏覽器端緩存頁(yè)面的最后修改時(shí)間發(fā)送到服務(wù)器去,服務(wù)器會(huì)把這個(gè)時(shí)間與服務(wù)器上實(shí)際文件的最后修改時(shí)間進(jìn)行對(duì)比乎完。如果時(shí)間一致熏兄,那么返回304,客戶端就直接使用本地緩存文件树姨。如果時(shí)間不一致摩桶,就會(huì)返回200和新的文件內(nèi)容⊥薰客戶端接到之后典格,會(huì)丟棄舊文件岛宦,把新文件緩存起來台丛,并顯示在瀏覽器中.
例如:If-Modified-Since: Thu, 09 Feb 2012 09:07:57 GMT
實(shí)例如下圖
If-None-Match
作用: If-None-Match和ETag一起工作,工作原理是在HTTP Response中添加ETag信息。 當(dāng)用戶再次請(qǐng)求該資源時(shí)挽霉,將在HTTP Request 中加入If-None-Match信息(ETag的值)防嗡。如果服務(wù)器驗(yàn)證資源的ETag沒有改變(該資源沒有更新),將返回一個(gè)304狀態(tài)告訴客戶端使用本地緩存文件侠坎。否則將返回200狀態(tài)和新的資源和Etag.? 使用這樣的機(jī)制將提高網(wǎng)站的性能
例如: If-None-Match: "03f2b33c0bfcc1:0"
實(shí)例如下圖
Pragma
作用: 防止頁(yè)面被緩存蚁趁, 在HTTP/1.1版本中,它和Cache-Control:no-cache作用一模一樣
Pargma只有一個(gè)用法实胸, 例如: Pragma: no-cache
注意: 在HTTP/1.0版本中他嫡,只實(shí)現(xiàn)了Pragema:no-cache, 沒有實(shí)現(xiàn)Cache-Control
Cache-Control
作用: 這個(gè)是非常重要的規(guī)則。 這個(gè)用來指定Response-Request遵循的緩存機(jī)制庐完。各個(gè)指令含義如下
Cache-Control:Public?? 可以被任何緩存所緩存()
Cache-Control:Private???? 內(nèi)容只緩存到私有緩存中
Cache-Control:no-cache? 所有內(nèi)容都不會(huì)被緩存
還有其他的一些用法钢属, 我沒搞懂其中的意思, 請(qǐng)大家參考其他的資料
Client 頭域
Accept
作用:?瀏覽器端可以接受的媒體類型,
例如:? Accept: text/html ?代表瀏覽器可以接受服務(wù)器回發(fā)的類型為 text/html ?也就是我們常說的html文檔,
如果服務(wù)器無法返回text/html類型的數(shù)據(jù),服務(wù)器應(yīng)該返回一個(gè)406錯(cuò)誤(non acceptable)
通配符 * 代表任意類型
例如 ?Accept: */* ?代表瀏覽器可以處理所有類型,(一般瀏覽器發(fā)給服務(wù)器都是發(fā)這個(gè))
Accept-Encoding:
作用: 瀏覽器申明自己接收的編碼方法门躯,通常指定壓縮方法淆党,是否支持壓縮,支持什么壓縮方法(gzip讶凉,deflate)染乌,(注意:這不是只字符編碼);
例如: Accept-Encoding: gzip, deflate
Accept-Language
作用: 瀏覽器申明自己接收的語言。
語言跟字符集的區(qū)別:中文是語言懂讯,中文有多種字符集荷憋,比如big5,gb2312褐望,gbk等等台谊;
例如: Accept-Language: en-us
User-Agent
作用:告訴HTTP服務(wù)器, 客戶端使用的操作系統(tǒng)和瀏覽器的名稱和版本.
我們上網(wǎng)登陸論壇的時(shí)候譬挚,往往會(huì)看到一些歡迎信息锅铅,其中列出了你的操作系統(tǒng)的名稱和版本,你所使用的瀏覽器的名稱和版本减宣,這往往讓很多人感到很神奇盐须,實(shí)際上,服務(wù)器應(yīng)用程序就是從User-Agent這個(gè)請(qǐng)求報(bào)頭域中獲取到這些信息User-Agent請(qǐng)求報(bào)頭域允許客戶端將它的操作系統(tǒng)漆腌、瀏覽器和其它屬性告訴服務(wù)器贼邓。
例如:User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; CIBA; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C; InfoPath.2; .NET4.0E)
Accept-Charset
作用:瀏覽器申明自己接收的字符集,這就是本文前面介紹的各種字符集和字符編碼闷尿,如gb2312塑径,utf-8(通常我們說Charset包括了相應(yīng)的字符編碼方案);
例如:
Cookie/Login 頭域
Cookie:
作用: 最重要的header, 將cookie的值發(fā)送給HTTP 服務(wù)器
Entity頭域
Content-Length
作用:發(fā)送給HTTP服務(wù)器數(shù)據(jù)的長(zhǎng)度填具。
例如: Content-Length: 38
Content-Type
作用:
例如:Content-Type: application/x-www-form-urlencoded
Miscellaneous 頭域
Referer:
作用: 提供了Request的上下文信息的服務(wù)器统舀,告訴服務(wù)器我是從哪個(gè)鏈接過來的匆骗,比如從我主頁(yè)上鏈接到一個(gè)朋友那里,他的服務(wù)器就能夠從HTTP Referer中統(tǒng)計(jì)出每天有多少用戶點(diǎn)擊我主頁(yè)上的鏈接訪問他的網(wǎng)站誉简。
例如: Referer:http://translate.google.cn/?hl=zh-cn&tab=wT
Transport 頭域
Connection
例如: Connection: keep-alive?? 當(dāng)一個(gè)網(wǎng)頁(yè)打開完成后碉就,客戶端和服務(wù)器之間用于傳輸HTTP數(shù)據(jù)的TCP連接不會(huì)關(guān)閉,如果客戶端再次訪問這個(gè)服務(wù)器上的網(wǎng)頁(yè)闷串,會(huì)繼續(xù)使用這一條已經(jīng)建立的連接
例如:? Connection: close? 代表一個(gè)Request完成后瓮钥,客戶端和服務(wù)器之間用于傳輸HTTP數(shù)據(jù)的TCP連接會(huì)關(guān)閉, 當(dāng)客戶端再次發(fā)送Request烹吵,需要重新建立TCP連接碉熄。
Host(發(fā)送請(qǐng)求時(shí),該報(bào)頭域是必需的)
作用: 請(qǐng)求報(bào)頭域主要用于指定被請(qǐng)求資源的Internet主機(jī)和端口號(hào)肋拔,它通常從HTTP URL中提取出來的
例如: 我們?cè)跒g覽器中輸入:http://www.guet.edu.cn/index.html
瀏覽器發(fā)送的請(qǐng)求消息中具被,就會(huì)包含Host請(qǐng)求報(bào)頭域,如下:
Host:http://www.guet.edu.cn
此處使用缺省端口號(hào)80只损,若指定了端口號(hào)一姿,則變成:Host:指定端口號(hào)
同樣使用Fiddler 查看Response header, 點(diǎn)擊Inspectors tab ->Response tab-> headers? 如下圖所示
我們也按照Fiddler那樣把header 進(jìn)行分類,這樣比較清晰也容易記憶跃惫。
Cache頭域
Date
作用:? 生成消息的具體時(shí)間和日期
例如: Date: Sat, 11 Feb 2012 11:35:14 GMT
Expires
作用: 瀏覽器會(huì)在指定過期時(shí)間內(nèi)使用本地緩存
例如: Expires: Tue, 08 Feb 2022 11:35:14 GMT
Vary
作用:
例如: Vary: Accept-Encoding
Cookie/Login 頭域
P3P
作用: 用于跨域設(shè)置Cookie, 這樣可以解決iframe跨域訪問cookie的問題
例如: P3P: CP=CURa ADMa DEVa PSAo PSDo OUR BUS UNI PUR INT DEM STA PRE COM NAV OTC NOI DSP COR
Set-Cookie
作用: 非常重要的header, 用于把cookie 發(fā)送到客戶端瀏覽器叮叹, 每一個(gè)寫入cookie都會(huì)生成一個(gè)Set-Cookie.
例如: Set-Cookie: sc=4c31523a; path=/; domain=.acookie.taobao.com
Entity頭域
ETag
作用:? 和If-None-Match 配合使用。 (實(shí)例請(qǐng)看上節(jié)中If-None-Match的實(shí)例)
例如: ETag: "03f2b33c0bfcc1:0"
Last-Modified:
作用: 用于指示資源的最后修改日期和時(shí)間爆存。(實(shí)例請(qǐng)看上節(jié)的If-Modified-Since的實(shí)例)
例如: Last-Modified: Wed, 21 Dec 2011 09:09:10 GMT
Content-Type
作用:WEB服務(wù)器告訴瀏覽器自己響應(yīng)的對(duì)象的類型和字符集,
例如:
Content-Type: text/html; charset=utf-8
Content-Type:text/html;charset=GB2312
Content-Type: image/jpeg
Content-Length
指明實(shí)體正文的長(zhǎng)度蛉顽,以字節(jié)方式存儲(chǔ)的十進(jìn)制數(shù)字來表示。在數(shù)據(jù)下行的過程中先较,Content-Length的方式要預(yù)先在服務(wù)器中緩存所有數(shù)據(jù)携冤,然后所有數(shù)據(jù)再一股腦兒地發(fā)給客戶端。
例如: Content-Length: 19847
Content-Encoding
WEB服務(wù)器表明自己使用了什么壓縮方法(gzip闲勺,deflate)壓縮響應(yīng)中的對(duì)象曾棕。
例如:Content-Encoding:gzip
Content-Language
作用: WEB服務(wù)器告訴瀏覽器自己響應(yīng)的對(duì)象的語言者
例如: Content-Language:da
Miscellaneous 頭域
Server:
作用:指明HTTP服務(wù)器的軟件信息
例如:Server: Microsoft-IIS/7.5
X-AspNet-Version:
作用:如果網(wǎng)站是用ASP.NET開發(fā)的,這個(gè)header用來表示ASP.NET的版本
例如: X-AspNet-Version: 4.0.30319
X-Powered-By:
作用:表示網(wǎng)站是用什么技術(shù)開發(fā)的
例如: X-Powered-By: ASP.NET
Transport頭域
Connection
例如: Connection: keep-alive?? 當(dāng)一個(gè)網(wǎng)頁(yè)打開完成后菜循,客戶端和服務(wù)器之間用于傳輸HTTP數(shù)據(jù)的TCP連接不會(huì)關(guān)閉翘地,如果客戶端再次訪問這個(gè)服務(wù)器上的網(wǎng)頁(yè),會(huì)繼續(xù)使用這一條已經(jīng)建立的連接
例如:? Connection: close? 代表一個(gè)Request完成后癌幕,客戶端和服務(wù)器之間用于傳輸HTTP數(shù)據(jù)的TCP連接會(huì)關(guān)閉衙耕, 當(dāng)客戶端再次發(fā)送Request,需要重新建立TCP連接勺远。
Location頭域
Location
作用: 用于重定向一個(gè)新的位置, 包含新的URL地址
實(shí)例請(qǐng)看304狀態(tài)實(shí)例
HTTP協(xié)議是無狀態(tài)的和Connection: keep-alive的區(qū)別
無狀態(tài)是指協(xié)議對(duì)于事務(wù)處理沒有記憶能力橙喘,服務(wù)器不知道客戶端是什么狀態(tài)。從另一方面講胶逢,打開一個(gè)服務(wù)器上的網(wǎng)頁(yè)和你之前打開這個(gè)服務(wù)器上的網(wǎng)頁(yè)之間沒有任何聯(lián)系
HTTP是一個(gè)無狀態(tài)的面向連接的協(xié)議厅瞎,無狀態(tài)不代表HTTP不能保持TCP連接饰潜,更不能代表HTTP使用的是UDP協(xié)議(無連接)
從HTTP/1.1起,默認(rèn)都開啟了Keep-Alive磁奖,保持連接特性囊拜,簡(jiǎn)單地說某筐,當(dāng)一個(gè)網(wǎng)頁(yè)打開完成后比搭,客戶端和服務(wù)器之間用于傳輸HTTP數(shù)據(jù)的TCP連接不會(huì)關(guān)閉,如果客戶端再次訪問這個(gè)服務(wù)器上的網(wǎng)頁(yè)南誊,會(huì)繼續(xù)使用這一條已經(jīng)建立的連接
Keep-Alive不會(huì)永久保持連接身诺,它有一個(gè)保持時(shí)間,可以在不同的服務(wù)器軟件(如Apache)中設(shè)定這個(gè)時(shí)間
附: HTTP協(xié)議 系列教程抄囚, (連載中, 敬請(qǐng)期待)