前言
當今web程序的開發(fā)技術真是百家爭鳴,ASP.NET, PHP, JSP缀旁,Perl, AJAX 等等记劈。 無論Web技術在未來如何發(fā)展,理解Web程序之間通信的基本協(xié)議相當重要, 因為它讓我們理解了Web應用程序的內部工作. 本文將對HTTP協(xié)議進行詳細的實例講解并巍,內容較多抠蚣,希望大家耐心看。也希望對大家的開發(fā)工作或者測試工作有所幫助履澳。使用Fiddler工具非常方便地捕獲HTTP Request和HTTP Response, 關于Fiddler工具的用法.
閱讀目錄
1.什么是HTTP協(xié)議
2.Web服務器嘶窄,瀏覽器,代理服務器
3.URL詳解
4.HTTP協(xié)議是無狀態(tài)的
5.打開一個網頁需要瀏覽器發(fā)送很多次Request
6.HTTP消息的結構
7.Get和Post方法的區(qū)別
8.狀態(tài)碼
9.HTTP Request header
10.HTTP Response header
11.HTTP協(xié)議是無狀態(tài)的和Connection: keep-alive的區(qū)別
什么是HTTP協(xié)議
協(xié)議是指計算機通信網絡中兩臺計算機之間進行通信所必須共同遵守的規(guī)定或規(guī)則怀跛,超文本傳輸協(xié)議(HTTP)是一種通信協(xié)議,它允許將超文本標記語言(HTML)文檔從Web服務器傳送到客戶端的瀏覽器
目前我們使用的是HTTP/1.1 版本
Web服務器柄冲,瀏覽器,代理服務器
當我們打開瀏覽器吻谋,在地址欄中輸入URL,然后我們就看到了網頁现横。 原理是怎樣的呢漓拾?
實際上我們輸入URL后,我們的瀏覽器給Web服務器發(fā)送了一個Request, Web服務器接到Request后進行處理戒祠,生成相應的Response骇两,然后發(fā)送給瀏覽器, 瀏覽器解析Response中的HTML,這樣我們就看到了網頁姜盈,過程如下圖所示
我們的Request 有可能是經過了代理服務器低千,最后才到達Web服務器的。
過程如下圖所示
代理服務器就是網絡信息的中轉站馏颂,有什么功能呢示血?
提高訪問速度, 大多數的代理服務器都有緩存功能救拉。
突破限制难审, 也就是FQ了
隱藏身份。
URL詳解
URL(Uniform Resource Locator) 地址用于描述一個網絡上的資源, 基本格式如下
scheme 指定低層使用的協(xié)議(例如:http, https, ftp)
host HTTP服務器的IP地址或者域名
port# HTTP服務器的默認端口是80亿絮,這種情況下端口號可以省略告喊。如果使用了別的端口,必須指明派昧,例如 http://www.cnblogs.com:8080/
path 訪問資源的路徑
query-string 發(fā)送給http服務器的數據
anchor- 錨
URL 的一個例子
http://www.mywebsite.com/sj/test/test.aspx?name=sviergn&x=true#stuff
Schema: http
host: www.mywebsite.com
path: /sj/test/test.aspx
Query String: name=sviergn&x=true
Anchor: stuff
HTTP協(xié)議是無狀態(tài)的
http協(xié)議是無狀態(tài)的葱绒,同一個客戶端的這次請求和上次請求是沒有對應關系,對http服務器來說斗锭,它并不知道這兩個請求來自同一個客戶端。 為了解決這個問題失球, Web程序引入了Cookie機制來維護狀態(tài).
打開一個網頁需要瀏覽器發(fā)送很多次Request
- 當你在瀏覽器輸入URL http://www.cnblogs.com 的時候岖是,瀏覽器發(fā)送一個Request去獲取 http://www.cnblogs.com 的html. 服務器把Response發(fā)送回給瀏覽器.
- 瀏覽器分析Response中的 HTML,發(fā)現其中引用了很多其他文件实苞,比如圖片豺撑,CSS文件,JS文件黔牵。
- 瀏覽器會自動再次發(fā)送Request去獲取圖片聪轿,CSS文件,或者JS文件猾浦。
- 等所有的文件都下載成功后陆错。 網頁就被顯示出來了灯抛。
HTTP消息的結構
先看Request 消息的結構, Request 消息分為3部分,第一部分叫Request line, 第二部分叫Request header, 第三部分是body. header和body之間有個空行音瓷, 結構如下圖
第一行中的Method表示請求方法,比如"POST","GET", Path-to-resoure表示請求的資源对嚼, Http/version-number 表示HTTP協(xié)議的版本號
當使用的是"GET" 方法的時候, body是為空的
比如我們打開博客園首頁的request 如下
GET http://www.cnblogs.com/ HTTP/1.1
Host: www.cnblogs.com
抽象的東西绳慎,難以理解纵竖,老感覺是虛的, 所謂眼見為實, 實際見到的東西杏愤,我們才能理解和記憶靡砌。 我們今天用Fiddler,實際的看看Request和Response.
下面我們打開Fiddler 捕捉一個博客園登錄的Request 然后分析下它的結構, 在Inspectors tab下以Raw的方式可以看到完整的Request的消息珊楼, 如下圖
我們再看Response消息的結構, 和Request消息的結構基本一樣通殃。 同樣也分為三部分,第一部分叫Response line, 第二部分叫Response header,第三部分是body. header和body之間也有個空行, 結構如下圖
HTTP/version-number表示HTTP協(xié)議的版本號亥曹, status-code 和message 請看下節(jié)[狀態(tài)代碼]的詳細解釋.
我們用Fiddler 捕捉一個博客園首頁的Response然后分析下它的結構, 在Inspectors tab下以Raw的方式可以看到完整的Response的消息邓了, 如下圖
Get和Post方法的區(qū)別
Http協(xié)議定義了很多與服務器交互的方法,最基本的有4種媳瞪,分別是GET,POST,PUT,DELETE. 一個URL地址用于描述一個網絡上的資源骗炉,而HTTP中的GET, POST, PUT, DELETE就對應著對這個資源的查,改蛇受,增句葵,刪4個操作。 我們最常見的就是GET和POST了兢仰。GET一般用于獲取/查詢資源信息乍丈,而POST一般用于更新資源信息.
我們看看GET和POST的區(qū)別
- GET提交的數據會放在URL之后,以?分割URL和傳輸數據把将,參數之間以&相連轻专,如EditPosts.aspx?name=test1&id=123456. POST方法是把提交的數據放在HTTP包的Body中.
- GET提交的數據大小有限制(因為瀏覽器對URL的長度有限制),而POST方法提交的數據沒有限制.
- GET方式需要使用Request.QueryString來取得變量的值察蹲,而POST方式通過Request.Form來獲取變量的值请垛。
- GET方式提交數據,會帶來安全問題洽议,比如一個登錄頁面宗收,通過GET方式提交數據時,用戶名和密碼將出現在URL上亚兄,如果頁面可以被緩存或者其他人可以訪問這臺機器混稽,就可以從歷史記錄獲得該用戶的賬號和密碼.
狀態(tài)碼
Response 消息中的第一行叫做狀態(tài)行,由HTTP協(xié)議版本號, 狀態(tài)碼匈勋, 狀態(tài)消息 三部分組成礼旅。
狀態(tài)碼用來告訴HTTP客戶端,HTTP服務器是否產生了預期的Response.
HTTP/1.1中定義了5類狀態(tài)碼, 狀態(tài)碼由三位數字組成颓影,第一個數字定義了響應的類別
1XX 提示信息 - 表示請求已被成功接收各淀,繼續(xù)處理
2XX 成功 - 表示請求已被成功接收,理解诡挂,接受
3XX 重定向 - 要完成請求必須進行更進一步的處理
4XX 客戶端錯誤 - 請求有語法錯誤或請求無法實現
5XX 服務器端錯誤 - 服務器未能實現合法的請求
看看一些常見的狀態(tài)碼
200 OK
最常見的就是成功響應狀態(tài)碼200了碎浇, 這表明該請求被成功地完成,所請求的資源發(fā)送回客戶端
如下圖璃俗, 打開博客園首頁
302 Found
重定向奴璃,新的URL會在response 中的Location中返回,瀏覽器將會自動使用新的URL發(fā)出新的Request
例如在IE中輸入城豁, http://www.google.com. HTTP服務器會返回302苟穆, IE取到Response中Location header的新URL, 又重新發(fā)送了一個Request.
304 Not Modified
代表上次的文檔已經被緩存了, 還可以繼續(xù)使用唱星,
例如打開博客園首頁, 發(fā)現很多Response 的status code 都是304
提示: 如果你不想使用本地緩存可以用Ctrl+F5 強制刷新頁面
400 Bad Request 客戶端請求與語法錯誤雳旅,不能被服務器所理解
403 Forbidden 服務器收到請求,但是拒絕提供服務
404 Not Found
請求資源不存在(輸錯了URL)
比如在IE中輸入一個錯誤的URL间聊, http://www.cnblogs.com/tesdf.aspx
500 Internal Server Error 服務器發(fā)生了不可預期的錯誤
503 Server Unavailable 服務器當前不能處理客戶端的請求攒盈,一段時間后可能恢復正常
HTTP Request header
使用Fiddler 能很方便的查看Reques header, 點擊Inspectors tab ->Request tab-> headers 如下圖所示.
header 有很多,比較難以記憶哎榴,我們也按照Fiddler那樣把header 進行分類型豁,這樣比較清晰也容易記憶。
Cache 頭域
If-Modified-Since
作用: 把瀏覽器端緩存頁面的最后修改時間發(fā)送到服務器去尚蝌,服務器會把這個時間與服務器上實際文件的最后修改時間進行對比迎变。如果時間一致,那么返回304飘言,客戶端就直接使用本地緩存文件衣形。如果時間不一致姿鸿,就會返回200和新的文件內容谆吴。客戶端接到之后碟渺,會丟棄舊文件绒极,把新文件緩存起來铡俐,并顯示在瀏覽器中.
例如:If-Modified-Since: Thu, 09 Feb 2012 09:07:57 GMT
實例如下圖
If-None-Match
作用: If-None-Match和ETag一起工作滩报,工作原理是在HTTP Response中添加ETag信息惭笑。 當用戶再次請求該資源時,將在HTTP Request 中加入If-None-Match信息(ETag的值)。如果服務器驗證資源的ETag沒有改變(該資源沒有更新)伶椿,將返回一個304狀態(tài)告訴客戶端使用本地緩存文件脊另。否則將返回200狀態(tài)和新的資源和Etag. 使用這樣的機制將提高網站的性能
例如: If-None-Match: "03f2b33c0bfcc1:0"
實例如下圖
Pragma
作用: 防止頁面被緩存导狡, 在HTTP/1.1版本中,它和Cache-Control:no-cache作用一模一樣
Pargma只有一個用法偎痛, 例如: Pragma: no-cache
注意: 在HTTP/1.0版本中旱捧,只實現了Pragema:no-cache, 沒有實現Cache-Control
Cache-Control
作用: 這個是非常重要的規(guī)則。 這個用來指定Response-Request遵循的緩存機制踩麦。各個指令含義如下
Cache-Control:Public 可以被任何緩存所緩存()
Cache-Control:Private 內容只緩存到私有緩存中
Cache-Control:no-cache 所有內容都不會被緩存
還有其他的一些用法枚赡, 我沒搞懂其中的意思, 請大家參考其他的資料
Client 頭域
Accept
作用: 瀏覽器端可以接受的媒體類型,
例如: Accept: text/html 代表瀏覽器可以接受服務器回發(fā)的類型為 text/html 也就是我們常說的html文檔,
如果服務器無法返回text/html類型的數據,服務器應該返回一個406錯誤(non acceptable)
通配符 * 代表任意類型
例如 Accept: / 代表瀏覽器可以處理所有類型,(一般瀏覽器發(fā)給服務器都是發(fā)這個)
Accept-Encoding:
作用: 瀏覽器申明自己接收的編碼方法靖榕,通常指定壓縮方法标锄,是否支持壓縮,支持什么壓縮方法(gzip茁计,deflate)料皇,(注意:這不是只字符編碼);
例如: Accept-Encoding: gzip, deflate
Accept-Language
作用: 瀏覽器申明自己接收的語言。
語言跟字符集的區(qū)別:中文是語言星压,中文有多種字符集践剂,比如big5,gb2312娜膘,gbk等等逊脯;
例如: Accept-Language: en-us
User-Agent
作用:告訴HTTP服務器, 客戶端使用的操作系統(tǒng)和瀏覽器的名稱和版本.
我們上網登陸論壇的時候竣贪,往往會看到一些歡迎信息军洼,其中列出了你的操作系統(tǒng)的名稱和版本,你所使用的瀏覽器的名稱和版本演怎,這往往讓很多人感到很神奇匕争,實際上,服務器應用程序就是從User-Agent這個請求報頭域中獲取到這些信息User-Agent請求報頭域允許客戶端將它的操作系統(tǒng)爷耀、瀏覽器和其它屬性告訴服務器甘桑。
例如: User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; CIBA; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C; InfoPath.2; .NET4.0E)
Accept-Charset
作用:瀏覽器申明自己接收的字符集,這就是本文前面介紹的各種字符集和字符編碼歹叮,如gb2312跑杭,utf-8(通常我們說Charset包括了相應的字符編碼方案);
例如:
Cookie/Login 頭域
Cookie:
作用: 最重要的header, 將cookie的值發(fā)送給HTTP 服務器
Entity頭域
Content-Length
作用:發(fā)送給HTTP服務器數據的長度咆耿。
例如: Content-Length: 38
Content-Type
作用:
例如:Content-Type: application/x-www-form-urlencoded
Miscellaneous 頭域
Referer:
作用: 提供了Request的上下文信息的服務器德谅,告訴服務器我是從哪個鏈接過來的,比如從我主頁上鏈接到一個朋友那里萨螺,他的服務器就能夠從HTTP Referer中統(tǒng)計出每天有多少用戶點擊我主頁上的鏈接訪問他的網站窄做。
例如: Referer:http://translate.google.cn/?hl=zh-cn&tab=wT
Transport 頭域
Connection
例如: Connection: keep-alive 當一個網頁打開完成后宅荤,客戶端和服務器之間用于傳輸HTTP數據的TCP連接不會關閉,如果客戶端再次訪問這個服務器上的網頁浸策,會繼續(xù)使用這一條已經建立的連接
例如: Connection: close 代表一個Request完成后,客戶端和服務器之間用于傳輸HTTP數據的TCP連接會關閉惹盼, 當客戶端再次發(fā)送Request庸汗,需要重新建立TCP連接。
Host(發(fā)送請求時手报,該報頭域是必需的)
作用: 請求報頭域主要用于指定被請求資源的Internet主機和端口號蚯舱,它通常從HTTP URL中提取出來的
例如: 我們在瀏覽器中輸入:http://www.guet.edu.cn/index.html
瀏覽器發(fā)送的請求消息中,就會包含Host請求報頭域掩蛤,如下:
Host:http://www.guet.edu.cn
此處使用缺省端口號80枉昏,若指定了端口號,則變成:Host:指定端口號
HTTP Response header
同樣使用Fiddler 查看Response header, 點擊Inspectors tab ->Response tab-> headers 如下圖所示
我們也按照Fiddler那樣把header 進行分類揍鸟,這樣比較清晰也容易記憶兄裂。
Cache頭域
Date
作用: 生成消息的具體時間和日期
例如: Date: Sat, 11 Feb 2012 11:35:14 GMT
Expires
作用: 瀏覽器會在指定過期時間內使用本地緩存
例如: Expires: Tue, 08 Feb 2022 11:35:14 GMT
Vary
作用:
例如: Vary: Accept-Encoding
Cookie/Login 頭域
P3P
作用: 用于跨域設置Cookie, 這樣可以解決iframe跨域訪問cookie的問題
例如: P3P: CP=CURa ADMa DEVa PSAo PSDo OUR BUS UNI PUR INT DEM STA PRE COM NAV OTC NOI DSP COR
Set-Cookie
作用: 非常重要的header, 用于把cookie 發(fā)送到客戶端瀏覽器, 每一個寫入cookie都會生成一個Set-Cookie.
例如: Set-Cookie: sc=4c31523a; path=/; domain=.acookie.taobao.com
Entity頭域
ETag
作用: 和If-None-Match 配合使用阳藻。 (實例請看上節(jié)中If-None-Match的實例)
例如: ETag: "03f2b33c0bfcc1:0"
Last-Modified:
作用: 用于指示資源的最后修改日期和時間晰奖。(實例請看上節(jié)的If-Modified-Since的實例)
例如: Last-Modified: Wed, 21 Dec 2011 09:09:10 GMT
Content-Type
作用:WEB服務器告訴瀏覽器自己響應的對象的類型和字符集,
例如:
Content-Type: text/html; charset=utf-8
Content-Type:text/html;charset=GB2312
Content-Type: image/jpeg
Content-Length
指明實體正文的長度,以字節(jié)方式存儲的十進制數字來表示腥泥。在數據下行的過程中匾南,Content-Length的方式要預先在服務器中緩存所有數據,然后所有數據再一股腦兒地發(fā)給客戶端蛔外。
例如: Content-Length: 19847
Content-Encoding
WEB服務器表明自己使用了什么壓縮方法(gzip蛆楞,deflate)壓縮響應中的對象。
例如:Content-Encoding:gzip
Content-Language
作用: WEB服務器告訴瀏覽器自己響應的對象的語言者
例如: Content-Language:da
Miscellaneous 頭域
Server:
作用:指明HTTP服務器的軟件信息
例如:Server: Microsoft-IIS/7.5
X-AspNet-Version:
作用:如果網站是用ASP.NET開發(fā)的夹厌,這個header用來表示ASP.NET的版本
例如: X-AspNet-Version: 4.0.30319
X-Powered-By:
作用:表示網站是用什么技術開發(fā)的
例如: X-Powered-By: ASP.NET
Transport頭域
Connection
例如: Connection: keep-alive 當一個網頁打開完成后豹爹,客戶端和服務器之間用于傳輸HTTP數據的TCP連接不會關閉,如果客戶端再次訪問這個服務器上的網頁尊流,會繼續(xù)使用這一條已經建立的連接
例如: Connection: close 代表一個Request完成后帅戒,客戶端和服務器之間用于傳輸HTTP數據的TCP連接會關閉, 當客戶端再次發(fā)送Request崖技,需要重新建立TCP連接逻住。
Location頭域
Location
作用: 用于重定向一個新的位置, 包含新的URL地址
實例請看304狀態(tài)實例
HTTP協(xié)議是無狀態(tài)的和Connection: keep-alive的區(qū)別
無狀態(tài)是指協(xié)議對于事務處理沒有記憶能力,服務器不知道客戶端是什么狀態(tài)迎献。從另一方面講瞎访,打開一個服務器上的網頁和你之前打開這個服務器上的網頁之間沒有任何聯(lián)系
HTTP是一個無狀態(tài)的面向連接的協(xié)議,無狀態(tài)不代表HTTP不能保持TCP連接吁恍,更不能代表HTTP使用的是UDP協(xié)議(無連接)
從HTTP/1.1起扒秸,默認都開啟了Keep-Alive播演,保持連接特性,簡單地說伴奥,當一個網頁打開完成后写烤,客戶端和服務器之間用于傳輸HTTP數據的TCP連接不會關閉,如果客戶端再次訪問這個服務器上的網頁拾徙,會繼續(xù)使用這一條已經建立的連接
Keep-Alive不會永久保持連接洲炊,它有一個保持時間,可以在不同的服務器軟件(如Apache)中設定這個時間
聲明
本文轉載自
小坦克
博客地址
http://www.cnblogs.com/TankXiao/
原文地址
http://www.cnblogs.com/TankXiao/archive/2012/02/13/2342672.html