HTTP和HTTPS
HTTP(HyperText Transfer Protocol霎冯,超文本傳輸協(xié)議):是一種發(fā)布和接收HTML頁面的方法
HTTPS(HyperText Transfer Protocol over Secure Socket Layer)簡單講是HTTP的安全版恭取,在HTTP下加入SSL層妒貌。
SSL(Secure Socket Layer安全套接層)主要用于web的安全傳輸協(xié)議通危,在傳輸層對網(wǎng)絡(luò)連接進(jìn)行加密,保障在Internet上數(shù)據(jù)傳輸?shù)陌踩?/p>
-
HTTP
的端口號為80
-
HTTPS
的端口號為443
HTTP工作原理
網(wǎng)絡(luò)爬蟲抓取過程可以理解為模擬瀏覽器操作的過程
灌曙。
瀏覽器的主要功能是向服務(wù)器發(fā)出請求菊碟,在瀏覽器窗口中展示您選擇的網(wǎng)絡(luò)資源,HTTP是一套計(jì)算機(jī)通過網(wǎng)絡(luò)進(jìn)行通信的規(guī)則在刺。
HTTP的請求和響應(yīng)
HTTP通信由兩部分組成:客戶端請求消息
與服務(wù)器響應(yīng)消息
瀏覽器發(fā)送HTTP請求的過程
- 當(dāng)用戶在瀏覽器的地址欄中輸入一個(gè)URL兵按回車鍵之后逆害,瀏覽器會(huì)向HTTP服務(wù)器發(fā)送HTTP請求。HTTP請求主要分為"Get"和"Post"兩種方法蚣驼。
- 當(dāng)我們在瀏覽器中輸入U(xiǎn)RL http://www.baidu.com的時(shí)候魄幕,瀏覽器發(fā)送一個(gè)Request請求去獲取http://www.baidu.com的html文件,服務(wù)器把Response文件對象發(fā)送回瀏覽器颖杏。
- 瀏覽器分析Response的HTML纯陨,發(fā)現(xiàn)其中引用了很多其他文件凶杖,比如Images文件畔柔、CSS文件、JS文件。瀏覽器會(huì)自動(dòng)再次發(fā)送Response去獲取圖片殴泰,CSS文件艰毒,或者JS文件英妓。
- 當(dāng)所有的文件都下載成功后云头,網(wǎng)頁會(huì)根據(jù)HTML語法結(jié)構(gòu),完整的顯示出來了量愧。
URL(Uniform/Universal Resource Locator的縮寫):統(tǒng)一資源定位符钾菊,是用于完整地描述Internet上網(wǎng)頁和其他資源的地址的一種標(biāo)識方法。
基本格式:
scheme://host[:port#]/path/..../[?query-string][#anchor]
- scheme:協(xié)議(例如:http偎肃、https结缚、ftp)
- host:服務(wù)器的IP地址或者域名
- port#:服務(wù)器的端口(如果是走協(xié)議默認(rèn)端口,缺省端口80)
- path:訪問資源的路徑
- query-string:參數(shù)软棺,發(fā)送給http服務(wù)器的數(shù)據(jù)
- anchor:錨(跳轉(zhuǎn)到網(wǎng)頁的指定錨點(diǎn)位置)
例如:
+ ftp://192.168.0.116:8080/index
+ http://www.baidu.com
+ http://item.jd.com/11936238.html#product-detail
客戶端HTTP請求
URL只是標(biāo)識資源的位置红竭,而HTTP是用來提交和獲取資源〈洌客戶端發(fā)送一個(gè)HTTP請求到服務(wù)器的請求消息茵宪,包括以下格式:
請求行
、請求頭部
瘦棋、空行
稀火、請求數(shù)據(jù)
四個(gè)部分組成,下圖給出了請求報(bào)文的一般格式:
一個(gè)典型的HTTP請求實(shí)例:
GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Referer: http://www.baidu.com/
Accept-Encoding: gzip, deflate, sdch, br
Accept-Language: zh-CN,zh;q=0.8,en;q=0.6
Cookie: BAIDUID=04E4001F34EA74AD4601512DD3C41A7B:FG=1; BIDUPSID=04E4001F34EA74AD4601512DD3C41A7B; PSTM=1470329258; MCITY=-343%3A340%3A; BDUSS=nF0MVFiMTVLcUh-Q2MxQ0M3STZGQUZ4N2hBa1FFRkIzUDI3QlBCZjg5cFdOd1pZQVFBQUFBJCQAAAAAAAAAAAEAAADpLvgG0KGyvLrcyfrG-AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFaq3ldWqt5XN; H_PS_PSSID=1447_18240_21105_21386_21454_21409_21554; BD_UPN=12314753; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=7e2ad3QHl181NSPbFbd7PRUCE1LlufzxrcFmwYin0E6b%2BW8bbTMKHZbDP0g; BDSVRTM=0
請求方法
GET https://www.baidu.com/ HTTP/1.1
根據(jù)HTTP標(biāo)準(zhǔn)赌朋,HTTP請求可以使用很多請求方法凰狞。
HTTP 0.9:只有基本的文本GET功能
HTTP 1.0:完善的請求/響應(yīng)模型,并將協(xié)議補(bǔ)充完整沛慢,定義了三種請求方法:GET赡若、POST和HEAD方法。
HTTP 1.1:在1.0的基礎(chǔ)上進(jìn)行更新团甲,新增了五種請求方法:OPTIONS,PUT,DELETE,TRACE和CONNECT方法逾冬。
HTTP 2.0(未普及):請求/響應(yīng)首部的定義基本沒有改變,只是所有首部鍵必須全部小寫躺苦,而且請求行要獨(dú)立為:method身腻、:scheme、:host匹厘、:path這些鍵值對
序號 | 方法 | 描述 |
---|---|---|
1 | GET | 請求指定的頁面信息嘀趟,并返回實(shí)體主體。 |
2 | HEAD | 類似于get請求愈诚,只不過返回的響應(yīng)中沒有具體的內(nèi)容她按,用于獲取報(bào)頭 |
3 | POST | 向指定資源提交數(shù)據(jù)進(jìn)行處理請求(例如提交表單或者上傳文件)坡椒,數(shù)據(jù)被包含在請求體中。POST請求可能會(huì)導(dǎo)致新的資源的建立和/或已有資源的修改尤溜。 |
4 | PUT | 從客戶端向服務(wù)器傳送的數(shù)據(jù)取代指定的文檔的內(nèi)容。 |
5 | DELETE | 請求服務(wù)器刪除指定的頁面汗唱。 |
6 | CONNECT | HTTP/1.1協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器宫莱。 |
7 | OPTIONS | 允許客戶端查看服務(wù)器的性能。 |
8 | TRACE | 回顯服務(wù)器收到的請求哩罪,主要用于測試或診斷授霸。 |
HTTP請求主要分為GET
和POST
兩種方法
- GET是從服務(wù)器上獲取數(shù)據(jù),POST是向服務(wù)器傳送數(shù)據(jù)
- GET請求參數(shù)顯示在瀏覽器網(wǎng)址上际插,HTTP服務(wù)器根據(jù)該請求所包含URL中的參數(shù)來產(chǎn)生響應(yīng)內(nèi)容碘耳,即"Get"請求的參數(shù)是URL的一部分。例如:
http://www.baidu.com/s?wd=Chinese
- POST請求參數(shù)在請求體中框弛,消息長度沒有限制而且以隱式的方式進(jìn)行發(fā)送辛辨,通常用來向HTTP服務(wù)器提交量比較大的數(shù)據(jù)(比如請求體中包含許多參數(shù)或者文件上床操作等),請求的參數(shù)包含在"Content-Type"消息頭里瑟枫,指明該消息體的媒體類型和編碼斗搞。
注意:避免使用GET方式提交表單,因?yàn)橛锌赡軙?huì)導(dǎo)致安全問題慷妙。比如說在登陸表單中用GET方式僻焚,用戶輸入的用戶名和密碼將在地址欄中暴露無遺。
常用的請求頭
1膝擂、Host(主機(jī)和端口號)
Host:對應(yīng)網(wǎng)址URL中的web名稱和端口號虑啤,用于指定被請求資源的Internet主機(jī)和端口號,通常屬于URL的一部分架馋。
2. Connection(鏈接類型)
Connection:表示客戶端與服務(wù)器鏈接類型
Client發(fā)起一個(gè)包含
Connection: keep-alive
的請求狞山,HTTP/1.1使用keep-alive
為默認(rèn)值。-
Server收到請求后:
如果Server支持keep-alive,回復(fù)一個(gè)包含Connection:keep-alive的響應(yīng)叉寂,不關(guān)閉連接铣墨;如果Server不支持keep-alive,回復(fù)一個(gè)包含Connection:close的響應(yīng),關(guān)閉連接办绝。
如果client收到包含
Connection:keep-alive
的響應(yīng)伊约,向同一個(gè)連接發(fā)送下一個(gè)請求,直到乙方主動(dòng)關(guān)閉連接孕蝉。
keep-alive在很多情況下能夠重用連接屡律,減少資源消耗,縮短響應(yīng)時(shí)間降淮,比如當(dāng)瀏覽器器需要多個(gè)文件時(shí)(比如一個(gè)HTML文件和相關(guān)的圖形文件)超埋,不需要每次都去請求建立連接搏讶。
3.Upgrade-Insecure-Request(升級為HTTPS請求)
Upgrade-Insecure-Requests:升級不安全的的請求,意思是會(huì)在加載http資源時(shí)自動(dòng)替換成成https請求霍殴,讓瀏覽器不再顯示https頁面中的http請求警報(bào)媒惕。
HTTPS是以安全為目標(biāo)的HTTP通道,所以在HTTPS承載的頁面上不允許出現(xiàn)HTTP請求来庭,一旦出現(xiàn)就是提示或報(bào)警妒蔚。
4.User-Agent(瀏覽器名稱)
User-Agent:是客戶端瀏覽器的名稱,以后會(huì)詳細(xì)講月弛。
5.Accept(傳輸文件類型)
Accept:指瀏覽器或其他客戶端可以接收的MIME(Multipurpose Internet Mail Extensions(多用途互聯(lián)網(wǎng)郵件擴(kuò)展))文件類型肴盏,服務(wù)器可以根據(jù)它判斷并返回適當(dāng)?shù)奈募袷健?/p>
舉例:
Accept: */*
:表示什么都可以接收。
Accept: image/gif
:表明客戶端希望接受GIF圖像格式的資源帽衙。
Accept: text/html
:表明客戶端希望接受html文本菜皂。
Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8
:表示瀏覽器支持的MIME類型分別是html文本、xhtml和xml文檔厉萝、所有的圖像格式資源恍飘。
**q是權(quán)重系數(shù),范圍0<= q <= 1谴垫,q值越大常侣,請求越傾向于獲得其";"之前的類型表示的內(nèi)容。若沒有指定q值弹渔,則默認(rèn)為1胳施,按從左到右排序順序;若被賦值為0肢专,則用于表示瀏覽器不接受此內(nèi)容類型舞肆。 **
Text:用于標(biāo)準(zhǔn)化地表示的文本信息,文本消息可以是多種字符集或者多種格式博杖;Application:用于傳輸應(yīng)用程序數(shù)據(jù)或者二級制數(shù)據(jù)椿胯。詳情請點(diǎn)擊
6. Referer(頁面跳轉(zhuǎn)處)
Referer:表明產(chǎn)生請求的網(wǎng)頁來自于哪個(gè)URL,用戶是從該Referer頁面訪問當(dāng)當(dāng)前請求的頁面剃根。這個(gè)屬性可以用來跟蹤WEB請求來自哪個(gè)頁面哩盲,是從什么網(wǎng)站來的。
有時(shí)候遇到下載某網(wǎng)站圖片狈醉,需要對應(yīng)的Referer,否則無法下載圖片廉油,那是因?yàn)槿思易隽朔辣I鏈,原理就是根據(jù)referer去判斷是否是本網(wǎng)站的地址苗傅,如果不是抒线,則拒絕,如果是渣慕,就可以下載嘶炭;
7. Accept-Encoding(文件編碼格式)
Accept-Encoding:指出瀏覽器可以接收的編碼方式抱慌。編碼方式不同于文件格式,它是為了壓縮文件并加速文件傳輸速度眨猎。瀏覽器在接收到WEB端相應(yīng)之后編碼抑进,然后再檢查文件格式,許多情形下還可以減少大量的下載時(shí)間睡陪。
舉例:Accept-Encoding:gzip;q=1.0,identity;q=0.5,;q=0*
如果有多個(gè)Encoding同時(shí)匹配寺渗,按照q值順序排列,本例中按順序支持gzip,identity壓縮編碼宝穗,支持gzip的瀏覽器會(huì)返回經(jīng)過gzip編碼的HTML頁面。如果請求消息中沒有設(shè)置這個(gè)域服務(wù)器假定客戶端對各種內(nèi)容編碼都可以接收码秉。
8. Accept-Language(語言種類)
Accept-Language:指出瀏覽器可以接受的語言種類逮矛,如en或en-us指英語,zh或者zh-cn指中文转砖,當(dāng)服務(wù)器能夠提供一種以上的語言版本時(shí)要用到须鼎。
9. Accept-Charset(字符編碼)
Accept-Charset:指出瀏覽器可以接收的字符編碼
舉例:Accept-Charset:sio-8859-1,gb2312,utf-8**
- ISO8859-1:通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字符府蔗,英文瀏覽器的默認(rèn)值是ISO-8859-1晋控。
- gb2312:標(biāo)準(zhǔn)簡體中文字符集;
- UTF-8:UNICODE的一種邊長字符編碼姓赤,可以解決多種語言文本顯示問題赡译,從而實(shí)現(xiàn)應(yīng)用國際化和本地化。
如果在請求消息中沒有設(shè)置這個(gè)域不铆,缺省是任何字符集都可以接受蝌焚。
10.Cookie(Cookie)
Cookie:瀏覽器用這個(gè)屬性向服務(wù)器發(fā)送Cookie。Cookie實(shí)在瀏覽器中寄存的小型數(shù)據(jù)體誓斥,它可以記載和服務(wù)器相關(guān)的用戶信息只洒,也可以用來實(shí)現(xiàn)會(huì)話功能,以后會(huì)詳細(xì)講劳坑。
11. Content-Type(POST數(shù)據(jù)類型)
Content-Type:POST請求里用來表示的內(nèi)容類型毕谴。
舉例:Content-Type=Text/XML;charset=gb2312;
指明該請求的消息體中包含的是純文本的XML類型的數(shù)據(jù),字符編碼采用"gb2312"
服務(wù)端HTTP響應(yīng)
HTTP響應(yīng)也由四個(gè)部分距芬,分別是:狀態(tài)行
涝开、消息報(bào)頭
、空行
框仔、響應(yīng)正文
HTTP/1.1 200 OK
Server: Tengine
Connection: keep-alive
Date: Wed, 30 Nov 2016 07:58:21 GMT
Cache-Control: no-cache
Content-Type: text/html;charset=UTF-8
Keep-Alive: timeout=20
Vary: Accept-Encoding
Pragma: no-cache
X-NWS-LOG-UUID: bd27210a-24e5-4740-8f6c-25dbafa9c395
Content-Length: 180945
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" ....
常用的響應(yīng)報(bào)頭(了解)
1.Cache-Control:must-revalidate, no-cache, private忠寻。
這個(gè)值告訴客戶端,服務(wù)端不希望客戶端緩存資源存和,在下次請求資源時(shí)奕剃,必須要重新請求服務(wù)器衷旅,不能從緩存副本中獲取資源。
- Cache-Control是響應(yīng)頭中很重要的信息纵朋,當(dāng)客戶端請求頭中包含Cache-Control:max-age=0請求柿顶,明確表示不會(huì)緩存服務(wù)器資源時(shí),Cache-Control作為回應(yīng)響應(yīng)操软,通常會(huì)返回no-cache嘁锯,意思是說,“那就不緩存唄”聂薪。
- 當(dāng)客戶端在請求頭中沒有包含Cache-Control時(shí)家乘,服務(wù)端往往會(huì)根據(jù)不同的資源確定不同的緩存忽略,比如說oschina在緩存圖片資源的策略就是Cache-Control:max-age=86400,這個(gè)意思是藏澳,從當(dāng)前時(shí)間開始仁锯,在86400秒的時(shí)間內(nèi),客戶端可以直接從緩存副本中讀取資源翔悠,而不需要向服務(wù)器請求业崖。
2.Connection:keep-alive
這個(gè)字段作為回應(yīng)客戶端的Connection:keep-alive,告訴客戶端服務(wù)器的tcp連接也是一個(gè)長連接蓄愁,客戶端可以繼續(xù)使用這個(gè)tcp連接發(fā)送http請求双炕。
3.Content-Encoding:gzip
告訴客戶端,服務(wù)器發(fā)送的資源是采用gzip編碼的撮抓,客戶端看到這個(gè)信息后妇斤,應(yīng)該采用gzip對資源進(jìn)行解碼。
4.Content-Type:text/html;charset=UTF-8
告訴客戶端丹拯,資源文件的類型趟济,還有字符編碼,客戶端通過utf-8對資源進(jìn)行解碼咽笼,然后對資源進(jìn)行html解析顷编。通常我們會(huì)看到有些網(wǎng)站是亂碼的,往往就是服務(wù)器端沒有返回正確的編碼剑刑。
5.Date: Sun, 21 Sep 2016 06:18:21 GMT
這個(gè)就是服務(wù)端發(fā)送資源的服務(wù)器時(shí)間媳纬,GMT是格林尼治所在地的標(biāo)準(zhǔn)時(shí)間。http協(xié)議中發(fā)送的時(shí)間都是GMT施掏,這主要是解決在互聯(lián)網(wǎng)上钮惠,不同時(shí)區(qū)在相互請求資源的時(shí)候,時(shí)間混亂問題七芭。
6.Expires:Sun, 1 Jan 2000 01:00:00 GMT
這個(gè)響應(yīng)頭也是緩存有關(guān)的素挽,告訴客戶端在這個(gè)時(shí)間前,可以直接訪問緩存副本狸驳,很顯然這個(gè)值會(huì)存在問題预明,因?yàn)榭蛻舳撕头?wù)器的時(shí)間不一定會(huì)相應(yīng)缩赛,如果時(shí)間不同就會(huì)導(dǎo)致問題。所以這個(gè)響應(yīng)頭是沒有Cache-Control:max-age=*這個(gè)響應(yīng)頭準(zhǔn)確的撰糠,因?yàn)閙ax-age=date中的date是相應(yīng)時(shí)間酥馍,不僅更好理解,也更準(zhǔn)確阅酪。
7.Pragma:no-cache
這個(gè)含義與Cache-Control等同旨袒。
8.Server:Tengine/1.4.6
這個(gè)是服務(wù)器和相應(yīng)版本,只是告訴客戶端服務(wù)器的信息术辐。
9.Transfer-Encoding: chunked
這個(gè)響應(yīng)頭告訴客戶端砚尽,服務(wù)器發(fā)送的資源的方式是分塊發(fā)送的。一般分塊發(fā)送的資源都是服務(wù)器動(dòng)態(tài)生成的辉词,在發(fā)送時(shí)還不知道發(fā)送資源的大小必孤,所以采用分塊發(fā)送,每一塊都是獨(dú)立的较屿,獨(dú)立的塊都能表示自己的長度隧魄,最后一塊是0長度的卓练,當(dāng)客戶端讀到這個(gè)0長度的塊時(shí)隘蝎,就可以確定資源已經(jīng)傳輸完了。
10.Vary:Accept-Encoding
告訴緩存服務(wù)器襟企,緩存壓縮文件和非壓縮文件兩個(gè)版本嘱么,現(xiàn)在這個(gè)字段用處并不大,因?yàn)楝F(xiàn)在的瀏覽器都是支持壓縮的顽悼。
響應(yīng)狀態(tài)碼
響應(yīng)的狀態(tài)碼有三位數(shù)字組成曼振,第一個(gè)數(shù)字定義了響應(yīng)的 類別,且有五種可能取值蔚龙。
常見狀態(tài)碼:
-
100~199
:表示服務(wù)器成功接收部分請求冰评,要求客戶端繼續(xù)提交其余請求才能完成整個(gè)處理過程。 -
200~299
:表示服務(wù)器成功接收請求并已完成整個(gè)處理過程木羹。常用200(OK請求成功)甲雅。 -
300~399
:為完成請求,客戶需進(jìn)一步細(xì)化請求坑填。例如:請求的資源已經(jīng)移動(dòng)到新地址抛人、常用302(所請求的頁面已經(jīng)臨時(shí)轉(zhuǎn)移到新的url)、307和304(使用緩存資源) -
400~499
:哭護(hù)短的請求有錯(cuò)誤脐瑰,常用404(服務(wù)器無法找到被請求的頁面)妖枚、403(服務(wù)器拒絕訪問,權(quán)限不夠) -
500~599
:服務(wù)器出現(xiàn)錯(cuò)誤苍在,常用500(請求未完成绝页。服務(wù)器余姚不可預(yù)知的狀況)荠商。
Cookie和Session:
服務(wù)器和客戶端的交互僅限于請求/響應(yīng)過程,結(jié)束之后便斷開抒寂,在下一次請求時(shí)结啼,服務(wù)器會(huì)認(rèn)為新的客戶端。
為了維護(hù)他們之間的鏈接屈芜,讓服務(wù)器知道這是前一個(gè)用戶發(fā)送的請求郊愧,必須在一個(gè)地方保存客戶端的信息。
Cookie:通過在 客戶端 記錄的信息確定用戶的身份井佑。
Session:通過在 服務(wù)器端 記錄的信息確定用戶的身份属铁。