一、從輸入一個(gè)網(wǎng)址開(kāi)始
當(dāng)我們?cè)跒g覽器輸入一個(gè)網(wǎng)址哪审,然后按下回車饶深,接下來(lái)瀏覽器顯示了頁(yè)面餐曹。網(wǎng)速好的話這之間可能就一秒,但在這一秒內(nèi)到底發(fā)生了什么敌厘?
本文主要內(nèi)容是試圖記錄一個(gè)完整 Web 請(qǐng)求的詳細(xì)過(guò)程台猴,從用戶在瀏覽器中輸入 URL 地址說(shuō)起,然后瀏覽器如何找到服務(wù)器地址的過(guò)程俱两,并發(fā)起請(qǐng)求卿吐;分析請(qǐng)求在達(dá)反向代理服務(wù)器內(nèi)部處理過(guò)程;最后到請(qǐng)求在服務(wù)器端處理完成后锋华,瀏覽器渲染響應(yīng)頁(yè)面過(guò)程嗡官。
大致過(guò)程如下:
Web請(qǐng)求的工作原理可以簡(jiǎn)單地歸納為:
瀏覽器通過(guò) DNS 把域名解析成對(duì)應(yīng)的IP地址;
根據(jù)這個(gè) IP 地址在互聯(lián)網(wǎng)上找到對(duì)應(yīng)的服務(wù)器毯焕,建立 TCP 連接衍腥;
客戶端向服務(wù)器發(fā)送 HTTP 協(xié)議請(qǐng)求包,請(qǐng)求服務(wù)器里的資源文檔纳猫;
在服務(wù)器端婆咸,實(shí)際上還有復(fù)雜的業(yè)務(wù)邏輯:服務(wù)器可能有多臺(tái),到底指定哪臺(tái)服務(wù)器處理請(qǐng)求芜辕,這需要一個(gè)負(fù)載均衡設(shè)備來(lái)平均分配所有用戶的請(qǐng)求尚骄;
還有請(qǐng)求的數(shù)據(jù)是存儲(chǔ)在分布式緩存里還是一個(gè)靜態(tài)文件中,或是在數(shù)據(jù)庫(kù)里侵续;
當(dāng)數(shù)據(jù)返回瀏覽器時(shí)倔丈,瀏覽器解析數(shù)據(jù)發(fā)現(xiàn)還有一些靜態(tài)資源(如:css憨闰,js或者圖片)時(shí)又會(huì)發(fā)起另外的請(qǐng)求,而這些請(qǐng)求可能會(huì)在 CDN 上需五,那么 CDN 服務(wù)器又會(huì)處理這個(gè)用戶的請(qǐng)求鹉动。
客戶端與服務(wù)器斷開(kāi)。由客戶端解釋 HTML 文檔宏邮,在客戶端屏幕上渲染圖形結(jié)果泽示。
一個(gè) HTTP 事務(wù)就是這樣實(shí)現(xiàn)的,看起來(lái)很簡(jiǎn)單蜜氨,原理其實(shí)是挺負(fù)責(zé)的械筛。需要注意的是客戶機(jī)與服務(wù)器之間的通信是非持久連接的,也就是當(dāng)服務(wù)器發(fā)送了應(yīng)答后就與客戶機(jī)斷開(kāi)連接飒炎,等待下一次請(qǐng)求埋哟。
但需要注意的是,從 HTTP 1.1 開(kāi)始厌丑,服務(wù)器可以與客戶端保持長(zhǎng)連接定欧,不一定是請(qǐng)求完成后就斷開(kāi)連接渔呵。
二怒竿、DNS 域名解析
首先來(lái)看看最先發(fā)生的事情——DNS 域名解析,簡(jiǎn)單的說(shuō)就是把域名翻譯成 IP 地址扩氢。例如:把 www.baidu.com
這個(gè)域名翻譯成對(duì)應(yīng) IP 192.168.1.2
耕驰,這里只是舉個(gè)例子。
如果你在瀏覽器中直接輸入的 IP 地址录豺,那么實(shí)際上會(huì)跳過(guò)這個(gè)步驟朦肘,否則會(huì)經(jīng)理下面幾部:
1、瀏覽器緩存檢查
瀏覽器會(huì)首先搜索瀏覽器自身的 DNS 緩存双饥,緩存時(shí)間比較短媒抠,大概只有1分鐘,且只能容納1000條緩存咏花,看自身的緩存中是否有對(duì)應(yīng)的條目趴生,而且沒(méi)有過(guò)期,如果有且沒(méi)有過(guò)期則解析到此結(jié)束昏翰。
2苍匆、操作系統(tǒng)緩存檢查 + hosts 解析
如果瀏覽器的緩存里沒(méi)有找到對(duì)應(yīng)的條目,操作系統(tǒng)也會(huì)有一個(gè)域名解析的過(guò)程棚菊,那么瀏覽器先搜索操作系統(tǒng)的 DNS 緩存中是否有這個(gè)域名對(duì)應(yīng)的解析結(jié)果浸踩,如果找到且沒(méi)有過(guò)期則停止搜索,解析到此結(jié)束统求。
在 Linux 中可以通過(guò)
/etc/hosts
文件來(lái)設(shè)置检碗,可以將任何域名解析到任何能夠訪問(wèn)的 IP 地址据块。如果在這里指定了一個(gè)域名對(duì)應(yīng)的 IP 地址,那么瀏覽器會(huì)首先使用這個(gè) IP 地址后裸。當(dāng)解析到這個(gè)配置文件中的某個(gè)域名時(shí)瑰钮,操作系統(tǒng)會(huì)在緩存中緩存這個(gè)解析結(jié)果,緩存的時(shí)間同樣是受這個(gè)域名的失效時(shí)間和緩存的空間大小控制的微驶。
3浪谴、本地區(qū)域名服務(wù)器(Local DNS Server)解析
如果在 hosts 文件中也沒(méi)有找到對(duì)應(yīng)的條目,瀏覽器會(huì)發(fā)起一個(gè) DNS 的系統(tǒng)調(diào)用因苹,會(huì)向本地配置的首選 DNS 服務(wù)器發(fā)起域名解析請(qǐng)求(通過(guò)的是 UDP 協(xié)議向 DNS 的 53 端口發(fā)起請(qǐng)求苟耻,這個(gè)請(qǐng)求是遞歸的請(qǐng)求,也就是運(yùn)營(yíng)商的DNS服務(wù)器必須得提供給我們?cè)撚蛎腎P地址)扶檐。
在我們的網(wǎng)絡(luò)配置中都會(huì)有“DNS 服務(wù)器地址”這一項(xiàng)凶杖,這個(gè)地址就用于解決前面所說(shuō)的如果兩個(gè)過(guò)程無(wú)法解析時(shí)要怎么辦。操作系統(tǒng)會(huì)把這個(gè)域名發(fā)送給這里設(shè)置的 LDNS款筑,也就是本地區(qū)的域名服務(wù)器智蝠。
這個(gè) DNS 通常都提供給你本地互聯(lián)網(wǎng)接入的一個(gè) DNS 解析服務(wù),例如你是在學(xué)校接入互聯(lián)網(wǎng)奈梳,那么你的 DNS 服務(wù)器肯定在你的學(xué)校杈湾;如果你是在一個(gè)小區(qū)接入互聯(lián)網(wǎng)的,那這個(gè) DNS 就是提供給你接入互聯(lián)網(wǎng)的應(yīng)用提供商攘须,即電信或者聯(lián)通漆撞。大約 80% 的域名解析都到這里就已經(jīng)完成了,所以 LDNS 主要承擔(dān)了域名的解析工作于宙。
4浮驳、根域名服務(wù)器解析(Root Server)
如果 LDNS 沒(méi)有找到對(duì)應(yīng)的條目,則由運(yùn)營(yíng)商的 DNS 代我們的瀏覽器發(fā)起迭代 DNS 解析請(qǐng)求捞魁。它首先是會(huì)找根域的 DNS 的 IP 地址至会,找到根域的 DNS 地址,就會(huì)向其發(fā)起請(qǐng)求谱俭。然后根域名服務(wù)器返回給本地域名服務(wù)器一個(gè)所查詢域的主域名服務(wù)器(gTLD Server)地址奉件。
5、主域名服務(wù)器(gTLD Server)
本地域名服務(wù)器(LDNS Server)再向上一步返回的 gTLD 服務(wù)器發(fā)送請(qǐng)求旺上。
接受請(qǐng)求的 gTLD 服務(wù)器查找并返回此域名對(duì)應(yīng)的 Name Server 域名服務(wù)器的地址瓶蚂,這個(gè) Name Server 通常就是你注冊(cè)的域名服務(wù)器,例如你在某個(gè)域名服務(wù)提供商申請(qǐng)的域名宣吱,那么這個(gè)域名解析任務(wù)就由這個(gè)域名提供商的服務(wù)器來(lái)完成窃这。
Name Server 域名服務(wù)器會(huì)查詢存儲(chǔ)的域名和IP的映射關(guān)系表,正常情況下都根據(jù)域名得到目標(biāo)IP記錄,連同一個(gè) TTL 值返回給 DNS Server 域名服務(wù)器杭攻。
下圖匯總了上面所說(shuō)的 DNS 解析過(guò)程:
三祟敛、TCP 的 3 次握手
拿到域名對(duì)應(yīng)的 IP 地址后,User-Agent(一般是指瀏覽器)會(huì)以一個(gè)隨機(jī)端口(1024 < 端口 < 65535)向服務(wù)器的 WEB 程序發(fā)起 TCP 的連接請(qǐng)求兆解。
這里還涉及 ARP(Address Resolution Protocol 地址解析協(xié)議):根據(jù) IP 地址獲取物理地址 (MAC 地址) 的一個(gè)協(xié)議馆铁。
當(dāng)一個(gè)數(shù)據(jù)幀經(jīng)過(guò)多次路由到達(dá)目的網(wǎng)絡(luò)時(shí),路由器只能知道其數(shù)據(jù)幀中的目的 IP 地址锅睛,而不知目標(biāo)主機(jī)的硬件地址埠巨。網(wǎng)絡(luò)層使用的是 IP 地址,但是在實(shí)際網(wǎng)絡(luò)鏈路上傳送數(shù)據(jù)幀時(shí)现拒,最終必須使用該網(wǎng)絡(luò)的硬件地址辣垒,此時(shí)需要目的主機(jī)的硬件地址,就要使用 ARP 來(lái)獲取到對(duì)應(yīng) IP 地址主機(jī)的物理地址印蔬。
這個(gè)連接請(qǐng)求(原始的 HTTP 請(qǐng)求經(jīng)過(guò) TCP/IP 4層模型的層層封包)到達(dá)服務(wù)器端后(這中間通過(guò)各種路由設(shè)備勋桶,局域網(wǎng)內(nèi)除外),進(jìn)入到網(wǎng)卡侥猬,然后是進(jìn)入到內(nèi)核的 TCP/IP 協(xié)議棧(用于識(shí)別該連接請(qǐng)求例驹,解封包,一層一層的剝開(kāi))退唠,還有可能要經(jīng)過(guò) Netfilter 防火墻(屬于內(nèi)核的模塊)的過(guò)濾鹃锈,最終到達(dá) Web 程序,最終建立了TCP/IP的連接铜邮。
Client 首先發(fā)送一個(gè)連接試探仪召,SYN = 1 表示這是一個(gè)連接請(qǐng)求或連接接受報(bào)文寨蹋,同時(shí)表示這個(gè)數(shù)據(jù)報(bào)不能攜帶數(shù)據(jù)松蒜,seq = x 表示 Client 自己的初始序號(hào)(seq = 0 就代表這是第 0 號(hào)包),這時(shí)候 Client 進(jìn)入 syn_sent 狀態(tài)已旧,表示客戶端等待服務(wù)器的回復(fù)秸苗。
Server 監(jiān)聽(tīng)到連接請(qǐng)求報(bào)文后,如同意建立連接运褪,則向 Client 發(fā)送確認(rèn)惊楼。報(bào)文中的 SYN 和 ACK 都置 1 ,ACK = x + 1 表示期望收到對(duì)方下一個(gè)報(bào)文段的第一個(gè)數(shù)據(jù)字節(jié)序號(hào)是 x+1秸讹,同時(shí)表明 x 為止的所有數(shù)據(jù)都已正確收到(ACK = 1 其實(shí)是 ACK = 0 + 1檀咙,也就是期望客戶端的第 1 個(gè)包),seq = y 表示 Server 自己的初始序號(hào)(seq = 0 就代表這是服務(wù)器這邊發(fā)出的第 0 號(hào)包)璃诀。這時(shí)服務(wù)器進(jìn)入 syn_rcvd弧可,表示服務(wù)器已經(jīng)收到 Client 的連接請(qǐng)求,等待確認(rèn)劣欢。
Client 收到確認(rèn)后還需再次發(fā)送確認(rèn)棕诵,同時(shí)攜帶要發(fā)送給 Server 的數(shù)據(jù)裁良。ACK 置 1 表示確認(rèn)號(hào) ack= y + 1 有效(代表期望收到服務(wù)器的第 1 個(gè)包),Client自己的序號(hào) seq= x + 1(表示這就是我的第1個(gè)包校套,相對(duì)于第0個(gè)包來(lái)說(shuō)的)价脾,一旦收到Client的確認(rèn)之后,這個(gè)TCP連接就進(jìn)入 Established 狀態(tài)笛匙,就可以發(fā)起請(qǐng)求了侨把。
具體流程可以參看《TCP、UDP妹孙、HTTP座硕、HTTPS》。
四涕蜂、Nginx 反向代理
1华匾、反向代理
反向代理(Reverse Proxy)方式是指:代理服務(wù)器來(lái)接受 Internet 上的連接請(qǐng)求,然后將請(qǐng)求轉(zhuǎn)發(fā)給內(nèi)部網(wǎng)絡(luò)上的服務(wù)器机隙,并將從內(nèi)部網(wǎng)絡(luò)上服務(wù)器得到的結(jié)果返回給 Internet 上請(qǐng)求連接的客戶端蜘拉。此時(shí)代理服務(wù)器對(duì)外就表現(xiàn)為一個(gè)服務(wù)器,反向代理服務(wù)器對(duì)于客戶端而言它就像是原始服務(wù)器有鹿,并且客戶端不需要進(jìn)行任何特別的設(shè)置旭旭。
反向代理的作用:
- 保證內(nèi)網(wǎng)的安全,可以使用反向代理提供 WAF 功能葱跋,阻止 Web 攻擊持寄。
- 負(fù)載均衡,通過(guò)反向代理服務(wù)器來(lái)優(yōu)化網(wǎng)站的負(fù)載娱俺。
2稍味、正向代理
既然有反向代理,就肯定有正向代理荠卷。什么叫正向代理呢模庐?
正向代理(Forward Proxy)通常都被簡(jiǎn)稱為代理,就是在用戶無(wú)法正常訪問(wèn)外部資源油宜,可以通過(guò)代理的方式掂碱,讓用戶繞過(guò)防火墻,從而連接到目標(biāo)網(wǎng)絡(luò)或者服務(wù)慎冤。
正向代理的工作原理就像一個(gè)跳板疼燥。
比如:我訪問(wèn)不了 Google,但是我能訪問(wèn)一個(gè)代理服務(wù)器 A蚁堤,A 能訪問(wèn) Google醉者,于是我先連上代理服務(wù)器 A,告訴它我需要 Google 的內(nèi)容,A 就去取回來(lái)湃交,然后返回給我熟空。
從網(wǎng)站的角度,只在代理服務(wù)器來(lái)取內(nèi)容的時(shí)候有一次記錄搞莺,有時(shí)候并不知道是用戶的請(qǐng)求息罗,也隱藏了用戶的資料,這取決于代理告不告訴網(wǎng)站才沧。
正向代理是一個(gè)位于客戶端和原始服務(wù)器 (origin server) 之間的服務(wù)器迈喉。為了從原始服務(wù)器取得內(nèi)容,客戶端向代理發(fā)送一個(gè)請(qǐng)求并指定目標(biāo) (原始服務(wù)器)温圆,然后代理向原始服務(wù)器轉(zhuǎn)交請(qǐng)求并將獲得的內(nèi)容返回給客戶端挨摸。
3、正向代理與反向代理對(duì)比
五岁歉、關(guān)閉 TCP 連接
這一步不是所有的網(wǎng)頁(yè)都會(huì)這么做得运,例如網(wǎng)頁(yè)版微信就沒(méi)有關(guān)閉 TCP 連接,因?yàn)槲⑿派蟿e人可以隨時(shí)發(fā)消息給你锅移,實(shí)際上別人先把消息發(fā)送到了微信服務(wù)器熔掺,微信服務(wù)器再通過(guò) TCP 鏈接,把消息推送到你的屏幕上非剃。
試想一下置逻,如果網(wǎng)頁(yè)版微信關(guān)閉了 TCP 連接會(huì)怎樣?
結(jié)果是:你不刷新網(wǎng)頁(yè)备绽,就永遠(yuǎn)收不到消息了券坞。同時(shí),如果你頻繁的發(fā)消息給別人肺素,那么就在頻繁的創(chuàng)建連接恨锚,關(guān)閉連接,這是很消耗資源的压怠。所以微信就干脆不關(guān)閉 TCP 連接眠冈,這樣微信服務(wù)器就可以給我們的瀏覽器發(fā)消息飞苇。
下圖是一次 HTTP 請(qǐng)求報(bào)文頭部信息菌瘫,其中 Connection: keep-alive
意味著這次請(qǐng)求結(jié)束后不會(huì)關(guān)閉 TCP 連接。
當(dāng)然不是所有的 HTTP 請(qǐng)求都沒(méi)有關(guān)閉連接布卡,例如一篇博文雨让,瀏覽器收到數(shù)據(jù)顯示就可以了,沒(méi)有那么多動(dòng)態(tài)數(shù)據(jù)忿等,我看完就關(guān)了栖忠,這時(shí)就應(yīng)該關(guān)閉 TCP 連接,當(dāng)然這還是取決于請(qǐng)求的服務(wù)器。說(shuō)了這么多庵寞,還沒(méi)說(shuō)關(guān)閉連接狸相。
關(guān)閉 TCP 連接專業(yè)點(diǎn)說(shuō)叫做“四次揮手”,與 TCP 建立連接的“三次握手”相對(duì)應(yīng)捐川。
由于TCP連接是全雙工的脓鹃,因此每個(gè)方向都必須單獨(dú)進(jìn)行關(guān)閉。這原則是當(dāng)一方完成它的數(shù)據(jù)發(fā)送任務(wù)后就能發(fā)送一個(gè) FIN 來(lái)終止這個(gè)方向的連接古沥。收到一個(gè) FIN 只意味著這一方向上沒(méi)有數(shù)據(jù)流動(dòng)瘸右,一個(gè) TCP 連接在收到一個(gè) FIN 后仍能發(fā)送數(shù)據(jù)。首先進(jìn)行關(guān)閉的一方將執(zhí)行主動(dòng)關(guān)閉岩齿,而另一方執(zhí)行被動(dòng)關(guān)閉太颤。
具體流程可以參看《TCP、UDP盹沈、HTTP龄章、HTTPS》。
至此乞封,一個(gè) Web 請(qǐng)求的大致流程差不多就是這樣瓦堵,東西還是挺多的,如果有不完善的地方歌亲,歡迎大家補(bǔ)充菇用。