我們每天使用互聯(lián)網(wǎng),你是否想過疾就,它是如何實現(xiàn)的澜术?
全世界幾十億臺電腦,連接在一起猬腰,兩兩通信鸟废。上海的某一塊網(wǎng)卡送出信號,洛杉磯的另一塊網(wǎng)卡居然就收到了姑荷,兩者實際上根本不知道對方的物理位置盒延,你不覺得這是很神奇的事情嗎?
互聯(lián)網(wǎng)的核心是一系列協(xié)議鼠冕,總稱為"互聯(lián)網(wǎng)協(xié)議"(Internet Protocol Suite)添寺。它們對電腦如何連接和組網(wǎng),做出了詳盡的規(guī)定懈费。理解了這些協(xié)議计露,就理解了互聯(lián)網(wǎng)的原理。
下面就是我的學習筆記憎乙。因為這些協(xié)議實在太復雜票罐、太龐大,我想整理一個簡潔的框架泞边,幫助自己從總體上把握它們该押。為了保證簡單易懂,我做了大量的簡化繁堡,有些地方并不全面和精確沈善,但是應該能夠說清楚互聯(lián)網(wǎng)的原理。
一椭蹄、概述
1.1 五層模型
互聯(lián)網(wǎng)的實現(xiàn)闻牡,分成好幾層。每一層都有自己的功能绳矩,就像建筑物一樣罩润,每一層都靠下一層支持。
用戶接觸到的翼馆,只是最上面的一層割以,根本沒有感覺到下面的層金度。要理解互聯(lián)網(wǎng),必須從最下層開始严沥,自下而上理解每一層的功能猜极。
如何分層有不同的模型,有的模型分七層消玄,有的分四層跟伏。我覺得,把互聯(lián)網(wǎng)分成五層翩瓜,比較容易解釋受扳。
如上圖所示,最底下的一層叫做"實體層"(Physical Layer)兔跌,最上面的一層叫做"應用層"(Application Layer)勘高,中間的三層(自下而上)分別是"鏈接層"(Link Layer)、"網(wǎng)絡層"(Network Layer)和"傳輸層"(Transport Layer)坟桅。越下面的層华望,越靠近硬件;越上面的層桦卒,越靠近用戶立美。
它們叫什么名字,其實并不重要方灾。只需要知道建蹄,互聯(lián)網(wǎng)分成若干層就可以了。
1.2 層與協(xié)議
每一層都是為了完成一種功能裕偿。為了實現(xiàn)這些功能洞慎,就需要大家都遵守共同的規(guī)則。
大家都遵守的規(guī)則嘿棘,就叫做"協(xié)議"(protocol)劲腿。
互聯(lián)網(wǎng)的每一層,都定義了很多協(xié)議鸟妙。這些協(xié)議的總稱焦人,就叫做"互聯(lián)網(wǎng)協(xié)議"(Internet Protocol Suite)。它們是互聯(lián)網(wǎng)的核心重父,下面介紹每一層的功能花椭,主要就是介紹每一層的主要協(xié)議。
二房午、實體層
我們從最底下的一層開始矿辽。
電腦要組網(wǎng),第一件事要干什么?當然是先把電腦連起來袋倔,可以用光纜雕蔽、電纜、雙絞線宾娜、無線電波等方式批狐。
這就叫做"實體層",它就是把電腦連接起來的物理手段前塔。它主要規(guī)定了網(wǎng)絡的一些電氣特性贾陷,作用是負責傳送0和1的電信號。
三嘱根、鏈接層
3.1 定義
單純的0和1沒有任何意義,必須規(guī)定解讀方式:多少個電信號算一組巷懈?每個信號位有何意義该抒?
這就是"鏈接層"的功能,它在"實體層"的上方顶燕,確定了0和1的分組方式凑保。
3.2 以太網(wǎng)協(xié)議
早期的時候,每家公司都有自己的電信號分組方式涌攻。逐漸地欧引,一種叫做"以太網(wǎng)"(Ethernet)的協(xié)議,占據(jù)了主導地位恳谎。
以太網(wǎng)規(guī)定芝此,一組電信號構成一個數(shù)據(jù)包,叫做"幀"(Frame)因痛。每一幀分成兩個部分:標頭(Head)和數(shù)據(jù)(Data)婚苹。
"標頭"包含數(shù)據(jù)包的一些說明項,比如發(fā)送者鸵膏、接受者膊升、數(shù)據(jù)類型等等;"數(shù)據(jù)"則是數(shù)據(jù)包的具體內容谭企。
"標頭"的長度廓译,固定為18字節(jié)。"數(shù)據(jù)"的長度债查,最短為46字節(jié)非区,最長為1500字節(jié)。因此攀操,整個"幀"最短為64字節(jié)院仿,最長為1518字節(jié)。如果數(shù)據(jù)很長,就必須分割成多個幀進行發(fā)送歹垫。
3.3 MAC地址
上面提到剥汤,以太網(wǎng)數(shù)據(jù)包的"標頭",包含了發(fā)送者和接受者的信息排惨。那么吭敢,發(fā)送者和接受者是如何標識呢?
以太網(wǎng)規(guī)定暮芭,連入網(wǎng)絡的所有設備鹿驼,都必須具有"網(wǎng)卡"接口。數(shù)據(jù)包必須是從一塊網(wǎng)卡辕宏,傳送到另一塊網(wǎng)卡畜晰。網(wǎng)卡的地址,就是數(shù)據(jù)包的發(fā)送地址和接收地址瑞筐,這叫做MAC地址凄鼻。
每塊網(wǎng)卡出廠的時候,都有一個全世界獨一無二的MAC地址聚假,長度是48個二進制位块蚌,通常用12個十六進制數(shù)表示。
前6個十六進制數(shù)是廠商編號膘格,后6個是該廠商的網(wǎng)卡流水號峭范。有了MAC地址,就可以定位網(wǎng)卡和數(shù)據(jù)包的路徑了瘪贱。
3.4 廣播
定義地址只是第一步纱控,后面還有更多的步驟。
首先菜秦,一塊網(wǎng)卡怎么會知道另一塊網(wǎng)卡的MAC地址其徙?
回答是有一種ARP協(xié)議,可以解決這個問題喷户。這個留到后面介紹唾那,這里只需要知道,以太網(wǎng)數(shù)據(jù)包必須知道接收方的MAC地址褪尝,然后才能發(fā)送闹获。
其次,就算有了MAC地址河哑,系統(tǒng)怎樣才能把數(shù)據(jù)包準確送到接收方避诽?
回答是以太網(wǎng)采用了一種很"原始"的方式,它不是把數(shù)據(jù)包準確送到接收方璃谨,而是向本網(wǎng)絡內所有計算機發(fā)送沙庐,讓每臺計算機自己判斷鲤妥,是否為接收方。
上圖中拱雏,1號計算機向2號計算機發(fā)送一個數(shù)據(jù)包棉安,同一個子網(wǎng)絡的3號、4號铸抑、5號計算機都會收到這個包贡耽。它們讀取這個包的"標頭",找到接收方的MAC地址鹊汛,然后與自身的MAC地址相比較蒲赂,如果兩者相同,就接受這個包刁憋,做進一步處理滥嘴,否則就丟棄這個包。這種發(fā)送方式就叫做"廣播"(broadcasting)至耻。
有了數(shù)據(jù)包的定義氏涩、網(wǎng)卡的MAC地址、廣播的發(fā)送方式有梆,"鏈接層"就可以在多臺計算機之間傳送數(shù)據(jù)了。
四意系、網(wǎng)絡層
4.1 網(wǎng)絡層的由來
以太網(wǎng)協(xié)議泥耀,依靠MAC地址發(fā)送數(shù)據(jù)。理論上蛔添,單單依靠MAC地址痰催,上海的網(wǎng)卡就可以找到洛杉磯的網(wǎng)卡了,技術上是可以實現(xiàn)的迎瞧。
但是夸溶,這樣做有一個重大的缺點。以太網(wǎng)采用廣播方式發(fā)送數(shù)據(jù)包凶硅,所有成員人手一"包"缝裁,不僅效率低,而且局限在發(fā)送者所在的子網(wǎng)絡足绅。也就是說捷绑,如果兩臺計算機不在同一個子網(wǎng)絡,廣播是傳不過去的氢妈。這種設計是合理的粹污,否則互聯(lián)網(wǎng)上每一臺計算機都會收到所有包,那會引起災難首量。
互聯(lián)網(wǎng)是無數(shù)子網(wǎng)絡共同組成的一個巨型網(wǎng)絡壮吩,很像想象上海和洛杉磯的電腦會在同一個子網(wǎng)絡进苍,這幾乎是不可能的。
因此鸭叙,必須找到一種方法觉啊,能夠區(qū)分哪些MAC地址屬于同一個子網(wǎng)絡,哪些不是递雀。如果是同一個子網(wǎng)絡柄延,就采用廣播方式發(fā)送,否則就采用"路由"方式發(fā)送缀程。("路由"的意思搜吧,就是指如何向不同的子網(wǎng)絡分發(fā)數(shù)據(jù)包,這是一個很大的主題杨凑,本文不涉及滤奈。)遺憾的是,MAC地址本身無法做到這一點撩满。它只與廠商有關蜒程,與所處網(wǎng)絡無關。
這就導致了"網(wǎng)絡層"的誕生伺帘。它的作用是引進一套新的地址昭躺,使得我們能夠區(qū)分不同的計算機是否屬于同一個子網(wǎng)絡。這套地址就叫做"網(wǎng)絡地址"伪嫁,簡稱"網(wǎng)址"领炫。
于是,"網(wǎng)絡層"出現(xiàn)以后张咳,每臺計算機有了兩種地址帝洪,一種是MAC地址,另一種是網(wǎng)絡地址脚猾。兩種地址之間沒有任何聯(lián)系葱峡,MAC地址是綁定在網(wǎng)卡上的,網(wǎng)絡地址則是管理員分配的龙助,它們只是隨機組合在一起砰奕。
網(wǎng)絡地址幫助我們確定計算機所在的子網(wǎng)絡,MAC地址則將數(shù)據(jù)包送到該子網(wǎng)絡中的目標網(wǎng)卡提鸟。因此脆淹,從邏輯上可以推斷,必定是先處理網(wǎng)絡地址沽一,然后再處理MAC地址盖溺。
4.2 IP協(xié)議
規(guī)定網(wǎng)絡地址的協(xié)議,叫做IP協(xié)議铣缠。它所定義的地址烘嘱,就被稱為IP地址昆禽。
目前,廣泛采用的是IP協(xié)議第四版蝇庭,簡稱IPv4醉鳖。這個版本規(guī)定,網(wǎng)絡地址由32個二進制位組成哮内。
習慣上盗棵,我們用分成四段的十進制數(shù)表示IP地址,從0.0.0.0一直到255.255.255.255北发。
互聯(lián)網(wǎng)上的每一臺計算機纹因,都會分配到一個IP地址。這個地址分成兩個部分琳拨,前一部分代表網(wǎng)絡瞭恰,后一部分代表主機。比如狱庇,IP地址172.16.254.1惊畏,這是一個32位的地址,假定它的網(wǎng)絡部分是前24位(172.16.254)密任,那么主機部分就是后8位(最后的那個1)颜启。處于同一個子網(wǎng)絡的電腦,它們IP地址的網(wǎng)絡部分必定是相同的浪讳,也就是說172.16.254.2應該與172.16.254.1處在同一個子網(wǎng)絡缰盏。
但是,問題在于單單從IP地址驻债,我們無法判斷網(wǎng)絡部分。還是以172.16.254.1為例形葬,它的網(wǎng)絡部分合呐,到底是前24位,還是前16位笙以,甚至前28位淌实,從IP地址上是看不出來的。
那么猖腕,怎樣才能從IP地址拆祈,判斷兩臺計算機是否屬于同一個子網(wǎng)絡呢?這就要用到另一個參數(shù)"子網(wǎng)掩碼"(subnet mask)倘感。
所謂"子網(wǎng)掩碼"放坏,就是表示子網(wǎng)絡特征的一個參數(shù)。它在形式上等同于IP地址老玛,也是一個32位二進制數(shù)字淤年,它的網(wǎng)絡部分全部為1钧敞,主機部分全部為0。比如麸粮,IP地址172.16.254.1溉苛,如果已知網(wǎng)絡部分是前24位,主機部分是后8位弄诲,那么子網(wǎng)絡掩碼就是11111111.11111111.11111111.00000000愚战,寫成十進制就是255.255.255.0。
知道"子網(wǎng)掩碼"齐遵,我們就能判斷寂玲,任意兩個IP地址是否處在同一個子網(wǎng)絡。方法是將兩個IP地址與子網(wǎng)掩碼分別進行AND運算(兩個數(shù)位都為1洛搀,運算結果為1敢茁,否則為0),然后比較結果是否相同留美,如果是的話彰檬,就表明它們在同一個子網(wǎng)絡中,否則就不是谎砾。
比如逢倍,已知IP地址172.16.254.1和172.16.254.233的子網(wǎng)掩碼都是255.255.255.0,請問它們是否在同一個子網(wǎng)絡景图?兩者與子網(wǎng)掩碼分別進行AND運算较雕,結果都是172.16.254.0,因此它們在同一個子網(wǎng)絡挚币。
總結一下亮蒋,IP協(xié)議的作用主要有兩個,一個是為每一臺計算機分配IP地址妆毕,另一個是確定哪些地址在同一個子網(wǎng)絡慎玖。
4.3 IP數(shù)據(jù)包
根據(jù)IP協(xié)議發(fā)送的數(shù)據(jù),就叫做IP數(shù)據(jù)包笛粘。不難想象趁怔,其中必定包括IP地址信息。
但是前面說過薪前,以太網(wǎng)數(shù)據(jù)包只包含MAC地址润努,并沒有IP地址的欄位。那么是否需要修改數(shù)據(jù)定義示括,再添加一個欄位呢铺浇?
回答是不需要,我們可以把IP數(shù)據(jù)包直接放進以太網(wǎng)數(shù)據(jù)包的"數(shù)據(jù)"部分垛膝,因此完全不用修改以太網(wǎng)的規(guī)格随抠。這就是互聯(lián)網(wǎng)分層結構的好處:上層的變動完全不涉及下層的結構裁着。
具體來說,IP數(shù)據(jù)包也分為"標頭"和"數(shù)據(jù)"兩個部分拱她。
"標頭"部分主要包括版本二驰、長度、IP地址等信息秉沼,"數(shù)據(jù)"部分則是IP數(shù)據(jù)包的具體內容桶雀。它放進以太網(wǎng)數(shù)據(jù)包后,以太網(wǎng)數(shù)據(jù)包就變成了下面這樣唬复。
IP數(shù)據(jù)包的"標頭"部分的長度為20到60字節(jié)矗积,整個數(shù)據(jù)包的總長度最大為65,535字節(jié)。因此敞咧,理論上棘捣,一個IP數(shù)據(jù)包的"數(shù)據(jù)"部分,最長為65,515字節(jié)休建。前面說過乍恐,以太網(wǎng)數(shù)據(jù)包的"數(shù)據(jù)"部分,最長只有1500字節(jié)测砂。因此茵烈,如果IP數(shù)據(jù)包超過了1500字節(jié),它就需要分割成幾個以太網(wǎng)數(shù)據(jù)包砌些,分開發(fā)送了呜投。
4.4 ARP協(xié)議
關于"網(wǎng)絡層",還有最后一點需要說明存璃。
因為IP數(shù)據(jù)包是放在以太網(wǎng)數(shù)據(jù)包里發(fā)送的仑荐,所以我們必須同時知道兩個地址,一個是對方的MAC地址纵东,另一個是對方的IP地址粘招。通常情況下,對方的IP地址是已知的(后文會解釋)篮迎,但是我們不知道它的MAC地址男图。
所以示姿,我們需要一種機制甜橱,能夠從IP地址得到MAC地址。
這里又可以分成兩種情況栈戳。第一種情況岂傲,如果兩臺主機不在同一個子網(wǎng)絡,那么事實上沒有辦法得到對方的MAC地址子檀,只能把數(shù)據(jù)包傳送到兩個子網(wǎng)絡連接處的"網(wǎng)關"(gateway)镊掖,讓網(wǎng)關去處理乃戈。
第二種情況,如果兩臺主機在同一個子網(wǎng)絡亩进,那么我們可以用ARP協(xié)議症虑,得到對方的MAC地址。ARP協(xié)議也是發(fā)出一個數(shù)據(jù)包(包含在以太網(wǎng)數(shù)據(jù)包中)归薛,其中包含它所要查詢主機的IP地址谍憔,在對方的MAC地址這一欄,填的是FF:FF:FF:FF:FF:FF主籍,表示這是一個"廣播"地址习贫。它所在子網(wǎng)絡的每一臺主機,都會收到這個數(shù)據(jù)包千元,從中取出IP地址苫昌,與自身的IP地址進行比較。如果兩者相同幸海,都做出回復祟身,向對方報告自己的MAC地址,否則就丟棄這個包涕烧。
總之月而,有了ARP協(xié)議之后,我們就可以得到同一個子網(wǎng)絡內的主機MAC地址议纯,可以把數(shù)據(jù)包發(fā)送到任意一臺主機之上了父款。
五、傳輸層
5.1 傳輸層的由來
有了MAC地址和IP地址瞻凤,我們已經(jīng)可以在互聯(lián)網(wǎng)上任意兩臺主機上建立通信憨攒。
接下來的問題是,同一臺主機上有許多程序都需要用到網(wǎng)絡阀参,比如肝集,你一邊瀏覽網(wǎng)頁,一邊與朋友在線聊天蛛壳。當一個數(shù)據(jù)包從互聯(lián)網(wǎng)上發(fā)來的時候杏瞻,你怎么知道,它是表示網(wǎng)頁的內容衙荐,還是表示在線聊天的內容捞挥?
也就是說,我們還需要一個參數(shù)忧吟,表示這個數(shù)據(jù)包到底供哪個程序(進程)使用砌函。這個參數(shù)就叫做"端口"(port),它其實是每一個使用網(wǎng)卡的程序的編號。每個數(shù)據(jù)包都發(fā)到主機的特定端口讹俊,所以不同的程序就能取到自己所需要的數(shù)據(jù)垦沉。
"端口"是0到65535之間的一個整數(shù),正好16個二進制位仍劈。0到1023的端口被系統(tǒng)占用厕倍,用戶只能選用大于1023的端口。不管是瀏覽網(wǎng)頁還是在線聊天贩疙,應用程序會隨機選用一個端口绑青,然后與服務器的相應端口聯(lián)系。
"傳輸層"的功能屋群,就是建立"端口到端口"的通信闸婴。相比之下,"網(wǎng)絡層"的功能是建立"主機到主機"的通信芍躏。只要確定主機和端口邪乍,我們就能實現(xiàn)程序之間的交流。因此对竣,Unix系統(tǒng)就把主機+端口庇楞,叫做"套接字"(socket)。有了它否纬,就可以進行網(wǎng)絡應用程序開發(fā)了吕晌。
5.2 UDP協(xié)議
現(xiàn)在,我們必須在數(shù)據(jù)包中加入端口信息临燃,這就需要新的協(xié)議睛驳。最簡單的實現(xiàn)叫做UDP協(xié)議,它的格式幾乎就是在數(shù)據(jù)前面膜廊,加上端口號乏沸。
UDP數(shù)據(jù)包,也是由"標頭"和"數(shù)據(jù)"兩部分組成爪瓜。
"標頭"部分主要定義了發(fā)出端口和接收端口蹬跃,"數(shù)據(jù)"部分就是具體的內容。然后铆铆,把整個UDP數(shù)據(jù)包放入IP數(shù)據(jù)包的"數(shù)據(jù)"部分蝶缀,而前面說過,IP數(shù)據(jù)包又是放在以太網(wǎng)數(shù)據(jù)包之中的薄货,所以整個以太網(wǎng)數(shù)據(jù)包現(xiàn)在變成了下面這樣:
UDP數(shù)據(jù)包非常簡單翁都,"標頭"部分一共只有8個字節(jié),總長度不超過65,535字節(jié)菲驴,正好放進一個IP數(shù)據(jù)包荐吵。
5.3 TCP協(xié)議
UDP協(xié)議的優(yōu)點是比較簡單骑冗,容易實現(xiàn)赊瞬,但是缺點是可靠性較差先煎,一旦數(shù)據(jù)包發(fā)出,無法知道對方是否收到巧涧。
為了解決這個問題薯蝎,提高網(wǎng)絡可靠性,TCP協(xié)議就誕生了谤绳。這個協(xié)議非常復雜占锯,但可以近似認為,它就是有確認機制的UDP協(xié)議缩筛,每發(fā)出一個數(shù)據(jù)包都要求確認消略。如果有一個數(shù)據(jù)包遺失,就收不到確認瞎抛,發(fā)出方就知道有必要重發(fā)這個數(shù)據(jù)包了艺演。
因此,TCP協(xié)議能夠確保數(shù)據(jù)不會遺失桐臊。它的缺點是過程復雜胎撤、實現(xiàn)困難、消耗較多的資源断凶。
TCP數(shù)據(jù)包和UDP數(shù)據(jù)包一樣伤提,都是內嵌在IP數(shù)據(jù)包的"數(shù)據(jù)"部分。TCP數(shù)據(jù)包沒有長度限制认烁,理論上可以無限長肿男,但是為了保證網(wǎng)絡的效率,通常TCP數(shù)據(jù)包的長度不會超過IP數(shù)據(jù)包的長度却嗡,以確保單個TCP數(shù)據(jù)包不必再分割次伶。
六、應用層
應用程序收到"傳輸層"的數(shù)據(jù)稽穆,接下來就要進行解讀冠王。由于互聯(lián)網(wǎng)是開放架構,數(shù)據(jù)來源五花八門舌镶,必須事先規(guī)定好格式柱彻,否則根本無法解讀。
"應用層"的作用餐胀,就是規(guī)定應用程序的數(shù)據(jù)格式哟楷。
舉例來說,TCP協(xié)議可以為各種各樣的程序傳遞數(shù)據(jù)否灾,比如Email卖擅、WWW、FTP等等。那么惩阶,必須有不同協(xié)議規(guī)定電子郵件挎狸、網(wǎng)頁、FTP數(shù)據(jù)的格式断楷,這些應用程序協(xié)議就構成了"應用層"锨匆。
這是最高的一層,直接面對用戶冬筒。它的數(shù)據(jù)就放在TCP數(shù)據(jù)包的"數(shù)據(jù)"部分恐锣。因此,現(xiàn)在的以太網(wǎng)的數(shù)據(jù)包就變成下面這樣舞痰。