我們每天使用互聯(lián)網(wǎng)混狠,你是否想過岸霹,它是如何實現(xiàn)的疾层?
全世界幾十億臺電腦,連接在一起贡避,兩兩通信痛黎。上海的某一塊網(wǎng)卡送出信號,洛杉磯的另一塊網(wǎng)卡居然就收到了刮吧,兩者實際上根本不知道對方的物理位置湖饱,你不覺得這是很神奇的事情嗎?
互聯(lián)網(wǎng)的核心是一系列協(xié)議杀捻,總稱為"互聯(lián)網(wǎng)協(xié)議"(Internet Protocol Suite)井厌。它們對電腦如何連接和組網(wǎng),做出了詳盡的規(guī)定致讥。理解了這些協(xié)議仅仆,就理解了互聯(lián)網(wǎng)的原理。
下面就是我的學(xué)習(xí)筆記垢袱。因為這些協(xié)議實在太復(fù)雜墓拜、太龐大,我想整理一個簡潔的框架请契,幫助自己從總體上把握它們咳榜。為了保證簡單易懂夏醉,我做了大量的簡化,有些地方并不全面和精確涌韩,但是應(yīng)該能夠說清楚互聯(lián)網(wǎng)的原理畔柔。
一、概述
1.1 五層模型
互聯(lián)網(wǎng)的實現(xiàn)臣樱,分成好幾層释树。每一層都有自己的功能,就像建筑物一樣擎淤,每一層都靠下一層支持奢啥。
用戶接觸到的,只是最上面的一層嘴拢,根本沒有感覺到下面的層桩盲。要理解互聯(lián)網(wǎng),必須從最下層開始席吴,自下而上理解每一層的功能赌结。
如何分層有不同的模型,有的模型分七層孝冒,有的分四層柬姚。我覺得,把互聯(lián)網(wǎng)分成五層庄涡,比較容易解釋量承。
如上圖所示,最底下的一層叫做"實體層"(Physical Layer)穴店,最上面的一層叫做"應(yīng)用層"(Application Layer)撕捍,中間的三層(自下而上)分別是"鏈接層"(Link Layer)、"網(wǎng)絡(luò)層"(Network Layer)和"傳輸層"(Transport Layer)泣洞。越下面的層忧风,越靠近硬件;越上面的層球凰,越靠近用戶狮腿。
它們叫什么名字,其實并不重要呕诉。只需要知道缘厢,互聯(lián)網(wǎng)分成若干層就可以了。
1.2 層與協(xié)議
每一層都是為了完成一種功能义钉。為了實現(xiàn)這些功能昧绣,就需要大家都遵守共同的規(guī)則。
大家都遵守的規(guī)則捶闸,就叫做"協(xié)議"(protocol)夜畴。
互聯(lián)網(wǎng)的每一層拖刃,都定義了很多協(xié)議。這些協(xié)議的總稱贪绘,就叫做"互聯(lián)網(wǎng)協(xié)議"(Internet Protocol Suite)兑牡。它們是互聯(lián)網(wǎng)的核心,下面介紹每一層的功能税灌,主要就是介紹每一層的主要協(xié)議均函。
二、實體層
我們從最底下的一層開始菱涤。
電腦要組網(wǎng)苞也,第一件事要干什么?當(dāng)然是先把電腦連起來粘秆,可以用光纜如迟、電纜、雙絞線攻走、無線電波等方式殷勘。
這就叫做"實體層",它就是把電腦連接起來的物理手段昔搂。它主要規(guī)定了網(wǎng)絡(luò)的一些電氣特性玲销,作用是負責(zé)傳送0和1的電信號。
三摘符、鏈接層
3.1 定義
單純的0和1沒有任何意義贤斜,必須規(guī)定解讀方式:多少個電信號算一組?每個信號位有何意義议慰?這就是"鏈接層"的功能蠢古,它在"實體層"的上方,確定了0和1的分組方式别凹。
3.2 以太網(wǎng)協(xié)議
早期的時候,每家公司都有自己的電信號分組方式洽糟。逐漸地炉菲,一種叫做"以太網(wǎng)"(Ethernet)的協(xié)議,占據(jù)了主導(dǎo)地位坤溃。
以太網(wǎng)規(guī)定拍霜,一組電信號構(gòu)成一個數(shù)據(jù)包,叫做"幀"(Frame)薪介。每一幀分成兩個部分:標(biāo)頭(Head)和數(shù)據(jù)(Data)祠饺。
"標(biāo)頭"包含數(shù)據(jù)包的一些說明項,比如發(fā)送者汁政、接受者道偷、數(shù)據(jù)類型等等缀旁;"數(shù)據(jù)"則是數(shù)據(jù)包的具體內(nèi)容。
"標(biāo)頭"的長度勺鸦,固定為18字節(jié)并巍。"數(shù)據(jù)"的長度,最短為46字節(jié)换途,最長為1500字節(jié)懊渡。因此,整個"幀"最短為64字節(jié)军拟,最長為1518字節(jié)剃执。如果數(shù)據(jù)很長,就必須分割成多個幀進行發(fā)送懈息。
3.3 MAC地址
上面提到忠蝗,以太網(wǎng)數(shù)據(jù)包的"標(biāo)頭",包含了發(fā)送者和接受者的信息漓拾。那么阁最,發(fā)送者和接受者是如何標(biāo)識呢?
以太網(wǎng)規(guī)定骇两,連入網(wǎng)絡(luò)的所有設(shè)備速种,都必須具有"網(wǎng)卡"接口。數(shù)據(jù)包必須是從一塊網(wǎng)卡低千,傳送到另一塊網(wǎng)卡配阵。網(wǎng)卡的地址,就是數(shù)據(jù)包的發(fā)送地址和接收地址示血,這叫做MAC地址棋傍。
每塊網(wǎng)卡出廠的時候,都有一個全世界獨一無二的MAC地址难审,長度是48個二進制位瘫拣,通常用12個十六進制數(shù)表示。
前6個十六進制數(shù)是廠商編號告喊,后6個是該廠商的網(wǎng)卡流水號麸拄。有了MAC地址,就可以定位網(wǎng)卡和數(shù)據(jù)包的路徑了黔姜。
3.4 廣播
定義地址只是第一步拢切,后面還有更多的步驟。
首先秆吵,一塊網(wǎng)卡怎么會知道另一塊網(wǎng)卡的MAC地址淮椰?
回答是有一種ARP協(xié)議,可以解決這個問題。這個留到后面介紹主穗,這里只需要知道泻拦,以太網(wǎng)數(shù)據(jù)包必須知道接收方的MAC地址,然后才能發(fā)送黔牵。
其次聪轿,就算有了MAC地址,系統(tǒng)怎樣才能把數(shù)據(jù)包準(zhǔn)確送到接收方猾浦?
回答是以太網(wǎng)采用了一種很"原始"的方式陆错,它不是把數(shù)據(jù)包準(zhǔn)確送到接收方,而是向本網(wǎng)絡(luò)內(nèi)所有計算機發(fā)送金赦,讓每臺計算機自己判斷音瓷,是否為接收方。
上圖中夹抗,1號計算機向2號計算機發(fā)送一個數(shù)據(jù)包绳慎,同一個子網(wǎng)絡(luò)的3號、4號漠烧、5號計算機都會收到這個包杏愤。它們讀取這個包的"標(biāo)頭",找到接收方的MAC地址已脓,然后與自身的MAC地址相比較珊楼,如果兩者相同,就接受這個包度液,做進一步處理厕宗,否則就丟棄這個包。這種發(fā)送方式就叫做"廣播"(broadcasting)堕担。
有了數(shù)據(jù)包的定義已慢、網(wǎng)卡的MAC地址、廣播的發(fā)送方式霹购,"鏈接層"就可以在多臺計算機之間傳送數(shù)據(jù)了佑惠。
四、網(wǎng)絡(luò)層
4.1 網(wǎng)絡(luò)層的由來
以太網(wǎng)協(xié)議厕鹃,依靠MAC地址發(fā)送數(shù)據(jù)兢仰。理論上,單單依靠MAC地址剂碴,上海的網(wǎng)卡就可以找到洛杉磯的網(wǎng)卡了,技術(shù)上是可以實現(xiàn)的轻专。
但是忆矛,這樣做有一個重大的缺點。以太網(wǎng)采用廣播方式發(fā)送數(shù)據(jù)包,所有成員人手一"包"催训,不僅效率低洽议,而且局限在發(fā)送者所在的子網(wǎng)絡(luò)。也就是說漫拭,如果兩臺計算機不在同一個子網(wǎng)絡(luò)亚兄,廣播是傳不過去的。這種設(shè)計是合理的采驻,否則互聯(lián)網(wǎng)上每一臺計算機都會收到所有包审胚,那會引起災(zāi)難。
互聯(lián)網(wǎng)是無數(shù)子網(wǎng)絡(luò)共同組成的一個巨型網(wǎng)絡(luò)礼旅,很像想象上海和洛杉磯的電腦會在同一個子網(wǎng)絡(luò)膳叨,這幾乎是不可能的。
因此痘系,必須找到一種方法菲嘴,能夠區(qū)分哪些MAC地址屬于同一個子網(wǎng)絡(luò),哪些不是汰翠。如果是同一個子網(wǎng)絡(luò)龄坪,就采用廣播方式發(fā)送,否則就采用"路由"方式發(fā)送复唤。("路由"的意思健田,就是指如何向不同的子網(wǎng)絡(luò)分發(fā)數(shù)據(jù)包,這是一個很大的主題苟穆,本文不涉及抄课。)遺憾的是,MAC地址本身無法做到這一點雳旅。它只與廠商有關(guān)跟磨,與所處網(wǎng)絡(luò)無關(guān)。
這就導(dǎo)致了"網(wǎng)絡(luò)層"的誕生攒盈。它的作用是引進一套新的地址抵拘,使得我們能夠區(qū)分不同的計算機是否屬于同一個子網(wǎng)絡(luò)。這套地址就叫做"網(wǎng)絡(luò)地址"型豁,簡稱"網(wǎng)址"僵蛛。
于是,"網(wǎng)絡(luò)層"出現(xiàn)以后迎变,每臺計算機有了兩種地址充尉,一種是MAC地址,另一種是網(wǎng)絡(luò)地址衣形。兩種地址之間沒有任何聯(lián)系驼侠,MAC地址是綁定在網(wǎng)卡上的姿鸿,網(wǎng)絡(luò)地址則是管理員分配的,它們只是隨機組合在一起倒源。
網(wǎng)絡(luò)地址幫助我們確定計算機所在的子網(wǎng)絡(luò)苛预,MAC地址則將數(shù)據(jù)包送到該子網(wǎng)絡(luò)中的目標(biāo)網(wǎng)卡。因此笋熬,從邏輯上可以推斷热某,必定是先處理網(wǎng)絡(luò)地址,然后再處理MAC地址胳螟。
4.2 IP協(xié)議
規(guī)定網(wǎng)絡(luò)地址的協(xié)議昔馋,叫做IP協(xié)議。它所定義的地址旺隙,就被稱為IP地址绒极。
目前,廣泛采用的是IP協(xié)議第四版蔬捷,簡稱IPv4垄提。這個版本規(guī)定,網(wǎng)絡(luò)地址由32個二進制位組成周拐。
習(xí)慣上铡俐,我們用分成四段的十進制數(shù)表示IP地址,從0.0.0.0一直到255.255.255.255妥粟。
互聯(lián)網(wǎng)上的每一臺計算機审丘,都會分配到一個IP地址。這個地址分成兩個部分勾给,前一部分代表網(wǎng)絡(luò)滩报,后一部分代表主機。比如播急,IP地址172.16.254.1脓钾,這是一個32位的地址,假定它的網(wǎng)絡(luò)部分是前24位(172.16.254)桩警,那么主機部分就是后8位(最后的那個1)可训。處于同一個子網(wǎng)絡(luò)的電腦,它們IP地址的網(wǎng)絡(luò)部分必定是相同的捶枢,也就是說172.16.254.2應(yīng)該與172.16.254.1處在同一個子網(wǎng)絡(luò)握截。
但是,問題在于單單從IP地址烂叔,我們無法判斷網(wǎng)絡(luò)部分谨胞。還是以172.16.254.1為例,它的網(wǎng)絡(luò)部分蒜鸡,到底是前24位畜眨,還是前16位昼牛,甚至前28位术瓮,從IP地址上是看不出來的康聂。
那么,怎樣才能從IP地址胞四,判斷兩臺計算機是否屬于同一個子網(wǎng)絡(luò)呢恬汁?這就要用到另一個參數(shù)"子網(wǎng)掩碼"(subnet mask)。
所謂"子網(wǎng)掩碼"辜伟,就是表示子網(wǎng)絡(luò)特征的一個參數(shù)氓侧。它在形式上等同于IP地址,也是一個32位二進制數(shù)字导狡,它的網(wǎng)絡(luò)部分全部為1约巷,主機部分全部為0。比如旱捧,IP地址172.16.254.1独郎,如果已知網(wǎng)絡(luò)部分是前24位,主機部分是后8位枚赡,那么子網(wǎng)絡(luò)掩碼就是11111111.11111111.11111111.00000000氓癌,寫成十進制就是255.255.255.0。
知道"子網(wǎng)掩碼"贫橙,我們就能判斷贪婉,任意兩個IP地址是否處在同一個子網(wǎng)絡(luò)。方法是將兩個IP地址與子網(wǎng)掩碼分別進行AND運算(兩個數(shù)位都為1卢肃,運算結(jié)果為1疲迂,否則為0),然后比較結(jié)果是否相同莫湘,如果是的話尤蒿,就表明它們在同一個子網(wǎng)絡(luò)中,否則就不是逊脯。
比如优质,已知IP地址172.16.254.1和172.16.254.233的子網(wǎng)掩碼都是255.255.255.0,請問它們是否在同一個子網(wǎng)絡(luò)军洼?兩者與子網(wǎng)掩碼分別進行AND運算巩螃,結(jié)果都是172.16.254.0,因此它們在同一個子網(wǎng)絡(luò)匕争。
總結(jié)一下避乏,IP協(xié)議的作用主要有兩個,一個是為每一臺計算機分配IP地址甘桑,另一個是確定哪些地址在同一個子網(wǎng)絡(luò)拍皮。
4.3 IP數(shù)據(jù)包
根據(jù)IP協(xié)議發(fā)送的數(shù)據(jù)歹叮,就叫做IP數(shù)據(jù)包。不難想象铆帽,其中必定包括IP地址信息咆耿。
但是前面說過,以太網(wǎng)數(shù)據(jù)包只包含MAC地址爹橱,并沒有IP地址的欄位萨螺。那么是否需要修改數(shù)據(jù)定義,再添加一個欄位呢愧驱?
回答是不需要慰技,我們可以把IP數(shù)據(jù)包直接放進以太網(wǎng)數(shù)據(jù)包的"數(shù)據(jù)"部分,因此完全不用修改以太網(wǎng)的規(guī)格组砚。這就是互聯(lián)網(wǎng)分層結(jié)構(gòu)的好處:上層的變動完全不涉及下層的結(jié)構(gòu)吻商。
具體來說,IP數(shù)據(jù)包也分為"標(biāo)頭"和"數(shù)據(jù)"兩個部分糟红。
"標(biāo)頭"部分主要包括版本艾帐、長度、IP地址等信息改化,"數(shù)據(jù)"部分則是IP數(shù)據(jù)包的具體內(nèi)容掩蛤。它放進以太網(wǎng)數(shù)據(jù)包后,以太網(wǎng)數(shù)據(jù)包就變成了下面這樣陈肛。
4.4 ARP協(xié)議
關(guān)于"網(wǎng)絡(luò)層"揍鸟,還有最后一點需要說明。
因為IP數(shù)據(jù)包是放在以太網(wǎng)數(shù)據(jù)包里發(fā)送的句旱,所以我們必須同時知道兩個地址阳藻,一個是對方的MAC地址,另一個是對方的IP地址谈撒。通常情況下腥泥,對方的IP地址是已知的(后文會解釋),但是我們不知道它的MAC地址啃匿。
所以蛔外,我們需要一種機制,能夠從IP地址得到MAC地址溯乒。
這里又可以分成兩種情況夹厌。第一種情況,如果兩臺主機不在同一個子網(wǎng)絡(luò)裆悄,那么事實上沒有辦法得到對方的MAC地址矛纹,只能把數(shù)據(jù)包傳送到兩個子網(wǎng)絡(luò)連接處的"網(wǎng)關(guān)"(gateway),讓網(wǎng)關(guān)去處理光稼。
第二種情況或南,如果兩臺主機在同一個子網(wǎng)絡(luò)孩等,那么我們可以用ARP協(xié)議,得到對方的MAC地址采够。ARP協(xié)議也是發(fā)出一個數(shù)據(jù)包(包含在以太網(wǎng)數(shù)據(jù)包中)肄方,其中包含它所要查詢主機的IP地址,在對方的MAC地址這一欄吁恍,填的是FF:FF:FF:FF:FF:FF扒秸,表示這是一個"廣播"地址。它所在子網(wǎng)絡(luò)的每一臺主機冀瓦,都會收到這個數(shù)據(jù)包,從中取出IP地址写烤,與自身的IP地址進行比較翼闽。如果兩者相同,都做出回復(fù)洲炊,向?qū)Ψ綀蟾孀约旱腗AC地址感局,否則就丟棄這個包。
總之暂衡,有了ARP協(xié)議之后询微,我們就可以得到同一個子網(wǎng)絡(luò)內(nèi)的主機MAC地址,可以把數(shù)據(jù)包發(fā)送到任意一臺主機之上了狂巢。
五撑毛、傳輸層
5.1 傳輸層的由來
有了MAC地址和IP地址,我們已經(jīng)可以在互聯(lián)網(wǎng)上任意兩臺主機上建立通信唧领。
接下來的問題是藻雌,同一臺主機上有許多程序都需要用到網(wǎng)絡(luò),比如斩个,你一邊瀏覽網(wǎng)頁胯杭,一邊與朋友在線聊天。當(dāng)一個數(shù)據(jù)包從互聯(lián)網(wǎng)上發(fā)來的時候受啥,你怎么知道做个,它是表示網(wǎng)頁的內(nèi)容,還是表示在線聊天的內(nèi)容滚局?
也就是說居暖,我們還需要一個參數(shù),表示這個數(shù)據(jù)包到底供哪個程序(進程)使用核畴。這個參數(shù)就叫做"端口"(port)膝但,它其實是每一個使用網(wǎng)卡的程序的編號。每個數(shù)據(jù)包都發(fā)到主機的特定端口谤草,所以不同的程序就能取到自己所需要的數(shù)據(jù)跟束。
"端口"是0到65535之間的一個整數(shù)莺奸,正好16個二進制位。0到1023的端口被系統(tǒng)占用冀宴,用戶只能選用大于1023的端口灭贷。不管是瀏覽網(wǎng)頁還是在線聊天,應(yīng)用程序會隨機選用一個端口略贮,然后與服務(wù)器的相應(yīng)端口聯(lián)系甚疟。
"傳輸層"的功能,就是建立"端口到端口"的通信逃延。相比之下览妖,"網(wǎng)絡(luò)層"的功能是建立"主機到主機"的通信。只要確定主機和端口揽祥,我們就能實現(xiàn)程序之間的交流讽膏。因此,Unix系統(tǒng)就把主機+端口拄丰,叫做"套接字"(socket)府树。有了它,就可以進行網(wǎng)絡(luò)應(yīng)用程序開發(fā)了料按。
5.2 UDP協(xié)議
現(xiàn)在奄侠,我們必須在數(shù)據(jù)包中加入端口信息,這就需要新的協(xié)議载矿。最簡單的實現(xiàn)叫做UDP協(xié)議垄潮,它的格式幾乎就是在數(shù)據(jù)前面,加上端口號恢准。
UDP數(shù)據(jù)包魂挂,也是由"標(biāo)頭"和"數(shù)據(jù)"兩部分組成。
"標(biāo)頭"部分主要定義了發(fā)出端口和接收端口馁筐,"數(shù)據(jù)"部分就是具體的內(nèi)容涂召。然后,把整個UDP數(shù)據(jù)包放入IP數(shù)據(jù)包的"數(shù)據(jù)"部分敏沉,而前面說過果正,IP數(shù)據(jù)包又是放在以太網(wǎng)數(shù)據(jù)包之中的,所以整個以太網(wǎng)數(shù)據(jù)包現(xiàn)在變成了下面這樣:
UDP數(shù)據(jù)包非常簡單盟迟,"標(biāo)頭"部分一共只有8個字節(jié)秋泳,總長度不超過65,535字節(jié),正好放進一個IP數(shù)據(jù)包攒菠。
5.3 TCP協(xié)議
UDP協(xié)議的優(yōu)點是比較簡單迫皱,容易實現(xiàn),但是缺點是可靠性較差,一旦數(shù)據(jù)包發(fā)出卓起,無法知道對方是否收到和敬。
為了解決這個問題,提高網(wǎng)絡(luò)可靠性戏阅,TCP協(xié)議就誕生了昼弟。這個協(xié)議非常復(fù)雜,但可以近似認為奕筐,它就是有確認機制的UDP協(xié)議舱痘,每發(fā)出一個數(shù)據(jù)包都要求確認。如果有一個數(shù)據(jù)包遺失离赫,就收不到確認芭逝,發(fā)出方就知道有必要重發(fā)這個數(shù)據(jù)包了。
因此笆怠,TCP協(xié)議能夠確保數(shù)據(jù)不會遺失铝耻。它的缺點是過程復(fù)雜、實現(xiàn)困難蹬刷、消耗較多的資源。
TCP數(shù)據(jù)包和UDP數(shù)據(jù)包一樣频丘,都是內(nèi)嵌在IP數(shù)據(jù)包的"數(shù)據(jù)"部分办成。TCP數(shù)據(jù)包沒有長度限制,理論上可以無限長搂漠,但是為了保證網(wǎng)絡(luò)的效率迂卢,通常TCP數(shù)據(jù)包的長度不會超過IP數(shù)據(jù)包的長度,以確保單個TCP數(shù)據(jù)包不必再分割桐汤。
六而克、應(yīng)用層
應(yīng)用程序收到"傳輸層"的數(shù)據(jù),接下來就要進行解讀怔毛。由于互聯(lián)網(wǎng)是開放架構(gòu)员萍,數(shù)據(jù)來源五花八門,必須事先規(guī)定好格式拣度,否則根本無法解讀碎绎。
"應(yīng)用層"的作用,就是規(guī)定應(yīng)用程序的數(shù)據(jù)格式抗果。
舉例來說筋帖,TCP協(xié)議可以為各種各樣的程序傳遞數(shù)據(jù),比如Email冤馏、WWW刻炒、FTP等等茬射。那么槐沼,必須有不同協(xié)議規(guī)定電子郵件伍宦、網(wǎng)頁、FTP數(shù)據(jù)的格式碉考,這些應(yīng)用程序協(xié)議就構(gòu)成了"應(yīng)用層"。
這是最高的一層,直接面對用戶走诞。它的數(shù)據(jù)就放在TCP數(shù)據(jù)包的"數(shù)據(jù)"部分。因此蛤高,現(xiàn)在的以太網(wǎng)的數(shù)據(jù)包就變成下面這樣蚣旱。
至此,整個互聯(lián)網(wǎng)的五層結(jié)構(gòu)戴陡,自下而上全部講完了塞绿。這是從系統(tǒng)的角度,解釋互聯(lián)網(wǎng)是如何構(gòu)成的恤批。(完)