一墙贱、Socket是什么
Socket 的中文翻譯過來就是“套接字”。套接字是什么贱傀,我們先來看看它的英文含義:插座惨撇。
Socket 就像一個(gè)電話插座,負(fù)責(zé)連通兩端的電話府寒,進(jìn)行點(diǎn)對(duì)點(diǎn)通信魁衙,讓電話可以進(jìn)行通信,端口就像插座上的孔株搔,端口不能同時(shí)被其他進(jìn)程占用剖淀。而我們建立連接就像把插頭插在這個(gè)插座上,創(chuàng)建一個(gè) Socket 實(shí)例開始監(jiān)聽后纤房,這個(gè)電話插座就時(shí)刻監(jiān)聽著消息的傳入纵隔,誰撥通我這個(gè)“IP 地址和端口”,我就接通誰炮姨。
實(shí)際上捌刮,Socket 是在應(yīng)用層和傳輸層之間的一個(gè)抽象層,它把 TCP/IP 層復(fù)雜的操作抽象為幾個(gè)簡單的接口舒岸,供應(yīng)用層調(diào)用實(shí)現(xiàn)進(jìn)程在網(wǎng)絡(luò)中的通信绅作。Socket 起源于 UNIX,在 UNIX 一切皆文件的思想下蛾派,進(jìn)程間通信就被冠名為文件描述符(file descriptor)俄认,Socket 是一種“打開—讀/寫—關(guān)閉”模式的實(shí)現(xiàn),服務(wù)器和客戶端各自維護(hù)一個(gè)“文件”洪乍,在建立連接打開后眯杏,可以向文件寫入內(nèi)容供對(duì)方讀取或者讀取對(duì)方內(nèi)容,通訊結(jié)束時(shí)關(guān)閉文件典尾。
另外我們經(jīng)常說到的Socket 所在位置如下圖:
二、Socket有哪些類型
世界上有很多種套接字(socket)糊探,比如 DARPA Internet 地址(Internet 套接字)钾埂、本地節(jié)點(diǎn)的路徑名(Unix套接字)河闰、CCITT X.25地址(X.25 套接字)等。我們只介紹第一種套接字——Internet 套接字褥紫,它是最具代表性的姜性,也是最經(jīng)典最常用的。以后我們提及套接字髓考,指的都是 Internet 套接字部念。
根據(jù)數(shù)據(jù)的傳輸方式,可以將 Internet 套接字分成兩種類型氨菇。
流格式套接字(SOCK_STREAM)
流格式套接字(Stream Sockets)也叫“面向連接的套接字”儡炼,是一種可靠的、雙向的通信數(shù)據(jù)流查蓉,數(shù)據(jù)可以準(zhǔn)確無誤地到達(dá)另一臺(tái)計(jì)算機(jī)乌询,如果損壞或丟失,可以重新發(fā)送豌研。
其特點(diǎn):
- 數(shù)據(jù)在傳輸過程中不會(huì)消失妹田;
- 數(shù)據(jù)是按照順序傳輸?shù)模?/li>
- 數(shù)據(jù)的發(fā)送和接收不是同步的(有的教程也稱“不存在數(shù)據(jù)邊界”)。
可以將SOCK_STREAM 比喻成一條傳送帶鹃共,只要傳送帶本身沒有問題(不會(huì)斷網(wǎng))鬼佣,就能保證數(shù)據(jù)不丟失;同時(shí)霜浴,較晚傳送的數(shù)據(jù)不會(huì)先到達(dá)晶衷,較早傳送的數(shù)據(jù)不會(huì)晚到達(dá),這就保證了數(shù)據(jù)是按照順序傳遞的坷随。
為什么流格式套接字可以達(dá)到高質(zhì)量的數(shù)據(jù)傳輸呢房铭?這是因?yàn)樗褂昧?TCP 協(xié)議(The Transmission Control Protocol,傳輸控制協(xié)議)温眉,TCP 協(xié)議會(huì)控制你的數(shù)據(jù)按照順序到達(dá)并且沒有錯(cuò)誤缸匪。
你也許見過 TCP,是因?yàn)槟憬?jīng)常聽說“TCP/IP”类溢。TCP 用來確保數(shù)據(jù)的正確性凌蔬,IP(Internet Protocol,網(wǎng)絡(luò)協(xié)議)用來控制數(shù)據(jù)如何從源頭到達(dá)目的地闯冷,也就是常說的“路由”砂心。
那么,“數(shù)據(jù)的發(fā)送和接收不同步”該如何理解呢蛇耀?
假設(shè)傳送帶傳送的是水果辩诞,接收者需要湊齊 100 個(gè)后才能裝袋,但是傳送帶可能把這 100 個(gè)水果分批傳送纺涤,比如第一批傳送 20 個(gè)译暂,第二批傳送 50 個(gè)抠忘,第三批傳送 30 個(gè)。接收者不需要和傳送帶保持同步外永,只要根據(jù)自己的節(jié)奏來裝袋即可崎脉,不用管傳送帶傳送了幾批,也不用每到一批就裝袋一次伯顶,可以等到湊夠了 100 個(gè)水果再裝袋囚灼。
流格式套接字的內(nèi)部有一個(gè)緩沖區(qū)(也就是字符數(shù)組),通過 socket 傳輸?shù)臄?shù)據(jù)將保存到這個(gè)緩沖區(qū)祭衩。接收端在收到數(shù)據(jù)后并不一定立即讀取灶体,只要數(shù)據(jù)不超過緩沖區(qū)的容量,接收端有可能在緩沖區(qū)被填滿以后一次性地讀取汪厨,也可能分成好幾次讀取赃春。
也就是說,不管數(shù)據(jù)分幾次傳送過來劫乱,接收端只需要根據(jù)自己的要求讀取织中,不用非得在數(shù)據(jù)到達(dá)時(shí)立即讀取。傳送端有自己的節(jié)奏衷戈,接收端也有自己的節(jié)奏狭吼,它們是不一致的。
流格式套接字有什么實(shí)際的應(yīng)用場景嗎殖妇?瀏覽器所使用的 http 協(xié)議就基于面向連接的套接字刁笙,因?yàn)楸仨氁_保數(shù)據(jù)準(zhǔn)確無誤,否則加載的 HTML 將無法解析谦趣。
數(shù)據(jù)報(bào)格式套接字(SOCK_DGRAM)
數(shù)據(jù)報(bào)格式套接字(Datagram Sockets)也叫“無連接的套接字”疲吸。計(jì)算機(jī)只管傳輸數(shù)據(jù),不作數(shù)據(jù)校驗(yàn)前鹅,如果數(shù)據(jù)在傳輸中損壞摘悴,或者沒有到達(dá)另一臺(tái)計(jì)算機(jī),是沒有辦法補(bǔ)救的舰绘。也就是說蹂喻,數(shù)據(jù)錯(cuò)了就錯(cuò)了,無法重傳捂寿。
因?yàn)閿?shù)據(jù)報(bào)套接字所做的校驗(yàn)工作少口四,所以在傳輸效率方面比流格式套接字要高。
有以下特征:
- 強(qiáng)調(diào)快速傳輸而非傳輸順序秦陋;
- 傳輸?shù)臄?shù)據(jù)可能丟失也可能損毀蔓彩;
- 限制每次傳輸?shù)臄?shù)據(jù)大小;
- 數(shù)據(jù)的發(fā)送和接收是同步的
眾所周知赤嚼,速度是快遞行業(yè)的生命大磺。用摩托車發(fā)往同一地點(diǎn)的兩件包裹無需保證順序,只要以最快的速度交給客戶就行探膊。這種方式存在損壞或丟失的風(fēng)險(xiǎn),而且包裹大小有一定限制待榔。因此逞壁,想要傳遞大量包裹,就得分配發(fā)送锐锣。
另外腌闯,用兩輛摩托車分別發(fā)送兩件包裹,那么接收者也需要分兩次接收雕憔,所以“數(shù)據(jù)的發(fā)送和接收是同步的”姿骏;換句話說,接收次數(shù)應(yīng)該和發(fā)送次數(shù)相同斤彼。
總之分瘦,數(shù)據(jù)報(bào)套接字是一種不可靠的、不按順序傳遞的琉苇、以追求速度為目的的套接字嘲玫。
數(shù)據(jù)報(bào)套接字也使用 IP 協(xié)議作路由,但是它不使用 TCP 協(xié)議并扇,而是使用 UDP 協(xié)議(User Datagram Protocol去团,用戶數(shù)據(jù)報(bào)協(xié)議)。
QQ 視頻聊天和語音聊天就使用SOCK_DGRAM 來傳輸數(shù)據(jù)穷蛹,因?yàn)槭紫纫WC通信的效率土陪,盡量減小延遲,而數(shù)據(jù)的正確性是次要的肴熏,即使丟失很小的一部分?jǐn)?shù)據(jù)鬼雀,視頻和音頻也可以正常解析,最多出現(xiàn)噪點(diǎn)或雜音扮超,不會(huì)對(duì)通信質(zhì)量有實(shí)質(zhì)的影響取刃。
注意:SOCK_DGRAM 沒有想象中的糟糕,不會(huì)頻繁的丟失數(shù)據(jù)出刷,數(shù)據(jù)錯(cuò)誤只是小概率事件璧疗。
三、Socket通信過程
Socket 保證了不同計(jì)算機(jī)之間的通信馁龟,也就是網(wǎng)絡(luò)通信崩侠。對(duì)于網(wǎng)站,通信模型是服務(wù)器與客戶端之間的通信坷檩。兩端都建立了一個(gè) Socket 對(duì)象却音,然后通過 Socket 對(duì)象對(duì)數(shù)據(jù)進(jìn)行傳輸改抡。通常服務(wù)器處于一個(gè)無限循環(huán),等待客戶端的連接系瓢。
下面是面向連接的 TCP 時(shí)序圖:
客戶端過程
客戶端的過程比較簡單阿纤,創(chuàng)建 Socket,連接服務(wù)器夷陋,將 Socket 與遠(yuǎn)程主機(jī)連接(注意:只有 TCP 才有“連接”的概念欠拾,一些 Socket 比如 UDP、ICMP 和 ARP 沒有“連接”的概念)骗绕,發(fā)送數(shù)據(jù)藐窄,讀取響應(yīng)數(shù)據(jù),直到數(shù)據(jù)交換完畢酬土,關(guān)閉連接荆忍,結(jié)束 TCP 對(duì)話。
import socket
import sys
if __name__ == '__main__':
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 創(chuàng)建 Socket 連接
sock.connect(('127.0.0.1', 8001)) # 連接服務(wù)器
while True:
data = input('Please input data:')
if not data:
break
try:
sock.sendall(data)
except socket.error as e:
print('Send Failed...', e)
sys.exit(0)
print('Send Successfully')
res = sock.recv(4096) # 獲取服務(wù)器返回的數(shù)據(jù)撤缴,還可以用 recvfrom()刹枉、recv_into() 等
print(res)
sock.close()
sock.sendall(data)
這里也可用 send() 方法:不同在于 sendall() 在返回前會(huì)嘗試發(fā)送所有數(shù)據(jù),并且成功時(shí)返回 None屈呕,而 send() 則返回發(fā)送的字節(jié)數(shù)量嘶卧,失敗時(shí)都拋出異常。
服務(wù)端過程
服務(wù)端先初始化 Socket,建立流式套接字,與本機(jī)地址及端口進(jìn)行綁定薪丁,然后通知 TCP五续,準(zhǔn)備好接收連接,調(diào)用accept()阻塞,等待來自客戶端的連接。如果這時(shí)客戶端與服務(wù)器建立了連接,客戶端發(fā)送數(shù)據(jù)請(qǐng)求棺耍,服務(wù)器接收請(qǐng)求并處理請(qǐng)求,然后把響應(yīng)數(shù)據(jù)發(fā)送給客戶端种樱,客戶端讀取數(shù)據(jù)蒙袍,直到數(shù)據(jù)交換完畢。最后關(guān)閉連接嫩挤,交互結(jié)束害幅。
import socket
import sys
if __name__ == '__main__':
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 創(chuàng)建 Socket 連接(TCP)
print('Socket Created')
try:
sock.bind(('127.0.0.1', 8001)) # 配置 Socket,綁定 IP 地址和端口號(hào)
except socket.error as e:
print('Bind Failed...', e)
sys.exit(0)
sock.listen(5) # 設(shè)置最大允許連接數(shù)岂昭,各連接和 Server 的通信遵循 FIFO 原則
while True: # 循環(huán)輪詢 Socket 狀態(tài)以现,等待訪問
conn, addr = sock.accept()
try:
conn.settimeout(10) # 如果請(qǐng)求超過 10 秒沒有完成,就終止操作
# 如果要同時(shí)處理多個(gè)連接,則下面的語句塊應(yīng)該用多線程來處理
while True: # 獲得一個(gè)連接邑遏,然后開始循環(huán)處理這個(gè)連接發(fā)送的信息
data = conn.recv(1024)
print('Get value ' + data, end='\n\n')
if not data:
print('Exit Server', end='\n\n')
break
conn.sendall('OK') # 返回?cái)?shù)據(jù)
except socket.timeout: # 建立連接后佣赖,該連接在設(shè)定的時(shí)間內(nèi)沒有數(shù)據(jù)發(fā)來,就會(huì)引發(fā)超時(shí)
print('Time out')
conn.close() # 當(dāng)一個(gè)連接監(jiān)聽循環(huán)退出后记盒,連接可以關(guān)掉
sock.close()
conn, addr = sock.accept()
調(diào)用accept()時(shí)憎蛤,Socket 會(huì)進(jìn)入waiting狀態(tài)〖退保客戶端請(qǐng)求連接時(shí)蹂午,方法建立連接并返回服務(wù)器。accept()返回一個(gè)含有兩個(gè)元素的元組 (conn, addr)彬碱。第一個(gè)元素 conn 是新的 Socket 對(duì)象,服務(wù)器必須通過它與客戶端通信奥洼;第二個(gè)元素 addr 是客戶端的 IP 地址及端口巷疼。
data = conn.recv(1024)
接下來是處理階段,服務(wù)器和客戶端通過send()和recv()通信(傳輸數(shù)據(jù))灵奖。
服務(wù)器調(diào)用send()嚼沿,并采用字符串形式向客戶端發(fā)送信息,send()返回已發(fā)送的字符個(gè)數(shù)瓷患。
服務(wù)器調(diào)用recv()從客戶端接收信息骡尽。調(diào)用recv()時(shí),服務(wù)器必須指定一個(gè)整數(shù)擅编,它對(duì)應(yīng)于可通過本次方法調(diào)用來接收的最大數(shù)據(jù)量攀细。recv()在接收數(shù)據(jù)時(shí)會(huì)進(jìn)入blocked狀態(tài),最后返回一個(gè)字符串爱态,用它表示收到的數(shù)據(jù)谭贪。如果發(fā)送的數(shù)據(jù)量超過了recv()所允許的,數(shù)據(jù)會(huì)被截短锦担。多余的數(shù)據(jù)將緩沖于接收端俭识,以后調(diào)用recv()時(shí),會(huì)繼續(xù)讀剩余的字節(jié)洞渔,如果有多余的數(shù)據(jù)會(huì)從緩沖區(qū)刪除(以及自上次調(diào)用recv()以來套媚,客戶端可能發(fā)送的其它任何數(shù)據(jù))。傳輸結(jié)束磁椒,服務(wù)器調(diào)用 Socket 的close()關(guān)閉連接堤瘤。
四、從 TCP 連接的視角看 Socket 過程TCP 三次握手的 Socket 過程
- 服務(wù)器調(diào)用 socket()浆熔、bind()宙橱、listen() 完成初始化后,調(diào)用 accept() 阻塞等待;
- 客戶端 Socket 對(duì)象調(diào)用 connect() 向服務(wù)器發(fā)送了一個(gè) SYN 并阻塞师郑;
- 服務(wù)器完成了第一次握手环葵,即發(fā)送 SYN 和 ACK 應(yīng)答;
- 客戶端收到服務(wù)端發(fā)送的應(yīng)答之后宝冕,從 connect() 返回张遭,再發(fā)送一個(gè) ACK 給服務(wù)器;
- 服務(wù)器 Socket 對(duì)象接收客戶端第三次握手 ACK 確認(rèn)地梨,此時(shí)服務(wù)端從 accept() 返回菊卷,建立連接。
接下來就是兩個(gè)端的連接對(duì)象互相收發(fā)數(shù)據(jù)宝剖。
TCP 四次揮手的 Socket 過程
- 某個(gè)應(yīng)用進(jìn)程調(diào)用 close() 主動(dòng)關(guān)閉洁闰,發(fā)送一個(gè) FIN;
- 另一端接收到 FIN 后被動(dòng)執(zhí)行關(guān)閉万细,并發(fā)送 ACK 確認(rèn)扑眉;
- 之后被動(dòng)執(zhí)行關(guān)閉的應(yīng)用進(jìn)程調(diào)用 close() 關(guān)閉 Socket,并也發(fā)送一個(gè) FIN赖钞;
- 接收到這個(gè) FIN 的一端向另一端 ACK 確認(rèn)腰素。
說明:上面的服務(wù)端代碼只有處理完一個(gè)客戶端請(qǐng)求才會(huì)去處理下一個(gè)客戶端的請(qǐng)求,這樣的服務(wù)器處理能力很弱雪营,而實(shí)際中服務(wù)器都需要有并發(fā)處理能力弓千,為了達(dá)到并發(fā)處理,服務(wù)器就需要 fork 一個(gè)新的進(jìn)程或者線程去處理請(qǐng)求献起。