1.先了解一些基本概念,什么是socket颗祝?什么是I/O操作
unix(like)世界里迟杂,一切皆文件狭园,而文件是什么呢蓬蝶?文件就是一串二進制流而已尘分,不管socket,還是FIFO、管道丸氛、終端培愁,對我們來說,一切都是文件缓窜,一切都是流
在信息交換的過程中定续,我們都是對這些流進行數(shù)據(jù)的收發(fā)操作,簡稱為I/O操作(input and output)
計算機里有這么多的流禾锤,我怎么知道要操作哪個流呢私股?對,就是文件描述符恩掷,即通常所說的fd倡鲸,一個fd就是一個整數(shù),所以黄娘,對這個整數(shù)的操作峭状,就是對這個文件(流)的操作。我們創(chuàng)建一個socket,通過系統(tǒng)調(diào)用會返回一個文件描述符逼争,那么剩下對socket的操作就會轉(zhuǎn)化為對這個描述符的操作
2.簡述下IO操作
IO操作主要分為兩個步驟优床,即發(fā)起IO請求和實際IO操作。
一次寫操作分為兩步:將數(shù)據(jù)從用戶空間拷貝到系統(tǒng)空間誓焦;從系統(tǒng)空間往網(wǎng)卡寫胆敞。
一次讀操作分為兩步:將數(shù)據(jù)從網(wǎng)卡拷貝到系統(tǒng)空間;將數(shù)據(jù)從系統(tǒng)空間拷貝到用戶空間杂伟。
同步IO/異步IO的區(qū)別在于第二步驟(實際IO操作)是否阻塞移层;阻塞IO/非阻塞IO的區(qū)別在于第一個步驟(發(fā)起IO)是否阻塞。
3.同步IO稿壁、異步IO幽钢、阻塞IO、非阻塞IO
同步IO:若實際IO操作阻塞請求進程傅是,即請求進程需要等待或者輪詢查看IO操作是否完畢匪燕。不管是BIO,NIO,還是IO多路復(fù)用蕾羊,從內(nèi)核緩存寫入用戶緩存一定是由 用戶線程自行讀取數(shù)據(jù),處理數(shù)據(jù)
異步IO:若實際IO操作并不阻塞請求進程帽驯,而是由操作系統(tǒng)來進行實際IO操作并將結(jié)果返回給請求的進程龟再。數(shù)據(jù)是內(nèi)核寫入的,并放在了用戶線程指定的緩存區(qū)尼变,寫入完畢后通知用戶線程
阻塞IO:若發(fā)起IO請求后利凑,請求線程一直等待實際IO操作完成。數(shù)據(jù)從網(wǎng)關(guān)寫到內(nèi)核嫌术,如果沒寫好,線程就一直在等待哀澈。
非阻塞IO:若發(fā)起IO請求后,請求線程直接返回度气,而不會一直等待割按。數(shù)據(jù)從網(wǎng)關(guān)寫到內(nèi)核,用一個線程輪詢的去查看所有的數(shù)據(jù)是否準備好(I/O多路復(fù)用,監(jiān)聽多個socket)
4.同步異步磷籍、阻塞非阻塞
BIO:同步阻塞IO适荣,服務(wù)器實現(xiàn)模式為一個連接一個線程,即客戶端有連接請求時服務(wù)器就需要啟動一個線程進行處理院领,如果這個連接不做任何事情會造成不必要的線程開銷弛矛,當(dāng)然也可以使用線程池機制來改善。
BIO還有一種變種,偽異步IO,當(dāng)有新的客戶端接入時比然,將客戶端的socket封裝成一個task丈氓,丟到線程池中處理。優(yōu)化了后續(xù)處理線程的方式
NIO:同步非阻塞IO谈秫,服務(wù)器實現(xiàn)模式為一個請求一個線程扒寄,即客戶端發(fā)送的連接請求都會被注冊到多路復(fù)用器上,多路復(fù)用器輪詢到連接有IO請求時才會啟動一個線程進行處理拟烫。
AIO:異步非阻塞IO(異步一定是非阻塞)该编,服務(wù)器實現(xiàn)模式為有一個有效請求一個線程,客戶端的IO請求都是由操作系統(tǒng)先完成IO操作后再通知服務(wù)器應(yīng)用來啟動線程進行處理硕淑。
5.再來看看I/O多路復(fù)用的三種形式
select:知道了有I/O事件發(fā)生了课竣,卻并不知道是哪那幾個流(可能有一個,多個置媳,甚至全部)于樟,我們只能無差別輪詢所有流,找出能讀出數(shù)據(jù)拇囊,或者寫入數(shù)據(jù)的流迂曲,對他們進行操作。所以select具有O(n)的無差別輪詢復(fù)雜度寥袭,同時處理的流越多路捧,無差別輪詢時間就越長
poll:本質(zhì)上和select沒有區(qū)別关霸,它將用戶傳入的數(shù)組拷貝到內(nèi)核空間,然后查詢每個fd對應(yīng)的設(shè)備狀態(tài)杰扫, 但是它沒有最大連接數(shù)的限制队寇,原因是它是基于鏈表來存儲的
epoll(Linux內(nèi)核所特有):可以理解為event poll,不同于忙輪詢和無差別輪詢章姓,epoll會把哪個流發(fā)生了怎樣的I/O事件通知我們佳遣。所以我們說epoll實際上是事件驅(qū)動(每個事件關(guān)聯(lián)上fd)的,此時我們對這些流的操作都是有意義的凡伊。(復(fù)雜度降低到了O(1))(Epoll最大的優(yōu)點就在于它只管你“活躍”的連接零渐,而跟連接總數(shù)無關(guān),因此在實際的網(wǎng)絡(luò)環(huán)境中窗声,Epoll的效率就會遠遠高于select和poll)
注意:表面上看epoll的性能最好相恃,但是在連接數(shù)少并且連接都十分活躍的情況下,select和poll的性能可能比epoll好笨觅,畢竟epoll的通知機制需要很多函數(shù)回調(diào)
6.三種I/O多路復(fù)用方式優(yōu)缺點比較
select的優(yōu)缺點:
優(yōu)點:
(1)select的可移植性好,在某些unix下不支持poll耕腾。
(2)select對超時值提供了很好的精度见剩,精確到微秒,而poll式毫秒扫俺。
缺點:
(1)單個進程可監(jiān)視的fd數(shù)量被限制苍苞,默認是1024。
(2)需要維護一個用來存放大量fd的數(shù)據(jù)結(jié)構(gòu)狼纬,這樣會使得用戶空間和內(nèi)核空間在傳遞該結(jié)構(gòu)時復(fù)制開銷大羹呵。
(3)對fd進行掃描時是線性掃描,fd劇增后疗琉,IO效率降低冈欢,每次調(diào)用都對fd進行線性掃描遍歷,隨著fd的增加會造成遍歷速度慢的問題盈简。
(4)select函數(shù)超時參數(shù)在返回時也是未定義的凑耻,考慮到可移植性,每次超時之后進入下一個select之前都要重新設(shè)置超時參數(shù)柠贤。
poll的優(yōu)缺點:
優(yōu)點:
(1)不要求計算最大文件描述符+1的大小香浩。
(2)應(yīng)付大數(shù)量的文件描述符時比select要快。
(3)沒有最大連接數(shù)的限制是基于鏈表存儲的臼勉。
缺點:
(1)大量的fd數(shù)組被整體復(fù)制于內(nèi)核態(tài)和用戶態(tài)之間邻吭,而不管這樣的復(fù)制是不是有意義。
(2)同select相同的是調(diào)用結(jié)束后需要輪詢來獲取就緒描述符宴霸。
epoll的優(yōu)缺點(epoll詳解):
(1)支持一個進程打開大數(shù)目的socket描述符(FD)
(2)IO效率不隨FD數(shù)目增加而線性下降
7.最后回來看看java內(nèi)核的NIO的實現(xiàn)
緩沖區(qū)Buffer
緩沖區(qū)實際上是一個數(shù)組囱晴,封裝了對數(shù)據(jù)結(jié)構(gòu)化訪問以及維護讀寫位置等信息
在NIO庫中岸裙,所有數(shù)據(jù)都是用緩沖區(qū)處理的,在讀取數(shù)據(jù)時速缆,直接讀取到緩沖區(qū)降允。寫入數(shù)據(jù)時,直接寫入寫緩沖區(qū)艺糜。任何時候訪問NIO中的數(shù)據(jù)剧董,都是 通過緩沖區(qū)進行操作
最常用的的緩沖區(qū)是ByteBuffer。大部分Java基本類型都對應(yīng)一種緩沖區(qū)
通道channel
Channel 是一個通道破停,可以通過它讀取和寫入數(shù)據(jù)翅楼。InputStream和OutputStream各自只能在一個方向上操作
Channel是全雙工的,所以它可以比流更好地映射底層的api
多路復(fù)用器Selector
Selector是NIO的編程基礎(chǔ)真慢。多路復(fù)用器提供選擇已經(jīng)就緒的任務(wù)的能力
Selector會不斷輪詢注冊在其上的Channel毅臊,如果channel上面有了新的TCP連接、讀取或者寫事件黑界,這個channel就是就緒狀態(tài)管嬉,會被Selector輪詢出來。然后通過SelectionKey集合可以獲取就緒的Channel集合朗鸠,進行IO操作
一個Selector可以同時輪詢多個Channel蚯撩,由于JDK使用了epoll()代替?zhèn)鹘y(tǒng)的select實現(xiàn),所以沒有最大連接句柄1024/2048的限制烛占。這意味著只需要一個線程負責(zé)Selector的輪詢胎挎,就可以接入成千上萬的客戶端
NIO服務(wù)端序列圖
NIO客服端序列圖
簡單版本的交互圖