I/O多路復(fù)用(multiplexing)的本質(zhì)是通過(guò)一種機(jī)制(系統(tǒng)內(nèi)核緩沖I/O數(shù)據(jù))需曾,讓單個(gè)進(jìn)程可以監(jiān)視多個(gè)文件描述符檩咱,一旦某個(gè)描述符就緒(一般是讀就緒或?qū)懢途w),能夠通知程序進(jìn)行相應(yīng)的讀寫(xiě)操作
select胯舷、poll 和 epoll 都是 Linux API 提供的 IO 復(fù)用方式刻蚯。
相信大家都了解了Unix五種IO模型,不了解的可以 => 查看這里
[1] blocking IO - 阻塞IO
[2] nonblocking IO - 非阻塞IO
[3] IO multiplexing - IO多路復(fù)用
[4] signal driven IO - 信號(hào)驅(qū)動(dòng)IO
[5] asynchronous IO - 異步IO
其中前面4種IO都可以歸類(lèi)為synchronous IO - 同步IO桑嘶,而select炊汹、poll、epoll本質(zhì)上也都是同步I/O逃顶,因?yàn)樗麄兌夹枰谧x寫(xiě)事件就緒后自己負(fù)責(zé)進(jìn)行讀寫(xiě)讨便,也就是說(shuō)這個(gè)讀寫(xiě)過(guò)程是阻塞的。
與多進(jìn)程和多線程技術(shù)相比以政,I/O多路復(fù)用技術(shù)的最大優(yōu)勢(shì)是系統(tǒng)開(kāi)銷(xiāo)小霸褒,系統(tǒng)不必創(chuàng)建進(jìn)程/線程,也不必維護(hù)這些進(jìn)程/線程盈蛮,從而大大減小了系統(tǒng)的開(kāi)銷(xiāo)废菱。
在介紹select、poll抖誉、epoll之前殊轴,首先介紹一下Linux操作系統(tǒng)中基礎(chǔ)的概念:
-
用戶空間 / 內(nèi)核空間
現(xiàn)在操作系統(tǒng)都是采用虛擬存儲(chǔ)器,那么對(duì)32位操作系統(tǒng)而言袒炉,它的尋址空間(虛擬存儲(chǔ)空間)為4G(2的32次方)旁理。
操作系統(tǒng)的核心是內(nèi)核,獨(dú)立于普通的應(yīng)用程序我磁,可以訪問(wèn)受保護(hù)的內(nèi)存空間孽文,也有訪問(wèn)底層硬件設(shè)備的所有權(quán)限。為了保證用戶進(jìn)程不能直接操作內(nèi)核(kernel)夺艰,保證內(nèi)核的安全芋哭,操作系統(tǒng)將虛擬空間劃分為兩部分,一部分為內(nèi)核空間劲适,一部分為用戶空間楷掉。 -
進(jìn)程切換
為了控制進(jìn)程的執(zhí)行,內(nèi)核必須有能力掛起正在CPU上運(yùn)行的進(jìn)程,并恢復(fù)以前掛起的某個(gè)進(jìn)程的執(zhí)行烹植。這種行為被稱(chēng)為進(jìn)程切換斑鸦。因此可以說(shuō),任何進(jìn)程都是在操作系統(tǒng)內(nèi)核的支持下運(yùn)行的草雕,是與內(nèi)核緊密相關(guān)的巷屿,并且進(jìn)程切換是非常耗費(fèi)資源的。 -
進(jìn)程阻塞
正在執(zhí)行的進(jìn)程墩虹,由于期待的某些事件未發(fā)生嘱巾,如請(qǐng)求系統(tǒng)資源失敗、等待某種操作的完成诫钓、新數(shù)據(jù)尚未到達(dá)或無(wú)新工作做等旬昭,則由系統(tǒng)自動(dòng)執(zhí)行阻塞原語(yǔ)(Block),使自己由運(yùn)行狀態(tài)變?yōu)樽枞麪顟B(tài)菌湃∥示校可見(jiàn),進(jìn)程的阻塞是進(jìn)程自身的一種主動(dòng)行為惧所,也因此只有處于運(yùn)行態(tài)的進(jìn)程(獲得了CPU資源)骤坐,才可能將其轉(zhuǎn)為阻塞狀態(tài)。當(dāng)進(jìn)程進(jìn)入阻塞狀態(tài)下愈,是不占用CPU資源的纽绍。 -
文件描述符
文件描述符(File descriptor)是計(jì)算機(jī)科學(xué)中的一個(gè)術(shù)語(yǔ),是一個(gè)用于表述指向文件的引用的抽象化概念势似。
文件描述符在形式上是一個(gè)非負(fù)整數(shù)拌夏。實(shí)際上,它是一個(gè)索引值叫编,指向內(nèi)核為每一個(gè)進(jìn)程所維護(hù)的該進(jìn)程打開(kāi)文件的記錄表辖佣。當(dāng)程序打開(kāi)一個(gè)現(xiàn)有文件或者創(chuàng)建一個(gè)新文件時(shí)霹抛,內(nèi)核向進(jìn)程返回一個(gè)文件描述符搓逾。在程序設(shè)計(jì)中,一些涉及底層的程序編寫(xiě)往往會(huì)圍繞著文件描述符展開(kāi)杯拐。但是文件描述符這一概念往往只適用于UNIX霞篡、Linux這樣的操作系統(tǒng)。 -
緩存I/O
緩存I/O又稱(chēng)為標(biāo)準(zhǔn)I/O端逼,大多數(shù)文件系統(tǒng)的默認(rèn)I/O操作都是緩存I/O朗兵。在Linux的緩存I/O機(jī)制中,操作系統(tǒng)會(huì)將I/O的數(shù)據(jù)緩存在文件系統(tǒng)的頁(yè)緩存中顶滩,即數(shù)據(jù)會(huì)先被拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)中余掖,然后才會(huì)從操作系統(tǒng)內(nèi)核的緩沖區(qū)拷貝到應(yīng)用程序的地址空間。
Select
我們先分析一下select函數(shù)
int select(int maxfdp1,fd_set *readset,fd_set *writeset,fd_set *exceptset,const struct timeval *timeout);
【參數(shù)說(shuō)明】
int maxfdp1 指定待測(cè)試的文件描述字個(gè)數(shù)礁鲁,它的值是待測(cè)試的最大描述字加1盐欺。
fd_set *readset , fd_set *writeset , fd_set *exceptset
fd_set
可以理解為一個(gè)集合赁豆,這個(gè)集合中存放的是文件描述符(file descriptor),即文件句柄冗美。中間的三個(gè)參數(shù)指定我們要讓內(nèi)核測(cè)試讀魔种、寫(xiě)和異常條件的文件描述符集合。如果對(duì)某一個(gè)的條件不感興趣粉洼,就可以把它設(shè)為空指針节预。
const struct timeval *timeout timeout
告知內(nèi)核等待所指定文件描述符集合中的任何一個(gè)就緒可花多少時(shí)間。其timeval結(jié)構(gòu)用于指定這段時(shí)間的秒數(shù)和微秒數(shù)属韧。
【返回值】
int 若有就緒描述符返回其數(shù)目安拟,若超時(shí)則為0,若出錯(cuò)則為-1
select運(yùn)行機(jī)制
select()的機(jī)制中提供一種fd_set
的數(shù)據(jù)結(jié)構(gòu)宵喂,實(shí)際上是一個(gè)long類(lèi)型的數(shù)組去扣,每一個(gè)數(shù)組元素都能與一打開(kāi)的文件句柄(不管是Socket句柄,還是其他文件或命名管道或設(shè)備句柄)建立聯(lián)系,建立聯(lián)系的工作由程序員完成樊破,當(dāng)調(diào)用select()時(shí)愉棱,由內(nèi)核根據(jù)IO狀態(tài)修改fd_set的內(nèi)容,由此來(lái)通知執(zhí)行了select()的進(jìn)程哪一Socket或文件可讀哲戚。
從流程上來(lái)看奔滑,使用select函數(shù)進(jìn)行IO請(qǐng)求和同步阻塞模型沒(méi)有太大的區(qū)別,甚至還多了添加監(jiān)視socket顺少,以及調(diào)用select函數(shù)的額外操作朋其,效率更差。但是脆炎,使用select以后最大的優(yōu)勢(shì)是用戶可以在一個(gè)線程內(nèi)同時(shí)處理多個(gè)socket的IO請(qǐng)求梅猿。用戶可以注冊(cè)多個(gè)socket,然后不斷地調(diào)用select讀取被激活的socket秒裕,即可達(dá)到在同一個(gè)線程內(nèi)同時(shí)處理多個(gè)IO請(qǐng)求的目的袱蚓。而在同步阻塞模型中,必須通過(guò)多線程的方式才能達(dá)到這個(gè)目的几蜻。
select機(jī)制的問(wèn)題
- 每次調(diào)用select喇潘,都需要把
fd_set
集合從用戶態(tài)拷貝到內(nèi)核態(tài),如果fd_set
集合很大時(shí)梭稚,那這個(gè)開(kāi)銷(xiāo)也很大 - 同時(shí)每次調(diào)用select都需要在內(nèi)核遍歷傳遞進(jìn)來(lái)的所有
fd_set
颖低,如果fd_set
集合很大時(shí),那這個(gè)開(kāi)銷(xiāo)也很大 - 為了減少數(shù)據(jù)拷貝帶來(lái)的性能損壞弧烤,內(nèi)核對(duì)被監(jiān)控的
fd_set
集合大小做了限制忱屑,并且這個(gè)是通過(guò)宏控制的,大小不可改變(限制為1024)
Poll
poll的機(jī)制與select類(lèi)似,與select在本質(zhì)上沒(méi)有多大差別莺戒,管理多個(gè)描述符也是進(jìn)行輪詢粱栖,根據(jù)描述符的狀態(tài)進(jìn)行處理,但是poll沒(méi)有最大文件描述符數(shù)量的限制脏毯。也就是說(shuō)闹究,poll只解決了上面的問(wèn)題3,并沒(méi)有解決問(wèn)題1食店,2的性能開(kāi)銷(xiāo)問(wèn)題渣淤。
下面是pll的函數(shù)原型:
int poll(struct pollfd *fds, nfds_t nfds, int timeout);
typedef struct pollfd {
int fd; // 需要被檢測(cè)或選擇的文件描述符
short events; // 對(duì)文件描述符fd上感興趣的事件
short revents; // 文件描述符fd上當(dāng)前實(shí)際發(fā)生的事件
} pollfd_t;
poll改變了文件描述符集合的描述方式,使用了pollfd
結(jié)構(gòu)而不是select的fd_set
結(jié)構(gòu)吉嫩,使得poll支持的文件描述符集合限制遠(yuǎn)大于select的1024
【參數(shù)說(shuō)明】
struct pollfd *fds fds
是一個(gè)struct pollfd
類(lèi)型的數(shù)組价认,用于存放需要檢測(cè)其狀態(tài)的socket描述符,并且調(diào)用poll函數(shù)之后fds
數(shù)組不會(huì)被清空自娩;一個(gè)pollfd
結(jié)構(gòu)體表示一個(gè)被監(jiān)視的文件描述符用踩,通過(guò)傳遞fds
指示 poll() 監(jiān)視多個(gè)文件描述符。其中忙迁,結(jié)構(gòu)體的events
域是監(jiān)視該文件描述符的事件掩碼脐彩,由用戶來(lái)設(shè)置這個(gè)域,結(jié)構(gòu)體的revents
域是文件描述符的操作結(jié)果事件掩碼姊扔,內(nèi)核在調(diào)用返回時(shí)設(shè)置這個(gè)域
nfds_t nfds 記錄數(shù)組fds
中描述符的總數(shù)量
【返回值】
int 函數(shù)返回fds集合中就緒的讀惠奸、寫(xiě),或出錯(cuò)的描述符數(shù)量恰梢,返回0表示超時(shí)佛南,返回-1表示出錯(cuò);
Epoll
epoll在Linux2.6內(nèi)核正式提出嵌言,是基于事件驅(qū)動(dòng)的I/O方式嗅回,相對(duì)于select來(lái)說(shuō),epoll沒(méi)有描述符個(gè)數(shù)限制摧茴,使用一個(gè)文件描述符管理多個(gè)描述符绵载,將用戶關(guān)心的文件描述符的事件存放到內(nèi)核的一個(gè)事件表中,這樣在用戶空間和內(nèi)核空間的copy只需一次蓬蝶。
Linux中提供的epoll相關(guān)函數(shù)如下:
int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
1. epoll_create 函數(shù)創(chuàng)建一個(gè)epoll句柄尘分,參數(shù)size
表明內(nèi)核要監(jiān)聽(tīng)的描述符數(shù)量。調(diào)用成功時(shí)返回一個(gè)epoll句柄描述符丸氛,失敗時(shí)返回-1。
2. epoll_ctl 函數(shù)注冊(cè)要監(jiān)聽(tīng)的事件類(lèi)型著摔。四個(gè)參數(shù)解釋如下:
-
epfd
表示epoll句柄 -
op
表示fd操作類(lèi)型缓窜,有如下3種- EPOLL_CTL_ADD 注冊(cè)新的fd到epfd中
- EPOLL_CTL_MOD 修改已注冊(cè)的fd的監(jiān)聽(tīng)事件
- EPOLL_CTL_DEL 從epfd中刪除一個(gè)fd
-
fd
是要監(jiān)聽(tīng)的描述符 -
event
表示要監(jiān)聽(tīng)的事件
epoll_event 結(jié)構(gòu)體定義如下:
struct epoll_event {
__uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};
typedef union epoll_data {
void *ptr;
int fd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;
3. epoll_wait 函數(shù)等待事件的就緒,成功時(shí)返回就緒的事件數(shù)目,調(diào)用失敗時(shí)返回 -1禾锤,等待超時(shí)返回 0私股。
-
epfd
是epoll句柄 -
events
表示從內(nèi)核得到的就緒事件集合 -
maxevents
告訴內(nèi)核events的大小 -
timeout
表示等待的超時(shí)事件
epoll是Linux內(nèi)核為處理大批量文件描述符而作了改進(jìn)的poll,是Linux下多路復(fù)用IO接口select/poll的增強(qiáng)版本恩掷,它能顯著提高程序在大量并發(fā)連接中只有少量活躍的情況下的系統(tǒng)CPU利用率倡鲸。原因就是獲取事件的時(shí)候,它無(wú)須遍歷整個(gè)被偵聽(tīng)的描述符集黄娘,只要遍歷那些被內(nèi)核IO事件異步喚醒而加入Ready隊(duì)列的描述符集合就行了峭状。
epoll除了提供select/poll那種IO事件的水平觸發(fā)(Level Triggered)外,還提供了邊緣觸發(fā)(Edge Triggered)逼争,這就使得用戶空間程序有可能緩存IO狀態(tài)优床,減少epoll_wait/epoll_pwait的調(diào)用,提高應(yīng)用程序效率誓焦。
- 水平觸發(fā)(LT):默認(rèn)工作模式胆敞,即當(dāng)epoll_wait檢測(cè)到某描述符事件就緒并通知應(yīng)用程序時(shí),應(yīng)用程序可以不立即處理該事件杂伟;下次調(diào)用epoll_wait時(shí)移层,會(huì)再次通知此事件
- 邊緣觸發(fā)(ET): 當(dāng)epoll_wait檢測(cè)到某描述符事件就緒并通知應(yīng)用程序時(shí),應(yīng)用程序必須立即處理該事件赫粥。如果不處理幽钢,下次調(diào)用epoll_wait時(shí),不會(huì)再次通知此事件傅是。(直到你做了某些操作導(dǎo)致該描述符變成未就緒狀態(tài)了匪燕,也就是說(shuō)邊緣觸發(fā)只在狀態(tài)由未就緒變?yōu)榫途w時(shí)只通知一次)。
LT和ET原本應(yīng)該是用于脈沖信號(hào)的喧笔,可能用它來(lái)解釋更加形象帽驯。Level和Edge指的就是觸發(fā)點(diǎn),Level為只要處于水平书闸,那么就一直觸發(fā)尼变,而Edge則為上升沿和下降沿的時(shí)候觸發(fā)。比如:0->1 就是Edge浆劲,1->1 就是Level嫌术。
ET模式很大程度上減少了epoll事件的觸發(fā)次數(shù),因此效率比LT模式下高牌借。
總結(jié)
一張圖總結(jié)一下select,poll,epoll的區(qū)別:
select | poll | epoll | |
---|---|---|---|
操作方式 | 遍歷 | 遍歷 | 回調(diào) |
底層實(shí)現(xiàn) | 數(shù)組 | 鏈表 | 紅黑樹(shù) |
IO效率 | 每次調(diào)用都進(jìn)行線性遍歷度气,時(shí)間復(fù)雜度為O(n) | 每次調(diào)用都進(jìn)行線性遍歷,時(shí)間復(fù)雜度為O(n) | 事件通知方式膨报,每當(dāng)fd就緒磷籍,系統(tǒng)注冊(cè)的回調(diào)函數(shù)就會(huì)被調(diào)用适荣,將就緒fd放到readyList里面,時(shí)間復(fù)雜度O(1) |
最大連接數(shù) | 1024(x86)或2048(x64) | 無(wú)上限 | 無(wú)上限 |
fd拷貝 | 每次調(diào)用select院领,都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài) | 每次調(diào)用poll弛矛,都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài) | 調(diào)用epoll_ctl時(shí)拷貝進(jìn)內(nèi)核并保存,之后每次epoll_wait不拷貝 |
epoll是Linux目前大規(guī)模網(wǎng)絡(luò)并發(fā)程序開(kāi)發(fā)的首選模型比然。在絕大多數(shù)情況下性能遠(yuǎn)超select和poll丈氓。目前流行的高性能web服務(wù)器Nginx正式依賴(lài)于epoll提供的高效網(wǎng)絡(luò)套接字輪詢服務(wù)。但是强法,在并發(fā)連接不高的情況下万俗,多線程+阻塞I/O方式可能性能更好。
既然select拟烫,poll该编,epoll都是I/O多路復(fù)用的具體的實(shí)現(xiàn),之所以現(xiàn)在同時(shí)存在硕淑,其實(shí)他們也是不同歷史時(shí)期的產(chǎn)物
- select出現(xiàn)是1984年在BSD里面實(shí)現(xiàn)的
- 14年之后也就是1997年才實(shí)現(xiàn)了poll课竣,其實(shí)拖那么久也不是效率問(wèn)題, 而是那個(gè)時(shí)代的硬件實(shí)在太弱置媳,一臺(tái)服務(wù)器處理1千多個(gè)鏈接簡(jiǎn)直就是神一樣的存在了于樟,select很長(zhǎng)段時(shí)間已經(jīng)滿足需求
- 2002, 大神 Davide Libenzi 實(shí)現(xiàn)了epoll