IO多路復(fù)用機(jī)制Select挠他,Poll,Epoll

I/O多路復(fù)用(multiplexing)的本質(zhì)是通過一種機(jī)制(系統(tǒng)內(nèi)核緩沖I/O數(shù)據(jù))糊识,讓單個(gè)進(jìn)程可以監(jiān)視多個(gè)文件描述符绩社,一旦某個(gè)描述符就緒(一般是讀就緒或?qū)懢途w)赂苗,能夠通知程序進(jìn)行相應(yīng)的讀寫操作

select愉耙、poll 和 epoll 都是 Linux API 提供的 IO 復(fù)用方式拌滋。

相信大家都了解了Unix五種IO模型,不了解的可以 => 查看這里

[1] blocking IO - 阻塞IO
[2] nonblocking IO - 非阻塞IO
[3] IO multiplexing - IO多路復(fù)用
[4] signal driven IO - 信號(hào)驅(qū)動(dòng)IO
[5] asynchronous IO - 異步IO

其中前面4種IO都可以歸類為synchronous IO - 同步IO败砂,而select赌渣、poll昌犹、epoll本質(zhì)上也都是同步I/O,因?yàn)樗麄兌夹枰谧x寫事件就緒后自己負(fù)責(zé)進(jìn)行讀寫斜姥,也就是說這個(gè)讀寫過程是阻塞的鸿竖。

與多進(jìn)程和多線程技術(shù)相比沧竟,I/O多路復(fù)用技術(shù)的最大優(yōu)勢(shì)是系統(tǒng)開銷小,系統(tǒng)不必創(chuàng)建進(jìn)程/線程悟泵,也不必維護(hù)這些進(jìn)程/線程闪水,從而大大減小了系統(tǒng)的開銷。

在介紹select球榆、poll芜果、epoll之前鞠呈,首先介紹一下Linux操作系統(tǒng)中基礎(chǔ)的概念

  • 用戶空間 / 內(nèi)核空間
    現(xiàn)在操作系統(tǒng)都是采用虛擬存儲(chǔ)器蚁吝,那么對(duì)32位操作系統(tǒng)而言舀射,它的尋址空間(虛擬存儲(chǔ)空間)為4G(2的32次方)。
    操作系統(tǒng)的核心是內(nèi)核脆烟,獨(dú)立于普通的應(yīng)用程序邢羔,可以訪問受保護(hù)的內(nèi)存空間,也有訪問底層硬件設(shè)備的所有權(quán)限拜鹤。為了保證用戶進(jìn)程不能直接操作內(nèi)核(kernel)敏簿,保證內(nèi)核的安全,操作系統(tǒng)將虛擬空間劃分為兩部分惯裕,一部分為內(nèi)核空間,一部分為用戶空間撑刺。
  • 進(jìn)程切換
    為了控制進(jìn)程的執(zhí)行握玛,內(nèi)核必須有能力掛起正在CPU上運(yùn)行的進(jìn)程次员,并恢復(fù)以前掛起的某個(gè)進(jìn)程的執(zhí)行王带。這種行為被稱為進(jìn)程切換愕撰。因此可以說醋寝,任何進(jìn)程都是在操作系統(tǒng)內(nèi)核的支持下運(yùn)行的,是與內(nèi)核緊密相關(guān)的音羞,并且進(jìn)程切換是非常耗費(fèi)資源的嗅绰。
  • 進(jìn)程阻塞
    正在執(zhí)行的進(jìn)程,由于期待的某些事件未發(fā)生窘面,如請(qǐng)求系統(tǒng)資源失敗财边、等待某種操作的完成、新數(shù)據(jù)尚未到達(dá)或無新工作做等酣难,則由系統(tǒng)自動(dòng)執(zhí)行阻塞原語(Block)憨募,使自己由運(yùn)行狀態(tài)變?yōu)樽枞麪顟B(tài)〔鍪龋可見葛菇,進(jìn)程的阻塞是進(jìn)程自身的一種主動(dòng)行為,也因此只有處于運(yùn)行態(tài)的進(jìn)程(獲得了CPU資源)眯停,才可能將其轉(zhuǎn)為阻塞狀態(tài)莺债。當(dāng)進(jìn)程進(jìn)入阻塞狀態(tài)签夭,是不占用CPU資源的椎侠。
  • 文件描述符
    文件描述符(File descriptor)是計(jì)算機(jī)科學(xué)中的一個(gè)術(shù)語,是一個(gè)用于表述指向文件的引用的抽象化概念慎宾。
    文件描述符在形式上是一個(gè)非負(fù)整數(shù)趟据。實(shí)際上咳促,它是一個(gè)索引值尺迂,指向內(nèi)核為每一個(gè)進(jìn)程所維護(hù)的該進(jìn)程打開文件的記錄表。當(dāng)程序打開一個(gè)現(xiàn)有文件或者創(chuàng)建一個(gè)新文件時(shí)祭陷,內(nèi)核向進(jìn)程返回一個(gè)文件描述符想罕。在程序設(shè)計(jì)中楼镐,一些涉及底層的程序編寫往往會(huì)圍繞著文件描述符展開。但是文件描述符這一概念往往只適用于UNIX墓臭、Linux這樣的操作系統(tǒng)窑多。
  • 緩存I/O
    緩存I/O又稱為標(biāo)準(zhǔn)I/O千康,大多數(shù)文件系統(tǒng)的默認(rèn)I/O操作都是緩存I/O。在Linux的緩存I/O機(jī)制中刻两,操作系統(tǒng)會(huì)將I/O的數(shù)據(jù)緩存在文件系統(tǒng)的頁緩存中,即數(shù)據(jù)會(huì)先被拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)中滋迈,然后才會(huì)從操作系統(tǒng)內(nèi)核的緩沖區(qū)拷貝到應(yīng)用程序的地址空間。

Select

我們先分析一下select函數(shù)

int select(int maxfdp1,fd_set *readset,fd_set *writeset,fd_set *exceptset,const struct timeval *timeout);

【參數(shù)說明】
int maxfdp1 指定待測試的文件描述字個(gè)數(shù)饼灿,它的值是待測試的最大描述字加1碍彭。
**fd_set *readset , fd_set writeset , fd_set exceptset
fd_set可以理解為一個(gè)集合,這個(gè)集合中存放的是文件描述符(file descriptor)舞箍,即文件句柄皆疹。中間的三個(gè)參數(shù)指定我們要讓內(nèi)核測試讀、寫和異常條件的文件描述符集合捎迫。如果對(duì)某一個(gè)的條件不感興趣表牢,就可以把它設(shè)為空指針。
*const struct timeval timeout timeout告知內(nèi)核等待所指定文件描述符集合中的任何一個(gè)就緒可花多少時(shí)間彰导。其timeval結(jié)構(gòu)用于指定這段時(shí)間的秒數(shù)和微秒數(shù)恼布。

【返回值】
int 若有就緒描述符返回其數(shù)目,若超時(shí)則為0倔幼,若出錯(cuò)則為-1

select運(yùn)行機(jī)制

select()的機(jī)制中提供一種fd_set的數(shù)據(jù)結(jié)構(gòu)爽待,實(shí)際上是一個(gè)long類型的數(shù)組鸟款,每一個(gè)數(shù)組元素都能與一打開的文件句柄(不管是Socket句柄,還是其他文件或命名管道或設(shè)備句柄)建立聯(lián)系,建立聯(lián)系的工作由程序員完成何什,當(dāng)調(diào)用select()時(shí),由內(nèi)核根據(jù)IO狀態(tài)修改fd_set的內(nèi)容伶贰,由此來通知執(zhí)行了select()的進(jìn)程哪一Socket或文件可讀。

從流程上來看泥畅,使用select函數(shù)進(jìn)行IO請(qǐng)求和同步阻塞模型沒有太大的區(qū)別琅翻,甚至還多了添加監(jiān)視socket方椎,以及調(diào)用select函數(shù)的額外操作,效率更差棠众。但是,使用select以后最大的優(yōu)勢(shì)是用戶可以在一個(gè)線程內(nèi)同時(shí)處理多個(gè)socket的IO請(qǐng)求。用戶可以注冊(cè)多個(gè)socket胸墙,然后不斷地調(diào)用select讀取被激活的socket按咒,即可達(dá)到在同一個(gè)線程內(nèi)同時(shí)處理多個(gè)IO請(qǐng)求的目的。而在同步阻塞模型中智袭,必須通過多線程的方式才能達(dá)到這個(gè)目的掠抬。

select機(jī)制的問題
  1. 每次調(diào)用select两波,都需要把fd_set集合從用戶態(tài)拷貝到內(nèi)核態(tài),如果fd_set集合很大時(shí)腰奋,那這個(gè)開銷也很大
  2. 同時(shí)每次調(diào)用select都需要在內(nèi)核遍歷傳遞進(jìn)來的所有fd_set劣坊,如果fd_set集合很大時(shí),那這個(gè)開銷也很大
  3. 為了減少數(shù)據(jù)拷貝帶來的性能損壞测蘑,內(nèi)核對(duì)被監(jiān)控的fd_set集合大小做了限制,并且這個(gè)是通過宏控制的帮寻,大小不可改變(限制為1024)

Poll

poll的機(jī)制與select類似,與select在本質(zhì)上沒有多大差別固逗,管理多個(gè)描述符也是進(jìn)行輪詢烫罩,根據(jù)描述符的狀態(tài)進(jìn)行處理,但是poll沒有最大文件描述符數(shù)量的限制贝攒。也就是說隘弊,poll只解決了上面的問題3,并沒有解決問題1梨熙,2的性能開銷問題。

下面是pll的函數(shù)原型:

int poll(struct pollfd *fds, nfds_t nfds, int timeout);

typedef struct pollfd {
        int fd;                         // 需要被檢測或選擇的文件描述符
        short events;                   // 對(duì)文件描述符fd上感興趣的事件
        short revents;                  // 文件描述符fd上當(dāng)前實(shí)際發(fā)生的事件
} pollfd_t;

poll改變了文件描述符集合的描述方式咽扇,使用了pollfd結(jié)構(gòu)而不是select的fd_set結(jié)構(gòu),使得poll支持的文件描述符集合限制遠(yuǎn)大于select的1024

【參數(shù)說明】

*struct pollfd fds fds是一個(gè)struct pollfd類型的數(shù)組树埠,用于存放需要檢測其狀態(tài)的socket描述符嘶伟,并且調(diào)用poll函數(shù)之后fds數(shù)組不會(huì)被清空;一個(gè)pollfd結(jié)構(gòu)體表示一個(gè)被監(jiān)視的文件描述符盛霎,通過傳遞fds指示 poll() 監(jiān)視多個(gè)文件描述符耽装。其中,結(jié)構(gòu)體的events域是監(jiān)視該文件描述符的事件掩碼规个,由用戶來設(shè)置這個(gè)域,結(jié)構(gòu)體的revents域是文件描述符的操作結(jié)果事件掩碼缤苫,內(nèi)核在調(diào)用返回時(shí)設(shè)置這個(gè)域

nfds_t nfds 記錄數(shù)組fds中描述符的總數(shù)量

【返回值】
int 函數(shù)返回fds集合中就緒的讀活玲、寫谍婉,或出錯(cuò)的描述符數(shù)量,返回0表示超時(shí)镀迂,返回-1表示出錯(cuò)唤蔗;

Epoll

epoll在Linux2.6內(nèi)核正式提出,是基于事件驅(qū)動(dòng)的I/O方式妓柜,相對(duì)于select來說,epoll沒有描述符個(gè)數(shù)限制棍掐,使用一個(gè)文件描述符管理多個(gè)描述符,將用戶關(guān)心的文件描述符的事件存放到內(nèi)核的一個(gè)事件表中,這樣在用戶空間和內(nèi)核空間的copy只需一次最疆。

Linux中提供的epoll相關(guān)函數(shù)如下:

int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

1. epoll_create 函數(shù)創(chuàng)建一個(gè)epoll句柄蚤告,參數(shù)size表明內(nèi)核要監(jiān)聽的描述符數(shù)量。調(diào)用成功時(shí)返回一個(gè)epoll句柄描述符获诈,失敗時(shí)返回-1心褐。

2. epoll_ctl 函數(shù)注冊(cè)要監(jiān)聽的事件類型逗爹。四個(gè)參數(shù)解釋如下:

  • epfd 表示epoll句柄
  • op 表示fd操作類型,有如下3種
    • EPOLL_CTL_ADD 注冊(cè)新的fd到epfd中
    • EPOLL_CTL_MOD 修改已注冊(cè)的fd的監(jiān)聽事件
    • EPOLL_CTL_DEL 從epfd中刪除一個(gè)fd
  • fd 是要監(jiān)聽的描述符
  • event 表示要監(jiān)聽的事件

epoll_event 結(jié)構(gòu)體定義如下:

struct epoll_event {
    __uint32_t events;  /* Epoll events */
    epoll_data_t data;  /* User data variable */
};

typedef union epoll_data {
    void *ptr;
    int fd;
    __uint32_t u32;
    __uint64_t u64;
} epoll_data_t;

3. epoll_wait 函數(shù)等待事件的就緒挟冠,成功時(shí)返回就緒的事件數(shù)目,調(diào)用失敗時(shí)返回 -1肋僧,等待超時(shí)返回 0控淡。

  • epfd 是epoll句柄
  • events 表示從內(nèi)核得到的就緒事件集合
  • maxevents 告訴內(nèi)核events的大小
  • timeout 表示等待的超時(shí)事件

epoll是Linux內(nèi)核為處理大批量文件描述符而作了改進(jìn)的poll,是Linux下多路復(fù)用IO接口select/poll的增強(qiáng)版本居兆,它能顯著提高程序在大量并發(fā)連接中只有少量活躍的情況下的系統(tǒng)CPU利用率泥栖。原因就是獲取事件的時(shí)候勋篓,它無須遍歷整個(gè)被偵聽的描述符集,只要遍歷那些被內(nèi)核IO事件異步喚醒而加入Ready隊(duì)列的描述符集合就行了钢颂。

epoll除了提供select/poll那種IO事件的水平觸發(fā)(Level Triggered)外拜银,還提供了邊緣觸發(fā)(Edge Triggered),這就使得用戶空間程序有可能緩存IO狀態(tài)操灿,減少epoll_wait/epoll_pwait的調(diào)用泵督,提高應(yīng)用程序效率。

  • 水平觸發(fā)(LT):默認(rèn)工作模式救鲤,即當(dāng)epoll_wait檢測到某描述符事件就緒并通知應(yīng)用程序時(shí)秩冈,應(yīng)用程序可以不立即處理該事件入问;下次調(diào)用epoll_wait時(shí)犹赖,會(huì)再次通知此事件
  • 邊緣觸發(fā)(ET): 當(dāng)epoll_wait檢測到某描述符事件就緒并通知應(yīng)用程序時(shí)卷仑,應(yīng)用程序必須立即處理該事件锡凝。如果不處理,下次調(diào)用epoll_wait時(shí)张肾,不會(huì)再次通知此事件锚扎。(直到你做了某些操作導(dǎo)致該描述符變成未就緒狀態(tài)了,也就是說邊緣觸發(fā)只在狀態(tài)由未就緒變?yōu)榫途w時(shí)只通知一次)芍秆。

LT和ET原本應(yīng)該是用于脈沖信號(hào)的翠勉,可能用它來解釋更加形象。Level和Edge指的就是觸發(fā)點(diǎn)荆虱,Level為只要處于水平朽们,那么就一直觸發(fā)骑脱,而Edge則為上升沿和下降沿的時(shí)候觸發(fā)。比如:0->1 就是Edge,1->1 就是Level椿息。

ET模式很大程度上減少了epoll事件的觸發(fā)次數(shù),因此效率比LT模式下高条舔。

總結(jié)

一張圖總結(jié)一下select,poll,epoll的區(qū)別:

select poll epoll
操作方式 遍歷 遍歷 回調(diào)
底層實(shí)現(xiàn) 數(shù)組 鏈表 紅黑樹
IO效率 每次調(diào)用都進(jìn)行線性遍歷孟抗,時(shí)間復(fù)雜度為O(n) 每次調(diào)用都進(jìn)行線性遍歷,時(shí)間復(fù)雜度為O(n) 事件通知方式铅协,每當(dāng)fd就緒摊沉,系統(tǒng)注冊(cè)的回調(diào)函數(shù)就會(huì)被調(diào)用,將就緒fd放到readyList里面骏全,時(shí)間復(fù)雜度O(1)
最大連接數(shù) 1024(x86)或2048(x64) 無上限 無上限
fd拷貝 每次調(diào)用select尼斧,都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài) 每次調(diào)用poll棺棵,都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài) 調(diào)用epoll_ctl時(shí)拷貝進(jìn)內(nèi)核并保存,之后每次epoll_wait不拷貝

epoll是Linux目前大規(guī)模網(wǎng)絡(luò)并發(fā)程序開發(fā)的首選模型爬橡。在絕大多數(shù)情況下性能遠(yuǎn)超select和poll棒动。目前流行的高性能web服務(wù)器Nginx正式依賴于epoll提供的高效網(wǎng)絡(luò)套接字輪詢服務(wù)。但是柜裸,在并發(fā)連接不高的情況下粱锐,多線程+阻塞I/O方式可能性能更好怜浅。


既然select,poll搀暑,epoll都是I/O多路復(fù)用的具體的實(shí)現(xiàn)跨琳,之所以現(xiàn)在同時(shí)存在,其實(shí)他們也是不同歷史時(shí)期的產(chǎn)物

  • select出現(xiàn)是1984年在BSD里面實(shí)現(xiàn)的
  • 14年之后也就是1997年才實(shí)現(xiàn)了poll桂敛,其實(shí)拖那么久也不是效率問題, 而是那個(gè)時(shí)代的硬件實(shí)在太弱薪伏,一臺(tái)服務(wù)器處理1千多個(gè)鏈接簡直就是神一樣的存在了碴开,select很長段時(shí)間已經(jīng)滿足需求
  • 2002, 大神 Davide Libenzi 實(shí)現(xiàn)了epoll

作者:似水牛年
鏈接:http://www.reibang.com/p/397449cadc9a
來源:簡書
著作權(quán)歸作者所有潦牛。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處朴爬。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末召噩,一起剝皮案震驚了整個(gè)濱河市逸爵,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌构韵,老刑警劉巖趋艘,帶你破解...
    沈念sama閱讀 218,525評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瓷胧,死亡現(xiàn)場離奇詭異搓萧,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)揍移,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門羊精,熙熙樓的掌柜王于貴愁眉苦臉地迎上來囚玫,“玉大人,你說我怎么就攤上這事燃少×逶冢” “怎么了定铜?”我有些...
    開封第一講書人閱讀 164,862評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長帘皿。 經(jīng)常有香客問我畸陡,道長,這世上最難降的妖魔是什么曹动? 我笑而不...
    開封第一講書人閱讀 58,728評(píng)論 1 294
  • 正文 為了忘掉前任墓陈,我火速辦了婚禮竭恬,結(jié)果婚禮上痊硕,老公的妹妹穿的比我還像新娘。我一直安慰自己理逊,他們只是感情好盒揉,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,743評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著刚盈,像睡著了一般羡洛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上藕漱,一...
    開封第一講書人閱讀 51,590評(píng)論 1 305
  • 那天欲侮,我揣著相機(jī)與錄音崭闲,去河邊找鬼。 笑死威蕉,一個(gè)胖子當(dāng)著我的面吹牛刁俭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播韧涨,決...
    沈念sama閱讀 40,330評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼牍戚,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼虑粥!你這毒婦竟也來了如孝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤娩贷,失蹤者是張志新(化名)和其女友劉穎暑竟,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體育勺,經(jīng)...
    沈念sama閱讀 45,693評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡但荤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,885評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了涧至。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腹躁。...
    茶點(diǎn)故事閱讀 40,001評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖南蓬,靈堂內(nèi)的尸體忽然破棺而出纺非,到底是詐尸還是另有隱情,我是刑警寧澤赘方,帶...
    沈念sama閱讀 35,723評(píng)論 5 346
  • 正文 年R本政府宣布烧颖,位于F島的核電站,受9級(jí)特大地震影響窄陡,放射性物質(zhì)發(fā)生泄漏炕淮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,343評(píng)論 3 330
  • 文/蒙蒙 一跳夭、第九天 我趴在偏房一處隱蔽的房頂上張望涂圆。 院中可真熱鬧,春花似錦币叹、人聲如沸润歉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽踩衩。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間驱富,已是汗流浹背反砌。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評(píng)論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留萌朱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,191評(píng)論 3 370
  • 正文 我出身青樓策菜,卻偏偏與公主長得像晶疼,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子又憨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,955評(píng)論 2 355