IO多路復(fù)用(multiplexing)的三種方式-select陈莽,poll虽抄,epoll--kummer話你知

1迈窟、IO多路復(fù)用(multiplexing)相關(guān)概念

在介紹select车酣、poll、epoll之前者春,首先介紹一下Linux操作系統(tǒng)中基礎(chǔ)的概念:

1.1、用戶空間 / 內(nèi)核空間

現(xiàn)在操作系統(tǒng)都是采用虛擬存儲器嫡丙,那么對32位操作系統(tǒng)而言曙博,它的尋址空間(虛擬存儲空間)為4G(2的32次方)父泳。
操作系統(tǒng)的核心是內(nèi)核吴汪,獨立于普通的應(yīng)用程序漾橙,可以訪問受保護的內(nèi)存空間霜运,也有訪問底層硬件設(shè)備的所有權(quán)限淘捡。為了保證用戶進程不能直接操作內(nèi)核(kernel)焦除,保證內(nèi)核的安全踢京,操作系統(tǒng)將虛擬空間劃分為兩部分瓣距,一部分為內(nèi)核空間蹈丸,一部分為用戶空間。

1.2思瘟、進程切換

為了控制進程的執(zhí)行滨攻,內(nèi)核必須有能力掛起正在CPU上運行的進程光绕,并恢復(fù)以前掛起的某個進程的執(zhí)行诞帐。這種行為被稱為進程切換停蕉。因此可以說慧起,任何進程都是在操作系統(tǒng)內(nèi)核的支持下運行的完慧,是與內(nèi)核緊密相關(guān)的屈尼,并且進程切換是非常耗費資源的脾歧。

1.3鞭执、進程阻塞

正在執(zhí)行的進程兄纺,由于期待的某些事件未發(fā)生估脆,如請求系統(tǒng)資源失敗疙赠、等待某種操作的完成圃阳、新數(shù)據(jù)尚未到達或無新工作做等捍岳,則由系統(tǒng)自動執(zhí)行阻塞原語(Block)祟同,使自己由運行狀態(tài)變?yōu)樽枞麪顟B(tài)晕城∽┣辏可見滤蝠,進程的阻塞是進程自身的一種主動行為物咳,也因此只有處于運行態(tài)的進程(獲得了CPU資源)览闰,才可能將其轉(zhuǎn)為阻塞狀態(tài)压鉴。當進程進入阻塞狀態(tài)油吭,是不占用CPU資源的婉宰。

我們知道傳統(tǒng)的BIO(Blocking)操作都是按照順序線性執(zhí)行的心包,但是由于讀寫操作等待用戶輸入或輸出都是阻塞的谴咸,所以 I/O 操作在一般情況下往往不能直接返回岭佳,這會導(dǎo)致某一文件的 I/O 阻塞導(dǎo)致整個進程無法對其它客戶提供服務(wù)珊随。而 I/O 多路復(fù)用就是為了解決這個問題而出現(xiàn)的叶洞。
這里“多路”指的是多個網(wǎng)絡(luò)連接衩辟,“復(fù)用”指的是復(fù)用同一個線程昼钻。采用多路 I/O 復(fù)用技術(shù)可以讓單個線程高效的處理多個連接請求(盡量減少網(wǎng)絡(luò) IO 的時間消耗)然评,Reactor的設(shè)計模式就是基于NIO碗淌。
I/O多路復(fù)用實際上就是用select, poll, epoll技術(shù)等監(jiān)聽多個io對象亿眠,當io對象有變化(有數(shù)據(jù))的時候就通知用戶進程缕探。好處就是單個進程可以處理多個socket爹耗。

1.4潭兽、文件描述符

文件描述符(File descriptor)是計算機科學中的一個術(shù)語,是一個用于表述指向文件的引用的抽象化概念账蓉。
文件描述符在形式上是一個非負整數(shù)铸本。實際上箱玷,它是一個索引值锡足,指向內(nèi)核為每一個進程所維護的該進程打開文件的記錄表舶得。當程序打開一個現(xiàn)有文件或者創(chuàng)建一個新文件時媚赖,內(nèi)核向進程返回一個文件描述符。在程序設(shè)計中捻撑,一些涉及底層的程序編寫往往會圍繞著文件描述符展開顾患。但是文件描述符這一概念往往只適用于UNIX江解、Linux這樣的操作系統(tǒng)犁河。

1.5、緩存I/O

緩存I/O又稱為標準I/O灭翔,大多數(shù)文件系統(tǒng)的默認I/O操作都是緩存I/O肝箱。在Linux的緩存I/O機制中煌张,操作系統(tǒng)會將I/O的數(shù)據(jù)緩存在文件系統(tǒng)的頁緩存中罚舱,即數(shù)據(jù)會先被拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)中管闷,然后才會從操作系統(tǒng)內(nèi)核的緩沖區(qū)拷貝到應(yīng)用程序的地址空間包个。

2碧囊、IO多路復(fù)用(multiplexing)解決什么問題

2.1、一個現(xiàn)實生活中的問題

假設(shè)你是一個機場的空管熄驼, 你需要管理到你機場的所有的航線瓜贾, 包括進港祭芦,出港, 有些航班需要放到停機坪等待咸灿,有些航班需要去登機口接乘客避矢。

你會怎么做?

最簡單的做法亥宿,就是你去招一大批空管員烫扼,然后每人盯一架飛機映企, 從進港,接客双絮,排位囤攀,出港焚挠,航線監(jiān)控,直至交接給下一個空港,全程監(jiān)控叉信。

那么問題就來了:

  • 很快你就發(fā)現(xiàn)空管塔里面聚集起來一大票的空管員,交通稍微繁忙一點佳遂,新的空管員就已經(jīng)擠不進來了丑罪。

  • 空管員之間需要協(xié)調(diào),屋子里面就1, 2個人的時候還好吩屹,幾十號人以后 跪另,基本上就成菜市場了。

  • 空管員經(jīng)常需要更新一些公用的東西煤搜,比如起飛顯示屏免绿,比如下一個小時后的出港排期,最后你會很驚奇的發(fā)現(xiàn)擦盾,每個人的時間最后都花在了搶這些資源上。

現(xiàn)實上我們的空管同時管幾十架飛機稀松平常的事情迹卢, 他們怎么做的呢距淫?
他們用這個東西

這個東西叫flight progress strip. 每一個塊代表一個航班,不同的槽代表不同的狀態(tài)婶希,然后一個空管員可以管理一組這樣的塊(一組航班)榕暇,而他的工作,就是在航班信息有新的更新的時候喻杈,把對應(yīng)的塊放到不同的槽子里面彤枢。

這個東西現(xiàn)在還沒有淘汰哦,只是變成電子的了而已筒饰。锅铅。

是不是覺得一下子效率高了很多执桌,一個空管塔里可以調(diào)度的航線可以是前一種方法的幾倍到幾十倍。

如果你把每一個航線當成一個Sock(I/O 流), 空管當成你的服務(wù)端Sock管理代碼的話.

第一種方法就是最傳統(tǒng)的多進程并發(fā)模型 (每進來一個新的I/O流會分配一個新的進程管理。)
第二種方法就是I/O多路復(fù)用 (單個線程玫膀,通過記錄跟蹤每個I/O流(sock)的狀態(tài),來同時管理多個I/O流 宿亡。)

其實“I/O多路復(fù)用”這個坑爹翻譯可能是這個概念在中文里面如此難理解的原因凑耻。所謂的I/O多路復(fù)用在英文中其實叫 I/O multiplexing. 如果你搜索multiplexing啥意思,基本上都會出這個圖:

image

于是大部分人都直接聯(lián)想到"一根網(wǎng)線攒钳,多個sock復(fù)用" 這個概念帮孔,包括上面的幾個回答, 其實不管你用多進程還是I/O多路復(fù)用不撑, 網(wǎng)線都只有一根好伐文兢。多個Sock復(fù)用一根網(wǎng)線這個功能是在內(nèi)核+驅(qū)動層實現(xiàn)的

重要的事情再說一遍: I/O multiplexing 這里面的 multiplexing 指的其實是在單個線程通過記錄跟蹤每一個Sock(I/O流)的狀態(tài)(對應(yīng)空管塔里面的Fight progress strip槽)來同時管理多個I/O流.
發(fā)明它的原因焕檬,是盡量多的提高服務(wù)器的吞吐能力姆坚。

是不是聽起來好拗口,看個圖就懂了.

在同一個線程里面实愚, 通過撥開關(guān)的方式兼呵,來同時傳輸多個I/O流兔辅, (學過EE的人現(xiàn)在可以站出來義正嚴辭說這個叫“時分復(fù)用”了)。

什么萍程,你還沒有搞懂“一個請求到來了幢妄,nginx使用epoll接收請求的過程是怎樣的”, 多看看這個圖就了解了茫负。提醒下蕉鸳,ngnix會有很多鏈接進來, epoll會把他們都監(jiān)視起來忍法,然后像撥開關(guān)一樣潮尝,誰有數(shù)據(jù)就撥向誰,然后調(diào)用相應(yīng)的代碼處理饿序。

了解這個基本的概念以后勉失,其他的就很好解釋了。

1.2 IO多路復(fù)用的歷史

select, poll, epoll 都是I/O多路復(fù)用的具體的實現(xiàn)原探,之所以有這三個鬼存在乱凿,其實是他們出現(xiàn)是有先后順序的。

I/O多路復(fù)用這個概念被提出來以后咽弦, select是第一個實現(xiàn) (1983 左右在BSD里面實現(xiàn)的)徒蟆。

select

select 被實現(xiàn)以后,很快就暴露出了很多問題型型。

  • select 會修改傳入的參數(shù)數(shù)組段审,這個對于一個需要調(diào)用很多次的函數(shù),是非常不友好的闹蒜。

  • select 如果任何一個sock(I/O stream)出現(xiàn)了數(shù)據(jù)寺枉,select 僅僅會返回,但是并不會告訴你是那個sock上有數(shù)據(jù)绷落,于是你只能自己一個一個的找姥闪,10幾個sock可能還好,要是幾萬的sock每次都找一遍嘱函,這個無謂的開銷就頗有海天盛筵的豪氣了甘畅。

  • select 只能監(jiān)視1024個鏈接, 這個跟草榴沒啥關(guān)系哦往弓,linux 定義在頭文件中的,參見FD_SETSIZE蓄氧。

  • select 不是線程安全的函似,如果你把一個sock加入到select, 然后突然另外一個線程發(fā)現(xiàn),尼瑪喉童,這個sock不用撇寞,要收回。對不起,這個select 不支持的蔑担,如果你喪心病狂的竟然關(guān)掉這個sock, select的標準行為是牌废。。呃啤握。鸟缕。不可預(yù)測的, 這個可是寫在文檔中的哦.

“If a file descriptor being monitored by select() is closed in another thread, the result is unspecified”
霸不霸氣

poll

于是14年以后(1997年)一幫人又實現(xiàn)了poll, poll 修復(fù)了select的很多問題排抬,比如

  • poll 去掉了1024個鏈接的限制懂从,于是要多少鏈接呢, 主人你開心就好蹲蒲。

  • poll 從設(shè)計上來說番甩,不再修改傳入數(shù)組,不過這個要看你的平臺了届搁,所以行走江湖缘薛,還是小心為妙。

其實拖14年那么久也不是效率問題卡睦, 而是那個時代的硬件實在太弱宴胧,一臺服務(wù)器處理1千多個鏈接簡直就是神一樣的存在了,select很長段時間已經(jīng)滿足需求么翰。

但是poll仍然不是線程安全的牺汤, 這就意味著,不管服務(wù)器有多強悍浩嫌,你也只能在一個線程里面處理一組I/O流檐迟。你當然可以那多進程來配合了,不過然后你就有了多進程的各種問題码耐。

select/poll的幾大缺點
1追迟、每次調(diào)用select/poll,都需要把fd集合用戶態(tài)拷貝到內(nèi)核態(tài)骚腥,這個開銷在fd很多時會很大
2敦间、同時每次調(diào)用select/poll都需要在內(nèi)核遍歷傳遞進來的所有fd,這個開銷在fd很多時也很大
3束铭、針對select支持的文件描述符數(shù)量太小了廓块,默認是1024
4.select返回的是含有整個句柄的數(shù)組,應(yīng)用程序需要遍歷整個數(shù)組才能發(fā)現(xiàn)哪些句柄發(fā)生了事件契沫;
5.select的觸發(fā)方式是水平觸發(fā)带猴。(個人理解:如交易系統(tǒng)每筆交易會觸發(fā)一次,一次就是把所有fd集合從用戶態(tài)拷貝到內(nèi)核態(tài)懈万,所有表示select觸發(fā)頻率也很高)

epoll

于是5年以后, 在2002, 大神 Davide Libenzi 實現(xiàn)了epoll.

epoll 可以說是I/O 多路復(fù)用最新的一個實現(xiàn)拴清,epoll 修復(fù)了poll 和select絕大部分問題, 比如:

  • epoll 現(xiàn)在是線程安全的靶病。

  • epoll 現(xiàn)在不僅告訴你sock組里面數(shù)據(jù),還會告訴你具體哪個sock有數(shù)據(jù)口予,你不用自己去找了娄周。

epoll 當年的patch,現(xiàn)在還在沪停,下面鏈接可以看得到:
/dev/epoll Home Page

貼一張霸氣的圖煤辨,看看當年神一樣的性能(測試代碼都是死鏈了, 如果有人可以刨墳找出來牙甫,可以研究下細節(jié)怎么測的).

橫軸Dead connections 就是鏈接數(shù)的意思掷酗,叫這個名字只是它的測試工具叫deadcon. 縱軸是每秒處理請求的數(shù)量,你可以看到窟哺,epoll每秒處理請求的數(shù)量基本不會隨著鏈接變多而下降的泻轰。poll 和/dev/poll 就很慘了。

可是epoll 有個致命的缺點且轨。浮声。只有l(wèi)inux支持。比如BSD上面對應(yīng)的實現(xiàn)是kqueue旋奢。

其實有些國內(nèi)知名廠商把epoll從安卓里面裁掉這種腦殘的事情我會主動告訴你嘛泳挥。什么,你說沒人用安卓做服務(wù)器至朗,尼瑪你是看不起p2p軟件了啦屉符。

而ngnix 的設(shè)計原則里面, 它會使用目標平臺上面最高效的I/O多路復(fù)用模型咯锹引,所以才會有這個設(shè)置矗钟。一般情況下,如果可能的話嫌变,盡量都用epoll/kqueue吧吨艇。

詳細的在這里:
Connection processing methods

PS: 上面所有這些比較分析,都建立在大并發(fā)下面腾啥,如果你的并發(fā)數(shù)太少东涡,用哪個,其實都沒有區(qū)別倘待。 如果像是在歐朋數(shù)據(jù)中心里面的轉(zhuǎn)碼服務(wù)器那種動不動就是幾萬幾十萬的并發(fā)疮跑,不用epoll我可以直接去撞墻了

3凸舵、解決IO多路復(fù)用(multiplexing)的三種方法-select祸挪,poll,epoll

3.1贞间、Select

我們先分析一下select函數(shù)

int select(int maxfdp1,
               fd_set *readset,
               fd_set *writeset,
               fd_set *exceptset,
               const struct timeval *timeout);

【參數(shù)說明】

  • int maxfdp1 指定待測試的文件描述字個數(shù)贿条,它的值是待測試的最大描述字加1。
  • fd_set *readset , fd_set *writeset , fd_set *exceptset
    fd_set可以理解為一個集合增热,這個集合中存放的是文件描述符(file descriptor)整以,即文件句柄。中間的三個參數(shù)指定我們要讓內(nèi)核測試讀峻仇、寫和異常條件的文件描述符集合公黑。如果對某一個的條件不感興趣,就可以把它設(shè)為空指針摄咆。
  • const struct timeval *timeout timeout告知內(nèi)核等待所指定文件描述符集合中的任何一個就緒可花多少時間凡蚜。其timeval結(jié)構(gòu)用于指定這段時間的秒數(shù)和微秒數(shù)。

【返回值】

  • int 若有就緒描述符返回其數(shù)目吭从,若超時則為0朝蜘,若出錯則為-1

【select運行機制】

select()的機制中提供一種fd_set的數(shù)據(jù)結(jié)構(gòu),實際上是一個long類型的數(shù)組涩金,每一個數(shù)組元素都能與一打開的文件句柄(不管是Socket句柄,還是其他文件或命名管道或設(shè)備句柄)建立聯(lián)系谱醇,建立聯(lián)系的工作由程序員完成,當調(diào)用select()時步做,由內(nèi)核根據(jù)IO狀態(tài)修改fd_set的內(nèi)容副渴,由此來通知執(zhí)行了select()的進程哪一Socket或文件可讀。

從流程上來看全度,使用select函數(shù)進行IO請求和同步阻塞模型沒有太大的區(qū)別煮剧,甚至還多了添加監(jiān)視socket,以及調(diào)用select函數(shù)的額外操作将鸵,效率更差勉盅。但是,使用select以后最大的優(yōu)勢是用戶可以在一個線程內(nèi)同時處理多個socket的IO請求咨堤。用戶可以注冊多個socket菇篡,然后不斷地調(diào)用select讀取被激活的socket,即可達到在同一個線程內(nèi)同時處理多個IO請求的目的一喘。而在同步阻塞模型中驱还,必須通過多線程的方式才能達到這個目的。

【select機制的問題】

  • 每次調(diào)用select凸克,都需要把fd_set集合從用戶態(tài)拷貝到內(nèi)核態(tài)议蟆,如果fd_set集合很大時,那這個開銷也很大
  • 同時每次調(diào)用select都需要在內(nèi)核遍歷傳遞進來的所有fd_set萎战,如果fd_set集合很大時咐容,那這個開銷也很大
  • 為了減少數(shù)據(jù)拷貝帶來的性能損壞,內(nèi)核對被監(jiān)控的fd_set集合大小做了限制蚂维,并且這個是通過宏控制的戳粒,大小不可改變(限制為1024)

代碼示例

#include <sys/select.h>
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
 
int main(int argc, char *argv[])
{
    fd_set rfds;
    struct timeval tv;
    int ret;
    int fd;
    
    ret = mkfifo("test_fifo", 0666); // 創(chuàng)建有名管道
    if(ret != 0){
        perror("mkfifo:");
    }
    
    fd = open("test_fifo", O_RDWR); // 讀寫方式打開管道
    if(fd < 0){
        perror("open fifo");
        return -1;
    }
    
    ret = 0;
    
    while(1){
        // 這部分內(nèi)容路狮,要放在while(1)里面
        FD_ZERO(&rfds);     // 清空
        FD_SET(0, &rfds);   // 標準輸入描述符 0 加入集合
        FD_SET(fd, &rfds);  // 有名管道描述符 fd 加入集合
        
        // 超時設(shè)置
        tv.tv_sec = 1;
        tv.tv_usec = 0;
        
        // 監(jiān)視并等待多個文件(標準輸入,有名管道)描述符的屬性變化(是否可讀)
        // 沒有屬性變化蔚约,這個函數(shù)會阻塞奄妨,直到有變化才往下執(zhí)行,這里沒有設(shè)置超時
        // FD_SETSIZE 為 <sys/select.h> 的宏定義苹祟,值為 1024
        ret = select(FD_SETSIZE, &rfds, NULL, NULL, NULL);
        //ret = select(FD_SETSIZE, &rfds, NULL, NULL, &tv);
 
        if(ret == -1){ // 出錯
            perror("select()");
        }else if(ret > 0){ // 準備就緒的文件描述符
        
            char buf[100] = {0};
            if( FD_ISSET(0, &rfds) ){ // 標準輸入
                read(0, buf, sizeof(buf));
                printf("stdin buf = %s\n", buf);
                
            }else if( FD_ISSET(fd, &rfds) ){ // 有名管道
                read(fd, buf, sizeof(buf));
                printf("fifo buf = %s\n", buf);
            }
            
        }else if(0 == ret){ // 超時
            printf("time out\n");
        }
    
    }
    
    return 0;
}

POLL

poll的機制與select類似砸抛,與select在本質(zhì)上沒有多大差別,管理多個描述符也是進行輪詢树枫,根據(jù)描述符的狀態(tài)進行處理直焙,但是poll沒有最大文件描述符數(shù)量的限制。也就是說砂轻,poll只解決了上面的問題3奔誓,并沒有解決問題1,2的性能開銷問題舔清。

【函數(shù)原型:】

int poll(struct pollfd *fds, nfds_t nfds, int timeout);

typedef struct pollfd {
        int fd;                         // 需要被檢測或選擇的文件描述符
        short events;                   // 對文件描述符fd上感興趣的事件
        short revents;                  // 文件描述符fd上當前實際發(fā)生的事件
} pollfd_t;

poll改變了文件描述符集合的描述方式丝里,使用了pollfd結(jié)構(gòu)而不是select的fd_set結(jié)構(gòu),使得poll支持的文件描述符集合限制遠大于select的1024

【參數(shù)說明】

  • struct pollfd *fds fds是一個struct pollfd類型的數(shù)組体谒,用于存放需要檢測其狀態(tài)的socket描述符杯聚,并且調(diào)用poll函數(shù)之后fds數(shù)組不會被清空;
    一個pollfd結(jié)構(gòu)體表示一個被監(jiān)視的文件描述符抒痒,通過傳遞fds指示 poll() 監(jiān)視多個文件描述符幌绍。其中,結(jié)構(gòu)體的events域是監(jiān)視該文件描述符的事件掩碼故响,由用戶來設(shè)置這個域傀广,結(jié)構(gòu)體的revents域是文件描述符的操作結(jié)果事件掩碼,內(nèi)核在調(diào)用返回時設(shè)置這個域

  • nfds_t nfds 記錄數(shù)組fds中描述符的總數(shù)量

【返回值】

int 函數(shù)返回fds集合中就緒的讀彩届、寫伪冰,或出錯的描述符數(shù)量,返回0表示超時樟蠕,返回-1表示出錯贮聂;

代碼示例

#include <poll.h>
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
 
int main(int argc, char *argv[])
{
 
    int ret;
    int fd;
    struct pollfd fds[2]; // 監(jiān)視文件描述符結(jié)構(gòu)體,2 個元素
    
    ret = mkfifo("test_fifo", 0666); // 創(chuàng)建有名管道
    if(ret != 0){
        perror("mkfifo:");
    }
    
    fd = open("test_fifo", O_RDWR); // 讀寫方式打開管道
    if(fd < 0){
        perror("open fifo");
        return -1;
    }
    
    ret = 0;
    
    fds[0].fd = 0;   // 標準輸入
    fds[1].fd = fd;  // 有名管道
        
    fds[0].events = POLLIN; // 普通或優(yōu)先級帶數(shù)據(jù)可讀
    fds[1].events = POLLIN; // 普通或優(yōu)先級帶數(shù)據(jù)可讀
    
    while(1){
    
        // 監(jiān)視并等待多個文件(標準輸入寨辩,有名管道)描述符的屬性變化(是否可讀)
        // 沒有屬性變化吓懈,這個函數(shù)會阻塞,直到有變化才往下執(zhí)行靡狞,這里沒有設(shè)置超時
        ret = poll(fds, 2, -1);
        //ret = poll(&fd, 2, 1000);
 
        if(ret == -1){ // 出錯
            perror("poll()");
        }else if(ret > 0){ // 準備就緒的文件描述符
        
            char buf[100] = {0};
            if( ( fds[0].revents & POLLIN ) ==  POLLIN ){ // 標準輸入
                read(0, buf, sizeof(buf));
                printf("stdin buf = %s\n", buf);
                
            }else if( ( fds[1].revents & POLLIN ) ==  POLLIN ){ // 有名管道
                read(fd, buf, sizeof(buf));
                printf("fifo buf = %s\n", buf);
            }
            
        }else if(0 == ret){ // 超時
            printf("time out\n");
        }
    
    }
    
    return 0;
}

Epoll

epoll在Linux2.6內(nèi)核正式提出耻警,是基于事件驅(qū)動的I/O方式,相對于select來說,epoll沒有描述符個數(shù)限制甘穿,使用一個文件描述符管理多個描述符腮恩,將用戶關(guān)心的文件描述符的事件存放到內(nèi)核的一個事件表中,這樣在用戶空間和內(nèi)核空間的copy只需一次扒磁。

Linux中提供的epoll相關(guān)函數(shù)如下:

int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
  1. epoll_create 函數(shù)創(chuàng)建一個epoll句柄庆揪,參數(shù)size表明內(nèi)核要監(jiān)聽的描述符數(shù)量。調(diào)用成功時返回一個epoll句柄描述符妨托,失敗時返回-1。

  2. epoll_ctl 函數(shù)注冊要監(jiān)聽的事件類型吝羞。四個參數(shù)解釋如下:

  • epfd 表示epoll句柄
  • op 表示fd操作類型兰伤,有如下3種
    EPOLL_CTL_ADD 注冊新的fd到epfd中
    EPOLL_CTL_MOD 修改已注冊的fd的監(jiān)聽事件
    EPOLL_CTL_DEL 從epfd中刪除一個fd
  • fd 是要監(jiān)聽的描述符
  • event 表示要監(jiān)聽的事件
    epoll_event 結(jié)構(gòu)體定義如下:
struct epoll_event {
    __uint32_t events;  /* Epoll events */
    epoll_data_t data;  /* User data variable */
};

typedef union epoll_data {
    void *ptr;
    int fd;
    __uint32_t u32;
    __uint64_t u64;
} epoll_data_t;
  1. epoll_wait 函數(shù)等待事件的就緒,成功時返回就緒的事件數(shù)目钧排,調(diào)用失敗時返回 -1敦腔,等待超時返回 0。
  • epfd 是epoll句柄
  • events 表示從內(nèi)核得到的就緒事件集合
  • maxevents 告訴內(nèi)核events的大小
  • timeout 表示等待的超時事件

epoll是Linux內(nèi)核為處理大批量文件描述符而作了改進的poll恨溜,是Linux下多路復(fù)用IO接口select/poll的增強版本符衔,它能顯著提高程序在大量并發(fā)連接中只有少量活躍的情況下的系統(tǒng)CPU利用率。原因就是獲取事件的時候糟袁,它無須遍歷整個被偵聽的描述符集判族,只要遍歷那些被內(nèi)核IO事件異步喚醒而加入Ready隊列的描述符集合就行了。

epoll除了提供select/poll那種IO事件的水平觸發(fā)(Level Triggered)外项戴,還提供了邊緣觸發(fā)(Edge Triggered)形帮,這就使得用戶空間程序有可能緩存IO狀態(tài),減少epoll_wait/epoll_pwait的調(diào)用周叮,提高應(yīng)用程序效率辩撑。

  • 水平觸發(fā)(LT):默認工作模式,即當epoll_wait檢測到某描述符事件就緒并通知應(yīng)用程序時仿耽,應(yīng)用程序可以不立即處理該事件合冀;下次調(diào)用epoll_wait時,會再次通知此事件
  • 邊緣觸發(fā)(ET): 當epoll_wait檢測到某描述符事件就緒并通知應(yīng)用程序時项贺,應(yīng)用程序必須立即處理該事件君躺。如果不處理,下次調(diào)用epoll_wait時敬扛,不會再次通知此事件晰洒。(直到你做了某些操作導(dǎo)致該描述符變成未就緒狀態(tài)了,也就是說邊緣觸發(fā)只在狀態(tài)由未就緒變?yōu)榫途w時只通知一次)啥箭。

LT和ET原本應(yīng)該是用于脈沖信號的谍珊,可能用它來解釋更加形象。Level和Edge指的就是觸發(fā)點急侥,Level為只要處于水平砌滞,那么就一直觸發(fā)侮邀,而Edge則為上升沿和下降沿的時候觸發(fā)。比如:0->1 就是Edge贝润,1->1 就是Level绊茧。

ET模式很大程度上減少了epoll事件的觸發(fā)次數(shù),因此效率比LT模式下高打掘。

代碼示例

#include <sys/epoll.h>
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <stdlib.h>
 
int main(int argc, char *argv[])
{
 
    int ret;
    int fd;
    
    ret = mkfifo("test_fifo", 0666); // 創(chuàng)建有名管道
    if(ret != 0){
        perror("mkfifo:");
    }
    
    fd = open("test_fifo", O_RDWR); // 讀寫方式打開管道
    if(fd < 0){
        perror("open fifo");
        return -1;
    }
    
    ret = 0;
    struct epoll_event event;   // 告訴內(nèi)核要監(jiān)聽什么事件
    struct epoll_event wait_event;
    
    
    int epfd = epoll_create(10); // 創(chuàng)建一個 epoll 的句柄华畏,參數(shù)要大于 0, 沒有太大意義
    if( -1 == epfd ){
        perror ("epoll_create");
        return -1;
    }
    
    event.data.fd = 0;     // 標準輸入
    event.events = EPOLLIN; // 表示對應(yīng)的文件描述符可以讀
    
    // 事件注冊函數(shù)尊蚁,將標準輸入描述符 0 加入監(jiān)聽事件
    ret = epoll_ctl(epfd, EPOLL_CTL_ADD, 0, &event);
    if(-1 == ret){
        perror("epoll_ctl");
        return -1;
    }
    
    event.data.fd = fd;     // 有名管道
    event.events = EPOLLIN; // 表示對應(yīng)的文件描述符可以讀
    
    // 事件注冊函數(shù)亡笑,將有名管道描述符 fd 加入監(jiān)聽事件
    ret = epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &event);
    if(-1 == ret){
        perror("epoll_ctl");
        return -1;
    }
    
    ret = 0;
    
    while(1){
        
    
        // 監(jiān)視并等待多個文件(標準輸入,有名管道)描述符的屬性變化(是否可讀)
        // 沒有屬性變化横朋,這個函數(shù)會阻塞仑乌,直到有變化才往下執(zhí)行,這里沒有設(shè)置超時
        ret = epoll_wait(epfd, &wait_event, 2, -1);
        //ret = epoll_wait(epfd, &wait_event, 2, 1000);
        
        if(ret == -1){ // 出錯
            close(epfd);
            perror("epoll");
        }else if(ret > 0){ // 準備就緒的文件描述符
        
            char buf[100] = {0};
            
            if( ( 0 == wait_event.data.fd ) 
            && ( EPOLLIN == wait_event.events & EPOLLIN ) ){ // 標準輸入
            
                read(0, buf, sizeof(buf));
                printf("stdin buf = %s\n", buf);
                
            }else if( ( fd == wait_event.data.fd ) 
            && ( EPOLLIN == wait_event.events & EPOLLIN ) ){ // 有名管道
            
                read(fd, buf, sizeof(buf));
                printf("fifo buf = %s\n", buf);
                
            }
            
        }else if(0 == ret){ // 超時
            printf("time out\n");
        }
    
    }
    
    close(epfd);
    
    return 0;
}

總結(jié)

一張圖總結(jié)一下select,poll,epoll的區(qū)別:

比較項 select poll epoll
操作方式 遍歷 遍歷 回調(diào)
底層實現(xiàn) 數(shù)組 鏈表 哈希表
IO效率 每次調(diào)用都進行線性遍歷琴锭,時間復(fù)雜度為O(n) 每次調(diào)用都進行線性遍歷晰甚,時間復(fù)雜度為O(n) 事件通知方式, 每當fd就緒决帖,系統(tǒng)注冊的回調(diào)函數(shù)就會被調(diào)用厕九,將就緒fd放到readyList里面,時間復(fù)雜度O(1)
最大連接數(shù) 1024(x86)或2048(x64) 無上限 無上限
fd拷貝 每次調(diào)用select古瓤,都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài) 每次調(diào)用poll止剖,都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài) 調(diào)用epoll_ctl時拷貝進內(nèi)核并保存,之后每次epoll_wait不拷貝

epoll是Linux目前大規(guī)模網(wǎng)絡(luò)并發(fā)程序開發(fā)的首選模型落君。在絕大多數(shù)情況下性能遠超select和poll穿香。目前流行的高性能web服務(wù)器Nginx正式依賴于epoll提供的高效網(wǎng)絡(luò)套接字輪詢服務(wù)。但是绎速,在并發(fā)連接不高的情況下皮获,多線程+阻塞I/O方式可能性能更好。

附錄

一句話
reactor:反應(yīng)器纹冤,有數(shù)據(jù)來了你反應(yīng)給我洒宝,我去讀
proactor:代理人,有數(shù)據(jù)來了你代理我讀好萌京,然后再通知我

1雁歌、標準定義兩種I/O多路復(fù)用模式:Reactor和Proactor
一般地,I/O多路復(fù)用機制都依賴于一個事件多路分離器(Event Demultiplexer)。分離器對象可將來自事件源的I/O事件分離出來知残,并分發(fā)到對應(yīng)的read/write事件處理器(Event Handler)靠瞎。開發(fā)人員預(yù)先注冊需要處理的事件及其事件處理器(或回調(diào)函數(shù));事件分離器負責將請求事件傳遞給事件處理器。

兩個與事件分離器有關(guān)的模式是Reactor和Proactor乏盐。
Reactor模式采用同步IO佳窑,而Proactor采用異步IO。

在Reactor中父能,事件分離器負責等待文件描述符或socket為讀寫操作準備就緒神凑,然后將就緒事件傳遞給對應(yīng)的處理器,最后由處理器負責完成實際的讀寫工作何吝。

而在Proactor模式中溉委,處理器--或者兼任處理器的事件分離器,只負責發(fā)起異步讀寫操作岔霸。IO操作本身由操作系統(tǒng)來完成薛躬。傳遞給操作系統(tǒng)的參數(shù)需要包括用戶定義的數(shù)據(jù)緩沖區(qū)地址和數(shù)據(jù)大小,操作系統(tǒng)才能從中得到寫出操作所需數(shù)據(jù)呆细,或?qū)懭霃膕ocket讀到的數(shù)據(jù)。事件分離器捕獲IO操作完成事件八匠,然后將事件傳遞給對應(yīng)處理器絮爷。比如,在windows上梨树,處理器發(fā)起一個異步IO操作坑夯,再由事件分離器等待IOCompletion事件。典型的異步模式實現(xiàn)抡四,都建立在操作系統(tǒng)支持異步API的基礎(chǔ)之上柜蜈,我們將這種實現(xiàn)稱為“系統(tǒng)級”異步或“真”異步,因為應(yīng)用程序完全依賴操作系統(tǒng)執(zhí)行真正的IO工作指巡。

舉個例子淑履,將有助于理解Reactor與Proactor二者的差異,以讀操作為例(類操作類似)藻雪。
在Reactor中實現(xiàn)讀:

  • 注冊讀就緒事件和相應(yīng)的事件處理器
  • 事件分離器等待事件
  • 事件到來秘噪,激活分離器,分離器調(diào)用事件對應(yīng)的處理器勉耀。
  • 事件處理器完成實際的讀操作指煎,處理讀到的數(shù)據(jù),注冊新的事件便斥,然后返還控制權(quán)至壤。

在Proactor中實現(xiàn)讀:

  • 處理器發(fā)起異步讀操作(注意:操作系統(tǒng)必須支持異步IO)。在這種情況下枢纠,處理器無視IO就緒事件像街,它關(guān)注的是完成事件。
  • 事件分離器等待操作完成事件
  • 在分離器等待過程中,操作系統(tǒng)利用并行的內(nèi)核線程執(zhí)行實際的讀操作宅广,并將結(jié)果數(shù)據(jù)存入用戶自定義緩沖區(qū)葫掉,最后通知事件分離器讀操作完成。
  • 事件分離器呼喚處理器跟狱。
  • 事件處理器處理用戶自定義緩沖區(qū)中的數(shù)據(jù)俭厚,然后啟動一個新的異步操作,并將控制權(quán)返回事件分離器驶臊。

可以看出

  • 兩個模式的相同點挪挤,都是對某個IO事件的事件通知(即告訴某個模塊,這個IO操作可以進行或已經(jīng)完成)关翎。在結(jié)構(gòu)上扛门,兩者也有相同點:demultiplexor負責提交IO操作(異步)、查詢設(shè)備是否可操作(同步)纵寝,然后當條件滿足時论寨,就回調(diào)handler;
  • 不同點在于爽茴,異步情況下(Proactor)葬凳,當回調(diào)handler時,表示IO操作已經(jīng)完成室奏;同步情況下(Reactor)火焰,回調(diào)handler時,表示IO設(shè)備可以進行某個操作(can read or can write)胧沫。

通俗理解使用Proactor框架和Reactor框架都可以極大的簡化網(wǎng)絡(luò)應(yīng)用的開發(fā)昌简,但它們的重點卻不同。

  • Reactor框架中用戶定義的操作是在實際操作之前調(diào)用的绒怨。比如你定義了操作是要向一個SOCKET寫數(shù)據(jù)纯赎,那么當該SOCKET可以接收數(shù)據(jù)的時候,你的操作就會被調(diào)用窖逗;
  • 而Proactor框架中用戶定義的操作是在實際操作之后調(diào)用的址否。比如你定義了一個操作要顯示從SOCKET中讀入的數(shù)據(jù),那么當讀操作完成以后碎紊,你的操作才會被調(diào)用佑附。Proactor和Reactor都是并發(fā)編程中的設(shè)計模式。

在我看來仗考,他們都是用于派發(fā)/分離IO操作事件的音同。這里所謂的IO事件也就是諸如read/write的IO操作。"派發(fā)/分離"就是將單獨的IO事件通知到上層模塊秃嗜。兩個模式不同的地方在于权均,Proactor用于異步IO顿膨,而Reactor用于同步IO。部分參考自>http://www.cnblogs.com/dawen/archive/2011/05/18/2050358.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末叽赊,一起剝皮案震驚了整個濱河市恋沃,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌必指,老刑警劉巖囊咏,帶你破解...
    沈念sama閱讀 211,948評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異塔橡,居然都是意外死亡梅割,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評論 3 385
  • 文/潘曉璐 我一進店門葛家,熙熙樓的掌柜王于貴愁眉苦臉地迎上來户辞,“玉大人,你說我怎么就攤上這事癞谒〉琢牵” “怎么了?”我有些...
    開封第一講書人閱讀 157,490評論 0 348
  • 文/不壞的土叔 我叫張陵弹砚,是天一觀的道長书蚪。 經(jīng)常有香客問我,道長迅栅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,521評論 1 284
  • 正文 為了忘掉前任晴玖,我火速辦了婚禮读存,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘呕屎。我一直安慰自己让簿,他們只是感情好,可當我...
    茶點故事閱讀 65,627評論 6 386
  • 文/花漫 我一把揭開白布秀睛。 她就那樣靜靜地躺著尔当,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蹂安。 梳的紋絲不亂的頭發(fā)上椭迎,一...
    開封第一講書人閱讀 49,842評論 1 290
  • 那天,我揣著相機與錄音田盈,去河邊找鬼畜号。 笑死,一個胖子當著我的面吹牛允瞧,可吹牛的內(nèi)容都是我干的简软。 我是一名探鬼主播蛮拔,決...
    沈念sama閱讀 38,997評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼痹升!你這毒婦竟也來了建炫?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,741評論 0 268
  • 序言:老撾萬榮一對情侶失蹤疼蛾,失蹤者是張志新(化名)和其女友劉穎肛跌,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體据过,經(jīng)...
    沈念sama閱讀 44,203評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡惋砂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,534評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了绳锅。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片西饵。...
    茶點故事閱讀 38,673評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鳞芙,靈堂內(nèi)的尸體忽然破棺而出眷柔,到底是詐尸還是另有隱情,我是刑警寧澤原朝,帶...
    沈念sama閱讀 34,339評論 4 330
  • 正文 年R本政府宣布驯嘱,位于F島的核電站,受9級特大地震影響喳坠,放射性物質(zhì)發(fā)生泄漏鞠评。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,955評論 3 313
  • 文/蒙蒙 一壕鹉、第九天 我趴在偏房一處隱蔽的房頂上張望剃幌。 院中可真熱鬧,春花似錦晾浴、人聲如沸负乡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抖棘。三九已至,卻和暖如春狸涌,著一層夾襖步出監(jiān)牢的瞬間切省,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評論 1 266
  • 我被黑心中介騙來泰國打工杈抢, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留数尿,地道東北人。 一個月前我還...
    沈念sama閱讀 46,394評論 2 360
  • 正文 我出身青樓惶楼,卻偏偏與公主長得像右蹦,于是被迫代替她去往敵國和親诊杆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,562評論 2 349

推薦閱讀更多精彩內(nèi)容