0剩失、引用?
http://www.cnblogs.com/Anker/p/3265058.html
http://janfan.github.io/chinese/2015/01/05/select-poll-impl-inside-the-kernel.html
http://blog.csdn.net/lizhiguo0532/article/details/6568957
http://blog.csdn.net/shuxiaogd/article/details/50366039
https://segmentfault.com/a/1190000003063859
1屈尼、select 函數(shù)
#define __FD_SETSIZE? ? 1024
typedef struct {
unsigned long fds_bits[__FD_SETSIZE / (8 * sizeof(long))];
} __kernel_fd_set;
typedef __kernel_fd_set? ? fd_set;
int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);
void FD_CLR(int fd, fd_set *set);
int? FD_ISSET(int fd, fd_set *set);
void FD_SET(int fd, fd_set *set);
void FD_ZERO(fd_set *set);
2、select執(zhí)行流程
1拴孤、把fd全部掃描一遍
2脾歧、如果發(fā)現(xiàn)有可用的fd,跳轉(zhuǎn)到5
3演熟、如果沒有涨椒,當(dāng)前進(jìn)程去睡眠xx秒
4、xx秒后進(jìn)程自己醒了或者fd狀態(tài)的改變喚醒了進(jìn)程绽媒,跳轉(zhuǎn)到步驟1
5蚕冬、結(jié)束循環(huán)體,返回
3是辕、select 的缺點(diǎn)
(1)每次調(diào)用select囤热,都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài),當(dāng)fd很多時(shí)這個(gè)開銷會很大
(2)同時(shí)每次調(diào)用select都需要在內(nèi)核遍歷傳遞進(jìn)來的所有fd获三,當(dāng)fd很多時(shí)這個(gè)開銷會很大
(3)select支持的文件描述符數(shù)量太小了旁蔼,默認(rèn)是1024
4、poll 的實(shí)現(xiàn)
poll的實(shí)現(xiàn)和select非常相似疙教,只是描述fd集合的方式不同棺聊,poll使用pollfd結(jié)構(gòu)而不是select的fd_set結(jié)構(gòu),其他的都差不多贞谓。
5限佩、epoll的實(shí)現(xiàn)
int epoll_create(int size);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
epoll是在2.6內(nèi)核中提出的,是之前的select和poll的增強(qiáng)版本裸弦。相對于select和poll來說祟同,epoll更加靈活,沒有描述符限制理疙。epoll使用一個(gè)文件描述符管理多個(gè)描述符晕城,將用戶關(guān)系的文件描述符的事件存放到內(nèi)核的一個(gè)事件表中,這樣在用戶空間和內(nèi)核空間的copy只需一次窖贤。
5.1. int epoll_create(int size);
創(chuàng)建一個(gè)epoll的句柄砖顷,size用來告訴內(nèi)核這個(gè)監(jiān)聽的數(shù)目一共有多大贰锁,這個(gè)參數(shù)不同于select()中的第一個(gè)參數(shù),給出最大監(jiān)聽的fd+1的值滤蝠,參數(shù)size并不是限制了epoll所能監(jiān)聽的描述符最大個(gè)數(shù)豌熄,只是對內(nèi)核初始分配內(nèi)部數(shù)據(jù)結(jié)構(gòu)的一個(gè)建議。當(dāng)創(chuàng)建好epoll句柄后几睛,它就會占用一個(gè)fd值,在linux下如果查看/proc/進(jìn)程id/fd/粤攒,是能夠看到這個(gè)fd的所森,所以在使用完epoll后,必須調(diào)用close()關(guān)閉夯接,否則可能導(dǎo)致fd被耗盡焕济。
5.2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
函數(shù)是對指定描述符fd執(zhí)行op操作盔几。
- epfd:是epoll_create()的返回值晴弃。
- op:表示op操作,用三個(gè)宏來表示:添加EPOLL_CTL_ADD逊拍,刪除EPOLL_CTL_DEL上鞠,修改EPOLL_CTL_MOD。分別添加芯丧、刪除和修改對fd的監(jiān)聽事件芍阎。
- fd:是需要監(jiān)聽的fd(文件描述符)
- epoll_event:是告訴內(nèi)核需要監(jiān)聽什么事,struct epoll_event結(jié)構(gòu)如下:
struct epoll_event {
__uint32_t events;? /* Epoll events */
epoll_data_t data;? /* User data variable */
};
//events可以是以下幾個(gè)宏的集合:
EPOLLIN :表示對應(yīng)的文件描述符可以讀(包括對端SOCKET正常關(guān)閉)缨恒;
EPOLLOUT:表示對應(yīng)的文件描述符可以寫谴咸;
EPOLLPRI:表示對應(yīng)的文件描述符有緊急的數(shù)據(jù)可讀(這里應(yīng)該表示有帶外數(shù)據(jù)到來);
EPOLLERR:表示對應(yīng)的文件描述符發(fā)生錯誤骗露;
EPOLLHUP:表示對應(yīng)的文件描述符被掛斷岭佳;
EPOLLET: 將EPOLL設(shè)為邊緣觸發(fā)(Edge Triggered)模式,這是相對于水平觸發(fā)(Level Triggered)來說的萧锉。
EPOLLONESHOT:只監(jiān)聽一次事件珊随,當(dāng)監(jiān)聽完這次事件之后,如果還需要繼續(xù)監(jiān)聽這個(gè)socket的話柿隙,需要再次把這個(gè)socket加入到EPOLL隊(duì)列里
5.3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
等待epfd上的io事件玫恳,最多返回maxevents個(gè)事件。
參數(shù)events用來從內(nèi)核得到事件的集合优俘,maxevents告之內(nèi)核這個(gè)events有多大京办,這個(gè)maxevents的值不能大于創(chuàng)建epoll_create()時(shí)的size,參數(shù)timeout是超時(shí)時(shí)間(毫秒帆焕,0會立即返回惭婿,-1將不確定不恭,也有說法說是永久阻塞)。該函數(shù)返回需要處理的事件數(shù)目财饥,如返回0表示已超時(shí)换吧。
5.4 epoll工作模式
epoll對文件描述符的操作有兩種模式:LT(level trigger)和ET(edge trigger)。LT模式是默認(rèn)模式钥星,LT模式與ET模式的區(qū)別如下:
LT模式:當(dāng)epoll_wait檢測到描述符事件發(fā)生并將此事件通知應(yīng)用程序沾瓦,應(yīng)用程序可以不立即處理該事件。下次調(diào)用epoll_wait時(shí)谦炒,會再次響應(yīng)應(yīng)用程序并通知此事件贯莺。
ET模式:當(dāng)epoll_wait檢測到描述符事件發(fā)生并將此事件通知應(yīng)用程序,應(yīng)用程序必須立即處理該事件宁改。如果不處理缕探,下次調(diào)用epoll_wait時(shí),不會再次響應(yīng)應(yīng)用程序并通知此事件还蹲。
1. LT模式
LT(level triggered)是缺省的工作方式爹耗,并且同時(shí)支持block和no-block socket.在這種做法中,內(nèi)核告訴你一個(gè)文件描述符是否就緒了谜喊,然后你可以對這個(gè)就緒的fd進(jìn)行IO操作潭兽。如果你不作任何操作,內(nèi)核還是會繼續(xù)通知你的斗遏。
2. ET模式
ET(edge-triggered)是高速工作方式讼溺,只支持no-block socket。在這種模式下最易,當(dāng)描述符從未就緒變?yōu)榫途w時(shí)怒坯,內(nèi)核通過epoll告訴你。然后它會假設(shè)你知道文件描述符已經(jīng)就緒藻懒,并且不會再為那個(gè)文件描述符發(fā)送更多的就緒通知剔猿,直到你做了某些操作導(dǎo)致那個(gè)文件描述符不再為就緒狀態(tài)了(比如,你在發(fā)送嬉荆,接收或者接收請求归敬,或者發(fā)送接收的數(shù)據(jù)少于一定量時(shí)導(dǎo)致了一個(gè)EWOULDBLOCK 錯誤)。但是請注意鄙早,如果一直不對這個(gè)fd作IO操作(從而導(dǎo)致它再次變成未就緒)汪茧,內(nèi)核不會發(fā)送更多的通知(only once)
ET模式在很大程度上減少了epoll事件被重復(fù)觸發(fā)的次數(shù),因此效率要比LT模式高限番。epoll工作在ET模式的時(shí)候舱污,必須使用非阻塞套接口,以避免由于一個(gè)文件句柄的阻塞讀/阻塞寫操作把處理多個(gè)文件描述符的任務(wù)餓死弥虐。
6扩灯、select /epoll?
在 select/poll中媚赖,進(jìn)程只有在調(diào)用一定的方法后,內(nèi)核才對所有監(jiān)視的文件描述符進(jìn)行掃描珠插,而epoll事先通過epoll_ctl()來注冊一 個(gè)文件描述符惧磺,一旦基于某個(gè)文件描述符就緒時(shí),內(nèi)核會采用類似callback的回調(diào)機(jī)制捻撑,迅速激活這個(gè)文件描述符磨隘,當(dāng)進(jìn)程調(diào)用epoll_wait() 時(shí)便得到通知。(此處去掉了遍歷文件描述符顾患,而是通過監(jiān)聽回調(diào)的的機(jī)制番捂。這正是epoll的魅力所在。)
epoll的優(yōu)點(diǎn)主要是一下幾個(gè)方面:
1. 監(jiān)視的描述符數(shù)量不受限制描验,它所支持的FD上限是最大可以打開文件的數(shù)目白嘁,這個(gè)數(shù)字一般遠(yuǎn)大于2048,舉個(gè)例子,在1GB內(nèi)存的機(jī)器上大約是10萬左 右坑鱼,具體數(shù)目可以cat /proc/sys/fs/file-max察看,一般來說這個(gè)數(shù)目和系統(tǒng)內(nèi)存關(guān)系很大膘流。select的最大缺點(diǎn)就是進(jìn)程打開的fd是有數(shù)量限制的。這對 于連接數(shù)量比較大的服務(wù)器來說根本不能滿足鲁沥。雖然也可以選擇多進(jìn)程的解決方案( Apache就是這樣實(shí)現(xiàn)的)呼股,不過雖然linux上面創(chuàng)建進(jìn)程的代價(jià)比較小,但仍舊是不可忽視的画恰,加上進(jìn)程間數(shù)據(jù)同步遠(yuǎn)比不上線程間同步的高效彭谁,所以也不是一種完美的方案。IO的效率不會隨著監(jiān)視fd的數(shù)量的增長而下降允扇。epoll不同于select和poll輪詢的方式缠局,而是通過每個(gè)fd定義的回調(diào)函數(shù)來實(shí)現(xiàn)的。只有就緒的fd才會執(zhí)行回調(diào)函數(shù)考润。
水平觸發(fā)狭园,只要可讀或可寫,事件會一直觸發(fā)
邊緣觸發(fā)糊治,只有從不可讀變?yōu)榭勺x唱矛、從不可寫變成可寫,事件才會觸發(fā)
基于此井辜,水平觸發(fā)绎谦,socket不需要設(shè)置為non-block,因?yàn)橹灰|發(fā)粥脚,就可以讀或?qū)憽?/p>
而對于水平觸發(fā)窃肠,事件一旦觸發(fā),需要用戶一直讀刷允,直到緩沖區(qū)數(shù)據(jù)全部讀完為止才可以铭拧,如果設(shè)置為block赃蛛,在沒有數(shù)據(jù)可讀時(shí),就block了搀菩,需要用eagain錯誤來告知用戶呕臂,數(shù)據(jù)讀完了,不用再讀了肪跋。
ET 模式是一種邊沿觸發(fā)模型歧蒋,在它檢測到有 I/O 事件時(shí),通過 epoll_wait 調(diào)用會得到有事件通知的文件描述符州既,每于每一個(gè)被通知的文件描述符谜洽,如可讀,則必須將該文件描述符一直讀到空吴叶,讓 errno 返回 EAGAIN 為止阐虚,否則下次的 epoll_wait 不會返