高性能IO模型淺析
服務器端編程經常需要構造高性能的IO模型芳誓,常見的IO模型有四種:
(1)同步阻塞IO(Blocking?IO):即傳統(tǒng)的IO模型。
(2)同步非阻塞IO(Non-blocking?IO):默認創(chuàng)建的socket都是阻塞的纲爸,非阻塞IO要求socket被設置為NONBLOCK。注意這里所說的NIO并非Java的NIO(New?IO)庫。
(3)IO多路復用(IO?Multiplexing):即經典的Reactor設計模式状飞,有時也稱為異步阻塞IO,Java中的Selector和Linux中的epoll都是這種模型书斜。
(4)異步IO(Asynchronous?IO):即經典的Proactor設計模式诬辈,也稱為異步非阻塞IO。
同步和異步的概念描述的是用戶線程與內核的交互方式:同步是指用戶線程發(fā)起IO請求后需要等待或者輪詢內核IO操作完成后才能繼續(xù)執(zhí)行荐吉;而異步是指用戶線程發(fā)起IO請求后仍繼續(xù)執(zhí)行焙糟,當內核IO操作完成后會通知用戶線程,或者調用用戶線程注冊的回調函數(shù)样屠。
阻塞和非阻塞的概念描述的是用戶線程調用內核IO操作的方式:阻塞是指IO操作需要徹底完成后才返回到用戶空間穿撮;而非阻塞是指IO操作被調用后立即返回給用戶一個狀態(tài)值,無需等到IO操作徹底完成瞧哟。
另外混巧,Richard?Stevens在《Unix?網絡編程》卷1中提到的基于信號驅動的IO(Signal?Driven?IO)模型,由于該模型并不常用勤揩,本文不作涉及咧党。接下來,我們詳細分析四種常見的IO模型的實現(xiàn)原理陨亡。為了方便描述傍衡,我們統(tǒng)一使用IO的讀操作作為示例。
一负蠕、同步阻塞IO
同步阻塞IO模型是最簡單的IO模型蛙埂,用戶線程在內核進行IO操作時被阻塞。
圖1?同步阻塞IO
如圖1所示遮糖,用戶線程通過系統(tǒng)調用read發(fā)起IO讀操作绣的,由用戶空間轉到內核空間。內核等到數(shù)據(jù)包到達后欲账,然后將接收的數(shù)據(jù)拷貝到用戶空間屡江,完成read操作。
用戶線程使用同步阻塞IO模型的偽代碼描述為:
{
????read(socket,?buffer);
????process(buffer);
}
即用戶需要等待read將socket中的數(shù)據(jù)讀取到buffer后赛不,才繼續(xù)處理接收的數(shù)據(jù)惩嘉。整個IO請求的過程中,用戶線程是被阻塞的踢故,這導致用戶在發(fā)起IO請求時文黎,不能做任何事情惹苗,對CPU的資源利用率不夠。
二耸峭、同步非阻塞IO
同步非阻塞IO是在同步阻塞IO的基礎上桩蓉,將socket設置為NONBLOCK。這樣做用戶線程可以在發(fā)起IO請求后可以立即返回抓艳。
圖2?同步非阻塞IO
如圖2所示触机,由于socket是非阻塞的方式,因此用戶線程發(fā)起IO請求時立即返回玷或。但并未讀取到任何數(shù)據(jù),用戶線程需要不斷地發(fā)起IO請求片任,直到數(shù)據(jù)到達后偏友,才真正讀取到數(shù)據(jù),繼續(xù)執(zhí)行对供。
用戶線程使用同步非阻塞IO模型的偽代碼描述為:
{
????while(read(socket,?buffer)!=?SUCCESS);
????process(buffer);
}
即用戶需要不斷地調用read位他,嘗試讀取socket中的數(shù)據(jù),直到讀取成功后产场,才繼續(xù)處理接收的數(shù)據(jù)鹅髓。整個IO請求的過程中,雖然用戶線程每次發(fā)起IO請求后可以立即返回京景,但是為了等到數(shù)據(jù)窿冯,仍需要不斷地輪詢、重復請求确徙,消耗了大量的CPU的資源醒串。一般很少直接使用這種模型,而是在其他IO模型中使用非阻塞IO這一特性鄙皇。
三芜赌、IO多路復用
IO多路復用模型是建立在內核提供的多路分離函數(shù)select基礎之上的,使用select函數(shù)可以避免同步非阻塞IO模型中輪詢等待的問題伴逸。
圖3?多路分離函數(shù)select
如圖3所示缠沈,用戶首先將需要進行IO操作的socket添加到select中,然后阻塞等待select系統(tǒng)調用返回错蝴。當數(shù)據(jù)到達時洲愤,socket被激活,select函數(shù)返回漱竖。用戶線程正式發(fā)起read請求禽篱,讀取數(shù)據(jù)并繼續(xù)執(zhí)行。
從流程上來看馍惹,使用select函數(shù)進行IO請求和同步阻塞模型沒有太大的區(qū)別躺率,甚至還多了添加監(jiān)視socket玛界,以及調用select函數(shù)的額外操作,效率更差悼吱。但是慎框,使用select以后最大的優(yōu)勢是用戶可以在一個線程內同時處理多個socket的IO請求。用戶可以注冊多個socket后添,然后不斷地調用select讀取被激活的socket笨枯,即可達到在同一個線程內同時處理多個IO請求的目的。而在同步阻塞模型中遇西,必須通過多線程的方式才能達到這個目的馅精。
用戶線程使用select函數(shù)的偽代碼描述為:
{
????select(socket);
????while(1){
????????sockets?=?select();
????????????for(socket?in?sockets)?{
????????????????if(can_read(socket))?{
????????????????????read(socket,?buffer);
????????????????????process(buffer);
????????????????}
????????????}
????}
}
其中while循環(huán)前將socket添加到select監(jiān)視中,然后在while內一直調用select獲取被激活的socket粱檀,一旦socket可讀洲敢,便調用read函數(shù)將socket中的數(shù)據(jù)讀取出來。
然而茄蚯,使用select函數(shù)的優(yōu)點并不僅限于此压彭。雖然上述方式允許單線程內處理多個IO請求,但是每個IO請求的過程還是阻塞的(在select函數(shù)上阻塞)渗常,平均時間甚至比同步阻塞IO模型還要長壮不。如果用戶線程只注冊自己感興趣的socket或者IO請求,然后去做自己的事情皱碘,等到數(shù)據(jù)到來時再進行處理询一,則可以提高CPU的利用率。
IO多路復用模型使用了Reactor設計模式實現(xiàn)了這一機制尸执。
圖4?Reactor設計模式
如圖4所示家凯,EventHandler抽象類表示IO事件處理器,它擁有IO文件句柄Handle(通過get_handle獲热缡А)绊诲,以及對Handle的操作handle_event(讀/寫等)。繼承于EventHandler的子類可以對事件處理器的行為進行定制褪贵。Reactor類用于管理EventHandler(注冊掂之、刪除等),并使用handle_events實現(xiàn)事件循環(huán)脆丁,不斷調用同步事件多路分離器(一般是內核)的多路分離函數(shù)select世舰,只要某個文件句柄被激活(可讀/寫等),select就返回(阻塞)槽卫,handle_events就會調用與文件句柄關聯(lián)的事件處理器的handle_event進行相關操作跟压。
圖5?IO多路復用
如圖5所示,通過Reactor的方式歼培,可以將用戶線程輪詢IO操作狀態(tài)的工作統(tǒng)一交給handle_events事件循環(huán)進行處理震蒋。用戶線程注冊事件處理器之后可以繼續(xù)執(zhí)行做其他的工作(異步)茸塞,而Reactor線程負責調用內核的select函數(shù)檢查socket狀態(tài)。當有socket被激活時查剖,則通知相應的用戶線程(或執(zhí)行用戶線程的回調函數(shù))钾虐,執(zhí)行handle_event進行數(shù)據(jù)讀取、處理的工作笋庄。由于select函數(shù)是阻塞的效扫,因此多路IO復用模型也被稱為異步阻塞IO模型。注意直砂,這里的所說的阻塞是指select函數(shù)執(zhí)行時線程被阻塞菌仁,而不是指socket。一般在使用IO多路復用模型時哆键,socket都是設置為NONBLOCK的掘托,不過這并不會產生影響,因為用戶發(fā)起IO請求時籍嘹,數(shù)據(jù)已經到達了,用戶線程一定不會被阻塞弯院。
用戶線程使用IO多路復用模型的偽代碼描述為:
void?UserEventHandler::handle_event()?{
????if(can_read(socket))?{
????????read(socket,?buffer);
????????process(buffer);
????}
}
{
????Reactor.register(new?UserEventHandler(socket));
}
用戶需要重寫EventHandler的handle_event函數(shù)進行讀取數(shù)據(jù)辱士、處理數(shù)據(jù)的工作,用戶線程只需要將自己的EventHandler注冊到Reactor即可听绳。Reactor中handle_events事件循環(huán)的偽代碼大致如下颂碘。
Reactor::handle_events()?{
????while(1)?{
????????sockets?=?select();
????????for(socket?in?sockets)?{
????????????get_event_handler(socket).handle_event();
? ? ? ? ? ? }
? ? ? ?}
? ?}
事件循環(huán)不斷地調用select獲取被激活的socket,然后根據(jù)獲取socket對應的EventHandler椅挣,執(zhí)行器handle_event函數(shù)即可头岔。
IO多路復用是最常使用的IO模型,但是其異步程度還不夠“徹底”鼠证,因為它使用了會阻塞線程的select系統(tǒng)調用峡竣。因此IO多路復用只能稱為異步阻塞IO,而非真正的異步IO量九。
四适掰、異步IO
“真正”的異步IO需要操作系統(tǒng)更強的支持。在IO多路復用模型中荠列,事件循環(huán)將文件句柄的狀態(tài)事件通知給用戶線程类浪,由用戶線程自行讀取數(shù)據(jù)、處理數(shù)據(jù)肌似。而在異步IO模型中费就,當用戶線程收到通知時,數(shù)據(jù)已經被內核讀取完畢川队,并放在了用戶線程指定的緩沖區(qū)內力细,內核在IO完成后通知用戶線程直接使用即可睬澡。
異步IO模型使用了Proactor設計模式實現(xiàn)了這一機制。
圖6?Proactor設計模式
如圖6艳汽,Proactor模式和Reactor模式在結構上比較相似猴贰,不過在用戶(Client)使用方式上差別較大。Reactor模式中河狐,用戶線程通過向Reactor對象注冊感興趣的事件監(jiān)聽米绕,然后事件觸發(fā)時調用事件處理函數(shù)。而Proactor模式中馋艺,用戶線程將AsynchronousOperation(讀/寫等)栅干、Proactor以及操作完成時的CompletionHandler注冊到AsynchronousOperationProcessor。AsynchronousOperationProcessor使用Facade模式提供了一組異步操作API(讀/寫等)供用戶使用捐祠,當用戶線程調用異步API后碱鳞,便繼續(xù)執(zhí)行自己的任務。AsynchronousOperationProcessor?會開啟獨立的內核線程執(zhí)行異步操作踱蛀,實現(xiàn)真正的異步窿给。當異步IO操作完成時,AsynchronousOperationProcessor將用戶線程與AsynchronousOperation一起注冊的Proactor和CompletionHandler取出率拒,然后將CompletionHandler與IO操作的結果數(shù)據(jù)一起轉發(fā)給Proactor崩泡,Proactor負責回調每一個異步操作的事件完成處理函數(shù)handle_event。雖然Proactor模式中每個異步操作都可以綁定一個Proactor對象猬膨,但是一般在操作系統(tǒng)中角撞,Proactor被實現(xiàn)為Singleton模式,以便于集中化分發(fā)操作完成事件勃痴。
圖7?異步IO
如圖7所示谒所,異步IO模型中,用戶線程直接使用內核提供的異步IO?API發(fā)起read請求沛申,且發(fā)起后立即返回劣领,繼續(xù)執(zhí)行用戶線程代碼。不過此時用戶線程已經將調用的AsynchronousOperation和CompletionHandler注冊到內核污它,然后操作系統(tǒng)開啟獨立的內核線程去處理IO操作剖踊。當read請求的數(shù)據(jù)到達時,由內核負責讀取socket中的數(shù)據(jù)衫贬,并寫入用戶指定的緩沖區(qū)中德澈。最后內核將read的數(shù)據(jù)和用戶線程注冊的CompletionHandler分發(fā)給內部Proactor,Proactor將IO完成的信息通知給用戶線程(一般通過調用用戶線程注冊的完成事件處理函數(shù))固惯,完成異步IO梆造。
用戶線程使用異步IO模型的偽代碼描述為:
void?UserCompletionHandler::handle_event(buffer)?{
????process(buffer);
}
{
????aio_read(socket,?new?UserCompletionHandler);
}
用戶需要重寫CompletionHandler的handle_event函數(shù)進行處理數(shù)據(jù)的工作,參數(shù)buffer表示Proactor已經準備好的數(shù)據(jù),用戶線程直接調用內核提供的異步IO?API镇辉,并將重寫的CompletionHandler注冊即可屡穗。
相比于IO多路復用模型,異步IO并不十分常用忽肛,不少高性能并發(fā)服務程序使用IO多路復用模型+多線程任務處理的架構基本可以滿足需求村砂。況且目前操作系統(tǒng)對異步IO的支持并非特別完善,更多的是采用IO多路復用模型模擬異步IO的方式(IO事件觸發(fā)時不直接通知用戶線程屹逛,而是將數(shù)據(jù)讀寫完畢后放到用戶指定的緩沖區(qū)中)础废。Java7之后已經支持了異步IO,感興趣的讀者可以嘗試使用罕模。