我們?cè)贘ava NIO,Netty壮虫,Kafka等框架中經(jīng)常見(jiàn)到零拷貝,通常作為其性能優(yōu)異的一個(gè)重要表現(xiàn)环础。
下面從 I/O 的幾個(gè)概念開(kāi)始囚似,進(jìn)而再分析零拷貝。
1线得、I/O 概念
1.1 緩沖區(qū)
緩沖區(qū)是所有 I/O 的基礎(chǔ)饶唤,I/O 講的無(wú)非就是把數(shù)據(jù)移進(jìn)或移出緩沖區(qū);進(jìn)程執(zhí)行 I/O 操作贯钩,就是向操作系統(tǒng)發(fā)出請(qǐng)求募狂,讓它要么把內(nèi)核緩沖區(qū)的數(shù)據(jù)排干(寫(xiě)),要么填充內(nèi)核緩沖區(qū)(讀)角雷。
下圖是一個(gè)java進(jìn)程發(fā)起Read請(qǐng)求的流程圖:
-
- 進(jìn)程發(fā)起 Read 請(qǐng)求之后祸穷,內(nèi)核接收到 Read 請(qǐng)求之后,會(huì)先檢查內(nèi)核空間Read緩沖區(qū)中是否已經(jīng)存在進(jìn)程所需要的數(shù)據(jù)勺三,
- 1.1 如果已經(jīng)存在雷滚,則直接把數(shù)據(jù) Copy 給進(jìn)程的緩沖區(qū);
- 1.2 如果不存在吗坚,內(nèi)核隨即向磁盤(pán)控制器DMA發(fā)出命令祈远,要求從磁盤(pán)讀取數(shù)據(jù),磁盤(pán)控制器DMA把數(shù)據(jù)直接寫(xiě)入內(nèi)核 Read 緩沖區(qū)商源;
- 接下來(lái)就是內(nèi)核將數(shù)據(jù) Copy 到進(jìn)程的緩沖區(qū)绊含;
如果進(jìn)程發(fā)起 Write 請(qǐng)求,同樣需要把用戶(hù)緩沖區(qū)里面的數(shù)據(jù) Copy 到內(nèi)核的 Socket 緩沖區(qū)里面炊汹,然后再通過(guò) DMA 把數(shù)據(jù) Copy 到網(wǎng)卡中,發(fā)送出去逃顶。
如下圖所示:
從讀寫(xiě)過(guò)程中可以很明顯的看出讨便,每次都需要把內(nèi)核空間的數(shù)據(jù)拷貝到用戶(hù)空間(讀)充甚,或者把用戶(hù)空間的數(shù)據(jù)拷貝到內(nèi)核空間(寫(xiě))中,挺浪費(fèi)空間的霸褒。
零拷貝的出現(xiàn)就是為了解決這種問(wèn)題的
1.2 虛擬內(nèi)存
所有現(xiàn)代操作系統(tǒng)都使用虛擬內(nèi)存伴找,使用虛擬的地址取代物理地址,這樣做的好處是:
- 多個(gè)虛擬地址可以指向同一個(gè)物理內(nèi)存地址废菱。
- 虛擬內(nèi)存空間可大于實(shí)際可用的物理地址技矮。
利用第一條特性可以把內(nèi)核空間地址和用戶(hù)空間的虛擬地址映射到同一個(gè)物理地址,這樣 DMA 就可以填充對(duì)內(nèi)核和用戶(hù)空間進(jìn)程同時(shí)可見(jiàn)的緩沖區(qū)了殊轴。
大致如下圖所示:
這樣就省去了內(nèi)核與用戶(hù)空間的往來(lái)拷貝衰倦,從而可以提升性能。
2旁理、零拷貝實(shí)現(xiàn)方式之mmap+write
mmap 是一種內(nèi)存映射文件的方法(I/O讀确恪),即將一個(gè)文件或者其他對(duì)象映射到進(jìn)程的地址空間孽文,實(shí)現(xiàn)文件磁盤(pán)地址和進(jìn)程虛擬地址空間中一段虛擬地址的一一對(duì)應(yīng)關(guān)系驻襟,就是上面所說(shuō)的虛擬內(nèi)存。
DMA加載磁盤(pán)數(shù)據(jù)到kernel buffer后芋哭,用戶(hù)buffer和內(nèi)核緩沖區(qū)(kernel buffer)進(jìn)行映射沉衣,數(shù)據(jù)在用戶(hù)緩沖區(qū)和內(nèi)核緩存區(qū)的copy就能省略。
但是如果我們是直接從磁盤(pán)讀取數(shù)據(jù)减牺,然后寫(xiě)入網(wǎng)卡時(shí)豌习,還是需要從內(nèi)核空間kernel buffer 把數(shù)據(jù)copy 到 內(nèi)核空間socket buffer。
mmap 把文件映射到用戶(hù)空間里的虛擬內(nèi)存烹植,省去了從內(nèi)核緩沖區(qū)復(fù)制到用戶(hù)空間的過(guò)程斑鸦,文件中的位置在虛擬內(nèi)存中有了對(duì)應(yīng)的地址,可以像操作內(nèi)存一樣操作這個(gè)文件草雕,相當(dāng)于已經(jīng)把整個(gè)文件放入內(nèi)存巷屿,但在真正使用到這些數(shù)據(jù)前卻不會(huì)消耗物理內(nèi)存,也不會(huì)有讀寫(xiě)磁盤(pán)的操作墩虹,只有真正使用這些數(shù)據(jù)時(shí)嘱巾,才會(huì)將這些數(shù)據(jù)copy到內(nèi)核緩存區(qū)。
應(yīng)用程序調(diào)用了mmap()之后诫钓,數(shù)據(jù)會(huì)先通過(guò)DMA拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)旬昭。接著,應(yīng)用程序跟操作系統(tǒng)共享這個(gè)緩沖區(qū)菌湃。這樣问拘,操作系統(tǒng)內(nèi)核和應(yīng)用程序存儲(chǔ)空間就不需要再進(jìn)行任何的數(shù)據(jù)拷貝操作。
也就是說(shuō)內(nèi)存映射文件MMAP只有一次頁(yè)緩存的復(fù)制,讀時(shí)從磁盤(pán)文件復(fù)制到頁(yè)緩存(page cache)骤坐,寫(xiě)時(shí)從頁(yè)緩存flush到磁盤(pán)文件绪杏,默認(rèn)30s。MMAP與操作系統(tǒng)的Pagecache打交道纽绍。
普通文件IO需要復(fù)制兩次蕾久,內(nèi)存映射文件mmap復(fù)制一次,普通文件IO是堆內(nèi)操作拌夏,內(nèi)存映射文件是堆外操作
3僧著、零拷貝實(shí)現(xiàn)方式之Sendfile
Sendfile 系統(tǒng)調(diào)用在Linux內(nèi)核版本 2.1 中被引入,目的是簡(jiǎn)化通過(guò)網(wǎng)絡(luò)在兩個(gè)通道之間進(jìn)行的數(shù)據(jù)傳輸過(guò)程障簿。
Sendfile 系統(tǒng)調(diào)用的引入盹愚,不僅減少了數(shù)據(jù)復(fù)制,還減少了上下文切換的次數(shù)卷谈,大致如下圖所示:
數(shù)據(jù)傳送只發(fā)生在內(nèi)核空間杯拐,所以減少了一次上下文切換;但是還是存在一次 Copy世蔗,能不能把這一次 Copy 也省略掉端逼?
Linux2.4 內(nèi)核中做了改進(jìn),將內(nèi)核 buffer 中對(duì)應(yīng)的數(shù)據(jù)描述信息(內(nèi)存地址污淋,偏移量)記錄到相應(yīng)的 Socket 緩沖區(qū)當(dāng)中顶滩,這樣連內(nèi)核空間中的一次 CPU Copy 也省掉了,當(dāng)DMA copy數(shù)據(jù)時(shí)寸爆,可以根據(jù)socket buffer中的內(nèi)存地址和偏移量直接從kernel buffer中讀取數(shù)據(jù)
sendfile()系統(tǒng)調(diào)用利用DMA引擎將文件中的數(shù)據(jù)拷貝到操作系統(tǒng)內(nèi)核緩沖區(qū)中礁鲁,接下來(lái),DMA引擎將數(shù)據(jù)從內(nèi)核socket緩沖區(qū)中拷貝到協(xié)議引擎
sendfile()系統(tǒng)調(diào)用不需要將數(shù)據(jù)拷貝或映射到應(yīng)用程序地址空間赁豆,所以sendfile()只適用于應(yīng)用程序地址空間不需要對(duì)所訪(fǎng)問(wèn)數(shù)據(jù)進(jìn)行處理的情況仅醇。比如apache、nginx等web服務(wù)器使用sendfile傳輸靜態(tài)文件
4魔种、Kafka中的零拷貝
Kafka中的零拷貝主要體現(xiàn)在一下兩個(gè)方面:
- 生產(chǎn)者發(fā)送消息析二,并寫(xiě)入kafka broker節(jié)點(diǎn)的過(guò)程中,采用mmap文件映射的方式节预,DMA將網(wǎng)卡中的數(shù)據(jù)映射到kernel buffer中(即寫(xiě)入pagecache)叶摄,然后再由系統(tǒng)寫(xiě)入磁盤(pán)。
是通過(guò)MappedByteBuffer類(lèi)實(shí)現(xiàn)的
- 消費(fèi)者從kafka broker讀取數(shù)據(jù)時(shí)安拟,采用的是sendfile方式蛤吓,DMA將磁盤(pán)文件讀到內(nèi)核buffer之后,直接轉(zhuǎn)到socket buffer進(jìn)行網(wǎng)絡(luò)發(fā)送糠赦。
Kafka速度的秘訣在于会傲,它把所有的消息都變成一個(gè)的文件锅棕。通過(guò)mmap提高I/O速度,寫(xiě)入數(shù)據(jù)的時(shí)候它是末尾添加所以速度最優(yōu)淌山;讀取數(shù)據(jù)的時(shí)候配合sendfile直接暴力輸出
5哲戚、Netty中的零拷貝
Kafka中的零拷貝主要體現(xiàn)在一下三個(gè)方面:
Direct Buffers
Netty的接收和發(fā)送ByteBuffer采用DIRECT BUFFERS,使用堆外直接內(nèi)存進(jìn)行Socket讀寫(xiě)艾岂,不需要進(jìn)行字節(jié)緩沖區(qū)的二次拷貝。如果使用傳統(tǒng)的堆內(nèi)存(HEAP BUFFERS)進(jìn)行Socket讀寫(xiě)朋其,JVM會(huì)將堆內(nèi)存Buffer拷貝一份到直接內(nèi)存中王浴,然后再由直接內(nèi)存拷貝到網(wǎng)卡接口層(Socket)。相比于堆外直接內(nèi)存梅猿,消息在發(fā)送過(guò)程中多了一次緩沖區(qū)的內(nèi)存拷貝氓辣。——類(lèi)似于Sendfile方式Composite Buffers
傳統(tǒng)的ByteBuffer袱蚓,如果需要將兩個(gè)ByteBuffer中的數(shù)據(jù)組合到一起钞啸,我們需要首先創(chuàng)建一個(gè)size=size1+size2大小的新的數(shù)組,然后將兩個(gè)數(shù)組中的數(shù)據(jù)拷貝到新的數(shù)組中喇潘。但是使用Netty提供的組合ByteBuf体斩,就可以避免這樣的操作,因?yàn)镃ompositeByteBuf并沒(méi)有真正將多個(gè)Buffer組合起來(lái)颖低,而是保存了它們的引用絮吵,從而避免了數(shù)據(jù)的拷貝,實(shí)現(xiàn)了零拷貝忱屑。
- FileChannel.transferTo
Netty中使用了java NIO FileChannel的transferTo方法蹬敲,該方法依賴(lài)于操作系統(tǒng)實(shí)現(xiàn)零拷貝,它可以直接將文件緩沖區(qū)的數(shù)據(jù)發(fā)送到目標(biāo)Channel(Sendfile方式)莺戒,避免了傳統(tǒng)通過(guò)循環(huán)write方式導(dǎo)致的內(nèi)存拷貝問(wèn)題伴嗡。
6、java NIO中的零拷貝——transferTo
transferTo()的實(shí)現(xiàn)方式就是通過(guò)系統(tǒng)調(diào)用sendfile()从铲,如下圖數(shù)據(jù)流向