零拷貝

我們?cè)贘ava NIO,Netty壮虫,Kafka等框架中經(jīng)常見(jiàn)到零拷貝,通常作為其性能優(yōu)異的一個(gè)重要表現(xiàn)环础。

下面從 I/O 的幾個(gè)概念開(kāi)始囚似,進(jìn)而再分析零拷貝。

1线得、I/O 概念

1.1 緩沖區(qū)

緩沖區(qū)是所有 I/O 的基礎(chǔ)饶唤,I/O 講的無(wú)非就是把數(shù)據(jù)移進(jìn)或移出緩沖區(qū);進(jìn)程執(zhí)行 I/O 操作贯钩,就是向操作系統(tǒng)發(fā)出請(qǐng)求募狂,讓它要么把內(nèi)核緩沖區(qū)的數(shù)據(jù)排干(寫(xiě)),要么填充內(nèi)核緩沖區(qū)(讀)角雷。

下圖是一個(gè)java進(jìn)程發(fā)起Read請(qǐng)求的流程圖:

    1. 進(jìn)程發(fā)起 Read 請(qǐng)求之后祸穷,內(nèi)核接收到 Read 請(qǐng)求之后,會(huì)先檢查內(nèi)核空間Read緩沖區(qū)中是否已經(jīng)存在進(jìn)程所需要的數(shù)據(jù)勺三,
    • 1.1 如果已經(jīng)存在雷滚,則直接把數(shù)據(jù) Copy 給進(jìn)程的緩沖區(qū);
    • 1.2 如果不存在吗坚,內(nèi)核隨即向磁盤(pán)控制器DMA發(fā)出命令祈远,要求從磁盤(pán)讀取數(shù)據(jù),磁盤(pán)控制器DMA把數(shù)據(jù)直接寫(xiě)入內(nèi)核 Read 緩沖區(qū)商源;
    1. 接下來(lái)就是內(nèi)核將數(shù)據(jù) Copy 到進(jìn)程的緩沖區(qū)绊含;
image.png

如果進(jìn)程發(fā)起 Write 請(qǐng)求,同樣需要把用戶(hù)緩沖區(qū)里面的數(shù)據(jù) Copy 到內(nèi)核的 Socket 緩沖區(qū)里面炊汹,然后再通過(guò) DMA 把數(shù)據(jù) Copy 到網(wǎng)卡中,發(fā)送出去逃顶。

如下圖所示:

image.png

從讀寫(xiě)過(guò)程中可以很明顯的看出讨便,每次都需要把內(nèi)核空間的數(shù)據(jù)拷貝到用戶(hù)空間(讀)充甚,或者把用戶(hù)空間的數(shù)據(jù)拷貝到內(nèi)核空間(寫(xiě))中,挺浪費(fèi)空間的霸褒。

零拷貝的出現(xiàn)就是為了解決這種問(wèn)題的

1.2 虛擬內(nèi)存

所有現(xiàn)代操作系統(tǒng)都使用虛擬內(nèi)存伴找,使用虛擬的地址取代物理地址,這樣做的好處是:

  • 多個(gè)虛擬地址可以指向同一個(gè)物理內(nèi)存地址废菱。
  • 虛擬內(nèi)存空間可大于實(shí)際可用的物理地址技矮。

利用第一條特性可以把內(nèi)核空間地址和用戶(hù)空間的虛擬地址映射到同一個(gè)物理地址,這樣 DMA 就可以填充對(duì)內(nèi)核和用戶(hù)空間進(jìn)程同時(shí)可見(jiàn)的緩沖區(qū)了殊轴。

大致如下圖所示:


image.png

這樣就省去了內(nèi)核與用戶(hù)空間的往來(lái)拷貝衰倦,從而可以提升性能。

2旁理、零拷貝實(shí)現(xiàn)方式之mmap+write

mmap 是一種內(nèi)存映射文件的方法(I/O讀确恪),即將一個(gè)文件或者其他對(duì)象映射到進(jìn)程的地址空間孽文,實(shí)現(xiàn)文件磁盤(pán)地址和進(jìn)程虛擬地址空間中一段虛擬地址的一一對(duì)應(yīng)關(guān)系驻襟,就是上面所說(shuō)的虛擬內(nèi)存。

DMA加載磁盤(pán)數(shù)據(jù)到kernel buffer后芋哭,用戶(hù)buffer和內(nèi)核緩沖區(qū)(kernel buffer)進(jìn)行映射沉衣,數(shù)據(jù)在用戶(hù)緩沖區(qū)和內(nèi)核緩存區(qū)的copy就能省略。

但是如果我們是直接從磁盤(pán)讀取數(shù)據(jù)减牺,然后寫(xiě)入網(wǎng)卡時(shí)豌习,還是需要從內(nèi)核空間kernel buffer 把數(shù)據(jù)copy 到 內(nèi)核空間socket buffer。

mmap 把文件映射到用戶(hù)空間里的虛擬內(nèi)存烹植,省去了從內(nèi)核緩沖區(qū)復(fù)制到用戶(hù)空間的過(guò)程斑鸦,文件中的位置在虛擬內(nèi)存中有了對(duì)應(yīng)的地址,可以像操作內(nèi)存一樣操作這個(gè)文件草雕,相當(dāng)于已經(jīng)把整個(gè)文件放入內(nèi)存巷屿,但在真正使用到這些數(shù)據(jù)前卻不會(huì)消耗物理內(nèi)存,也不會(huì)有讀寫(xiě)磁盤(pán)的操作墩虹,只有真正使用這些數(shù)據(jù)時(shí)嘱巾,才會(huì)將這些數(shù)據(jù)copy到內(nèi)核緩存區(qū)。

應(yīng)用程序調(diào)用了mmap()之后诫钓,數(shù)據(jù)會(huì)先通過(guò)DMA拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)旬昭。接著,應(yīng)用程序跟操作系統(tǒng)共享這個(gè)緩沖區(qū)菌湃。這樣问拘,操作系統(tǒng)內(nèi)核和應(yīng)用程序存儲(chǔ)空間就不需要再進(jìn)行任何的數(shù)據(jù)拷貝操作。
也就是說(shuō)內(nèi)存映射文件MMAP只有一次頁(yè)緩存的復(fù)制,讀時(shí)從磁盤(pán)文件復(fù)制到頁(yè)緩存(page cache)骤坐,寫(xiě)時(shí)從頁(yè)緩存flush到磁盤(pán)文件绪杏,默認(rèn)30s。MMAP與操作系統(tǒng)的Pagecache打交道纽绍。

普通文件IO需要復(fù)制兩次蕾久,內(nèi)存映射文件mmap復(fù)制一次,普通文件IO是堆內(nèi)操作拌夏,內(nèi)存映射文件是堆外操作

image.png
image.png

3僧著、零拷貝實(shí)現(xiàn)方式之Sendfile

Sendfile 系統(tǒng)調(diào)用在Linux內(nèi)核版本 2.1 中被引入,目的是簡(jiǎn)化通過(guò)網(wǎng)絡(luò)在兩個(gè)通道之間進(jìn)行的數(shù)據(jù)傳輸過(guò)程障簿。

Sendfile 系統(tǒng)調(diào)用的引入盹愚,不僅減少了數(shù)據(jù)復(fù)制,還減少了上下文切換的次數(shù)卷谈,大致如下圖所示:

image.png

數(shù)據(jù)傳送只發(fā)生在內(nèi)核空間杯拐,所以減少了一次上下文切換;但是還是存在一次 Copy世蔗,能不能把這一次 Copy 也省略掉端逼?

Linux2.4 內(nèi)核中做了改進(jìn),將內(nèi)核 buffer 中對(duì)應(yīng)的數(shù)據(jù)描述信息(內(nèi)存地址污淋,偏移量)記錄到相應(yīng)的 Socket 緩沖區(qū)當(dāng)中顶滩,這樣連內(nèi)核空間中的一次 CPU Copy 也省掉了,當(dāng)DMA copy數(shù)據(jù)時(shí)寸爆,可以根據(jù)socket buffer中的內(nèi)存地址和偏移量直接從kernel buffer中讀取數(shù)據(jù)

image.png
image.png

sendfile()系統(tǒng)調(diào)用利用DMA引擎將文件中的數(shù)據(jù)拷貝到操作系統(tǒng)內(nèi)核緩沖區(qū)中礁鲁,接下來(lái),DMA引擎將數(shù)據(jù)從內(nèi)核socket緩沖區(qū)中拷貝到協(xié)議引擎

sendfile()系統(tǒng)調(diào)用不需要將數(shù)據(jù)拷貝或映射到應(yīng)用程序地址空間赁豆,所以sendfile()只適用于應(yīng)用程序地址空間不需要對(duì)所訪(fǎng)問(wèn)數(shù)據(jù)進(jìn)行處理的情況仅醇。比如apache、nginx等web服務(wù)器使用sendfile傳輸靜態(tài)文件

4魔种、Kafka中的零拷貝

Kafka中的零拷貝主要體現(xiàn)在一下兩個(gè)方面:

  • 生產(chǎn)者發(fā)送消息析二,并寫(xiě)入kafka broker節(jié)點(diǎn)的過(guò)程中,采用mmap文件映射的方式节预,DMA將網(wǎng)卡中的數(shù)據(jù)映射到kernel buffer中(即寫(xiě)入pagecache)叶摄,然后再由系統(tǒng)寫(xiě)入磁盤(pán)。
    是通過(guò)MappedByteBuffer類(lèi)實(shí)現(xiàn)的
  • 消費(fèi)者從kafka broker讀取數(shù)據(jù)時(shí)安拟,采用的是sendfile方式蛤吓,DMA將磁盤(pán)文件讀到內(nèi)核buffer之后,直接轉(zhuǎn)到socket buffer進(jìn)行網(wǎng)絡(luò)發(fā)送糠赦。

Kafka速度的秘訣在于会傲,它把所有的消息都變成一個(gè)的文件锅棕。通過(guò)mmap提高I/O速度,寫(xiě)入數(shù)據(jù)的時(shí)候它是末尾添加所以速度最優(yōu)淌山;讀取數(shù)據(jù)的時(shí)候配合sendfile直接暴力輸出

5哲戚、Netty中的零拷貝

Kafka中的零拷貝主要體現(xiàn)在一下三個(gè)方面:

  • Direct Buffers
    Netty的接收和發(fā)送ByteBuffer采用DIRECT BUFFERS,使用堆外直接內(nèi)存進(jìn)行Socket讀寫(xiě)艾岂,不需要進(jìn)行字節(jié)緩沖區(qū)的二次拷貝。如果使用傳統(tǒng)的堆內(nèi)存(HEAP BUFFERS)進(jìn)行Socket讀寫(xiě)朋其,JVM會(huì)將堆內(nèi)存Buffer拷貝一份到直接內(nèi)存中王浴,然后再由直接內(nèi)存拷貝到網(wǎng)卡接口層(Socket)。相比于堆外直接內(nèi)存梅猿,消息在發(fā)送過(guò)程中多了一次緩沖區(qū)的內(nèi)存拷貝氓辣。——類(lèi)似于Sendfile方式

  • Composite Buffers
    傳統(tǒng)的ByteBuffer袱蚓,如果需要將兩個(gè)ByteBuffer中的數(shù)據(jù)組合到一起钞啸,我們需要首先創(chuàng)建一個(gè)size=size1+size2大小的新的數(shù)組,然后將兩個(gè)數(shù)組中的數(shù)據(jù)拷貝到新的數(shù)組中喇潘。但是使用Netty提供的組合ByteBuf体斩,就可以避免這樣的操作,因?yàn)镃ompositeByteBuf并沒(méi)有真正將多個(gè)Buffer組合起來(lái)颖低,而是保存了它們的引用絮吵,從而避免了數(shù)據(jù)的拷貝,實(shí)現(xiàn)了零拷貝忱屑。

  • FileChannel.transferTo
    Netty中使用了java NIO FileChannel的transferTo方法蹬敲,該方法依賴(lài)于操作系統(tǒng)實(shí)現(xiàn)零拷貝,它可以直接將文件緩沖區(qū)的數(shù)據(jù)發(fā)送到目標(biāo)Channel(Sendfile方式)莺戒,避免了傳統(tǒng)通過(guò)循環(huán)write方式導(dǎo)致的內(nèi)存拷貝問(wèn)題伴嗡。
image.png

6、java NIO中的零拷貝——transferTo

transferTo()的實(shí)現(xiàn)方式就是通過(guò)系統(tǒng)調(diào)用sendfile()从铲,如下圖數(shù)據(jù)流向

image.png
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末瘪校,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子食店,更是在濱河造成了極大的恐慌渣淤,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吉嫩,死亡現(xiàn)場(chǎng)離奇詭異价认,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)自娩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)用踩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)渠退,“玉大人,你說(shuō)我怎么就攤上這事脐彩∷槟耍” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵惠奸,是天一觀(guān)的道長(zhǎng)梅誓。 經(jīng)常有香客問(wèn)我,道長(zhǎng)佛南,這世上最難降的妖魔是什么梗掰? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮嗅回,結(jié)果婚禮上及穗,老公的妹妹穿的比我還像新娘。我一直安慰自己绵载,他們只是感情好埂陆,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著娃豹,像睡著了一般焚虱。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上培愁,一...
    開(kāi)封第一講書(shū)人閱讀 51,488評(píng)論 1 302
  • 那天著摔,我揣著相機(jī)與錄音,去河邊找鬼定续。 笑死谍咆,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的私股。 我是一名探鬼主播摹察,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼倡鲸!你這毒婦竟也來(lái)了供嚎?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤峭状,失蹤者是張志新(化名)和其女友劉穎克滴,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體优床,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡劝赔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了胆敞。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片着帽。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡杂伟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出仍翰,到底是詐尸還是另有隱情赫粥,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布予借,位于F島的核電站越平,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏灵迫。R本人自食惡果不足惜喧笔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望龟再。 院中可真熱鬧,春花似錦尼变、人聲如沸利凑。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)哀澈。三九已至,卻和暖如春婶肩,著一層夾襖步出監(jiān)牢的瞬間葛峻,已是汗流浹背玄糟。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留适荣,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓院领,卻偏偏與公主長(zhǎng)得像弛矛,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子比然,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容