淺析零拷貝技術(shù)

1.緩沖I/O

為什么使用緩沖?

緩沖IO使用的是頁緩存,在某些條件下可以極大提高系統(tǒng)效率和屏蔽底層IO設(shè)備的差異性(如塊大小),IO設(shè)備普遍是順序讀寫性能遠(yuǎn)大于隨機(jī)讀寫性能,如果有內(nèi)核緩沖區(qū)的存在我們才采取read操作時,內(nèi)核可以設(shè)置一個較大的緩沖區(qū)充當(dāng)預(yù)讀告訴緩存,原理很簡單程序都遵循局部性原理,現(xiàn)在讀到頁a那么讀到頁a+1,a+2的可能性就很高,我們采用順序讀進(jìn)來相鄰的幾個頁就會比只讀單頁等需要讀到下個頁在讀下個頁的性能要高,對于寫操作也是如此只要寫到緩沖區(qū)就可以返回而不用同步的等待發(fā)送。把同步操作變化為異步操作,極大的提升了效率但是如果掉電有可能丟失數(shù)據(jù)溉仑。

缺點(diǎn):
需要把數(shù)據(jù)復(fù)制到內(nèi)核緩沖區(qū),寫也是如此增大了復(fù)制的開銷而且頁緩存策略不一定適合當(dāng)前應(yīng)用場景

在許多Web程序當(dāng)中都有靜態(tài)資源讀取操作,讀取大量的硬盤上的數(shù)據(jù)并寫回響應(yīng)套接字前普。
這并不是一個高效操作
代碼如下

    File.read(fileDesc, buf, len);
    Socket.send(socket, buf, len);

也就是兩個系統(tǒng)調(diào)用 read()和write()
操作步驟如下:

1.使用DMA把數(shù)據(jù)從磁盤讀到內(nèi)核的read buffer
2.將內(nèi)核態(tài)的read buffer復(fù)制到用戶態(tài)的application buffer
3.將用戶態(tài)的application buffer復(fù)制到內(nèi)核態(tài)的socket buffer
4.使用DMA把數(shù)據(jù)從socket buffer復(fù)制到NIC (network interface card)的buffer上等待合適的時機(jī)發(fā)送

可以看出上述操作有四次內(nèi)核態(tài)-用戶態(tài)的切換(兩個系統(tǒng)調(diào)用都是一進(jìn)一出所以需要四次切換),有四次復(fù)制數(shù)據(jù)

2.直接I/O

直接把數(shù)據(jù)從IO設(shè)備上讀取到用戶緩沖區(qū),打開文件時需要設(shè)置訪問模式為O_DIRECT,沒有了內(nèi)核緩沖區(qū),我們需要設(shè)置緩沖區(qū)對齊和緩沖區(qū)大小,read()和write()也都是同步操作,在調(diào)用直接IO讀取操作前需要把頁緩沖的臟頁刷回到IO設(shè)備上辈讶。優(yōu)點(diǎn)是大大提高了讀寫大量數(shù)據(jù)時的性能,減少了到內(nèi)核緩沖區(qū)的拷貝次數(shù),降低CPU、內(nèi)存開銷九妈。

缺點(diǎn):

應(yīng)用程序需要自己控制IO設(shè)備讀寫的特性,如將數(shù)據(jù)寫入磁盤因?yàn)槭峭讲僮骱苡锌赡馨褦?shù)據(jù)寫入到相隔很遠(yuǎn)的磁盤空間而浪費(fèi)大量時間,在讀取時也要自己設(shè)計緩存硬爆。

很明顯一種簡單的優(yōu)化思路是使用直接I/O,這樣可以省去內(nèi)核的緩存而優(yōu)化掉兩次復(fù)制操作

3.采用mmap

mmap可以把內(nèi)核的部分內(nèi)存空間映射到用戶空間的內(nèi)存,內(nèi)核核用戶共享一個相同的物理內(nèi)存從而提供了用戶進(jìn)程對內(nèi)存的直接訪問能力古瓤。
這樣就不需要把內(nèi)核的緩存復(fù)制回用戶空間的緩存

4.sendfile

java中的方法是java.nio.channels.FileChannel類中的transferTo

public void transferTo(long position, long count, WritableByteChannel target);

底層系統(tǒng)調(diào)用為

#include <sys/socket.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

這個方法可以將數(shù)據(jù)從可讀描述符傳送到給定的可寫描述符,in_fd必須是一個可以mmap的文件描述符,不可以是socket,而out_fd必須是socket赢织。這樣就可以把兩個系統(tǒng)調(diào)用優(yōu)化成一個從而減少兩次內(nèi)核-用戶態(tài)的切換亮靴。
復(fù)制操作減少為3次,分別是DMA把數(shù)據(jù)讀取到read_buffer,read_buffer把數(shù)據(jù)復(fù)制到socket_buffer,socket_buffer把數(shù)據(jù)復(fù)制到NIC_buffer。

linux內(nèi)核2.4之后優(yōu)化了套接字緩沖區(qū)描述符以支持收集操作,可以將一個描述符(包括數(shù)據(jù)的位置與長度信息)追加到套接字緩沖區(qū),DMA引擎則直接把數(shù)據(jù)從read_buffer發(fā)送到NIC_buffer則減少了一次復(fù)制操作于置。
linux 4.1支持一個sockmap 可以從socket到socket的數(shù)據(jù)轉(zhuǎn)發(fā)茧吊。

總結(jié)

有了零拷貝技術(shù),我們可以極大優(yōu)化那些fd到fd的復(fù)制操作,比如一些靜態(tài)資源服務(wù)器的靜態(tài)資源分發(fā)。在文件服務(wù)器也可以應(yīng)用這種技術(shù)以獲得性能的巨大提升八毯。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者