面試官：說說Kafka為什么速度那么快谁帕？

作者：邴越
博客園文章地址：
cnblogs.com/binyue/p/10308754.html

Kafka的消息是保存或緩存在磁盤上的，一般認(rèn)為在磁盤上讀寫數(shù)據(jù)是會降低性能的传黄，因為尋址會比較消耗時間佳谦，但是實際上，Kafka的特性之一就是高吞吐率熄阻。

即使是普通的服務(wù)器斋竞，Kafka也可以輕松支持每秒百萬級的寫入請求，超過了大部分的消息中間件饺律，這種特性也使得Kafka在日志處理等海量數(shù)據(jù)場景廣泛應(yīng)用窃页。

針對Kafka的基準(zhǔn)測試可以參考：

Apache Kafka基準(zhǔn)測試：每秒寫入2百萬（在三臺廉價機器上）ifeve.com/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines/

下面從數(shù)據(jù)寫入和讀取兩方面分析，為什么Kafka速度這么快复濒。

寫入數(shù)據(jù)

Kafka會把收到的消息都寫入到硬盤中脖卖，它絕對不會丟失數(shù)據(jù)。為了優(yōu)化寫入速度Kafka采用了兩個技術(shù)巧颈，順序?qū)懭?和 MMFile 畦木。

順序?qū)懭?/strong>

磁盤讀寫的快慢取決于你怎么使用它，也就是順序讀寫或者隨機讀寫砸泛。在順序讀寫的情況下十籍，某些優(yōu)化場景磁盤的讀寫速度可以和內(nèi)存持平

注：此處有疑問蛆封，不推敲細(xì)節(jié)，參考 http://searene.me/2017/07/09/Why-is-Kafka-so-fast/

因為硬盤是機械結(jié)構(gòu)勾栗，每次讀寫都會尋址->寫入惨篱，其中尋址是一個“機械動作”，它是最耗時的围俘。

所以硬盤最討厭隨機I/O砸讳，最喜歡順序I/O。為了提高讀寫硬盤的速度界牡，Kafka就是使用順序I/O簿寂。

而且Linux對于磁盤的讀寫優(yōu)化也比較多，包括read-ahead和write-behind宿亡，磁盤緩存等常遂。

如果在內(nèi)存做這些操作的時候，一個是JAVA對象的內(nèi)存開銷很大挽荠，另一個是隨著堆內(nèi)存數(shù)據(jù)的增多克胳，JAVA的GC時間會變得很長，使用磁盤操作有以下幾個好處：

磁盤順序讀寫速度超過內(nèi)存隨機讀寫

JVM的GC效率低坤按，內(nèi)存占用大毯欣。使用磁盤可以避免這一問題

系統(tǒng)冷啟動后，磁盤緩存依然可用

image

上圖就展示了Kafka是如何寫入數(shù)據(jù)的臭脓，每一個Partition其實都是一個文件酗钞，收到消息后Kafka會把數(shù)據(jù)插入到文件末尾（虛框部分）。

這種方法有一個缺陷—— 沒有辦法刪除數(shù)據(jù) 来累，所以Kafka是不會刪除數(shù)據(jù)的砚作，它會把所有的數(shù)據(jù)都保留下來，每個消費者（Consumer）對每個Topic都有一個offset用來表示讀取到了第幾條數(shù)據(jù) 嘹锁。

image

兩個消費者葫录，Consumer1有兩個offset分別對應(yīng)Partition0、Partition1（假設(shè)每一個Topic一個Partition）领猾；Consumer2有一個offset對應(yīng)Partition2米同。

這個offset是由客戶端SDK負(fù)責(zé)保存的，Kafka的Broker完全無視這個東西的存在摔竿；一般情況下SDK會把它保存到zookeeper里面面粮。(所以需要給Consumer提供zookeeper的地址)。

如果不刪除硬盤肯定會被撐滿继低，所以Kakfa提供了兩種策略來刪除數(shù)據(jù)熬苍。一是基于時間，二是基于partition文件大小。具體配置可以參看它的配置文檔柴底。

Memory Mapped Files

即便是順序?qū)懭胗脖P婿脸，硬盤的訪問速度還是不可能追上內(nèi)存。所以Kafka的數(shù)據(jù)并不是實時的寫入硬盤柄驻，它充分利用了現(xiàn)代操作系統(tǒng) 分頁存儲來利用內(nèi)存提高I/O效率狐树。

Memory Mapped Files(后面簡稱mmap)也被翻譯成 內(nèi)存映射文件 ，在64位操作系統(tǒng)中一般可以表示20G的數(shù)據(jù)文件凿歼，它的工作原理是直接利用操作系統(tǒng)的Page來實現(xiàn)文件到物理內(nèi)存的直接映射褪迟。

完成映射之后你對物理內(nèi)存的操作會被同步到硬盤上（操作系統(tǒng)在適當(dāng)?shù)臅r候）。

通過mmap答憔，進(jìn)程像讀寫硬盤一樣讀寫內(nèi)存（當(dāng)然是虛擬機內(nèi)存），也不必關(guān)心內(nèi)存的大小有虛擬內(nèi)存為我們兜底掀抹。

使用這種方式可以獲取很大的I/O提升虐拓，省去了用戶空間到內(nèi)核空間復(fù)制的開銷（調(diào)用文件的read會把數(shù)據(jù)先放到內(nèi)核空間的內(nèi)存中，然后再復(fù)制到用戶空間的內(nèi)存中傲武。）

也有一個很明顯的缺陷——不可靠蓉驹，寫到mmap中的數(shù)據(jù)并沒有被真正的寫到硬盤，操作系統(tǒng)會在程序主動調(diào)用flush的時候才把數(shù)據(jù)真正的寫到硬盤揪利。

Kafka提供了一個參數(shù)——producer.type來控制是不是主動flush态兴，如果Kafka寫入到mmap之后就立即flush然后再返回Producer叫同步 (sync)；寫入mmap之后立即返回Producer不調(diào)用flush叫異步 (async)疟位。

讀取數(shù)據(jù)

Kafka在讀取磁盤時做了哪些優(yōu)化瞻润？

基于sendfile實現(xiàn)Zero Copy

傳統(tǒng)模式下，當(dāng)需要對一個文件進(jìn)行傳輸?shù)臅r候甜刻，其具體流程細(xì)節(jié)如下：

調(diào)用read函數(shù)绍撞，文件數(shù)據(jù)被copy到內(nèi)核緩沖區(qū)

read函數(shù)返回，文件數(shù)據(jù)從內(nèi)核緩沖區(qū)copy到用戶緩沖區(qū)

write函數(shù)調(diào)用得院，將文件數(shù)據(jù)從用戶緩沖區(qū)copy到內(nèi)核與socket相關(guān)的緩沖區(qū)傻铣。

數(shù)據(jù)從socket緩沖區(qū)copy到相關(guān)協(xié)議引擎。

以上細(xì)節(jié)是傳統(tǒng)read/write方式進(jìn)行網(wǎng)絡(luò)文件傳輸?shù)姆绞较榻剩覀兛梢钥吹椒侵蓿谶@個過程當(dāng)中，文件數(shù)據(jù)實際上是經(jīng)過了四次copy操作：

硬盤—>內(nèi)核buf—>用戶buf—>socket相關(guān)緩沖區(qū)—>協(xié)議引擎

而sendfile系統(tǒng)調(diào)用則提供了一種減少以上多次copy蜕径，提升文件傳輸性能的方法两踏。

在內(nèi)核版本2.1中，引入了sendfile系統(tǒng)調(diào)用丧荐，以簡化網(wǎng)絡(luò)上和兩個本地文件之間的數(shù)據(jù)傳輸缆瓣。sendfile的引入不僅減少了數(shù)據(jù)復(fù)制，還減少了上下文切換虹统。

sendfile(socket, file, len);

運行流程如下：

sendfile系統(tǒng)調(diào)用弓坞，文件數(shù)據(jù)被copy至內(nèi)核緩沖區(qū)

再從內(nèi)核緩沖區(qū)copy至內(nèi)核中socket相關(guān)的緩沖區(qū)

最后在socket相關(guān)的緩沖區(qū)copy到協(xié)議引擎

相較傳統(tǒng)read/write方式隧甚，2.1版本內(nèi)核引進(jìn)的sendfile已經(jīng)減少了內(nèi)核緩沖區(qū)到user緩沖區(qū)，再由user緩沖區(qū)到socket相關(guān)緩沖區(qū)的文件copy

而在內(nèi)核版本2.4之后渡冻，文件描述符結(jié)果被改變戚扳，sendfile實現(xiàn)了更簡單的方式，再次減少了一次copy操作族吻。

在apache帽借，nginx，lighttpd等web服務(wù)器當(dāng)中超歌，都有一項sendfile相關(guān)的配置砍艾，使用sendfile可以大幅提升文件傳輸性能。

Kafka把所有的消息都存放在一個一個的文件中巍举，當(dāng)消費者需要數(shù)據(jù)的時候Kafka直接把文件發(fā)送給消費者脆荷，配合mmap作為文件讀寫方式，直接把它傳給sendfile懊悯。

批量壓縮

在很多情況下蜓谋，系統(tǒng)的瓶頸不是CPU或磁盤，而是網(wǎng)絡(luò)IO炭分，對于需要在廣域網(wǎng)上的數(shù)據(jù)中心之間發(fā)送消息的數(shù)據(jù)流水線尤其如此桃焕。

進(jìn)行數(shù)據(jù)壓縮會消耗少量的CPU資源,不過對于kafka而言,網(wǎng)絡(luò)IO更應(yīng)該需要考慮。

如果每個消息都壓縮捧毛，但是壓縮率相對很低观堂，所以Kafka使用了批量壓縮，即將多個消息一起壓縮而不是單個消息壓縮

Kafka允許使用遞歸的消息集合岖妄，批量的消息可以通過壓縮的形式傳輸并且在日志中也可以保持壓縮格式型将，直到被消費者解壓縮

Kafka支持多種壓縮協(xié)議，包括Gzip和Snappy壓縮協(xié)議

總結(jié)

Kafka速度的秘訣在于荐虐，它把所有的消息都變成一個批量的文件七兜，并且進(jìn)行合理的批量壓縮，減少網(wǎng)絡(luò)IO損耗福扬，通過mmap提高I/O速度腕铸，寫入數(shù)據(jù)的時候由于單個Partion是末尾添加所以速度最優(yōu)；讀取數(shù)據(jù)的時候配合sendfile直接暴力輸出铛碑。

面試官：說說Kafka為什么速度那么快豁延？

面試官：說說Kafka為什么速度那么快颖医？

寫入數(shù)據(jù)

順序?qū)懭?/strong>

Memory Mapped Files

讀取數(shù)據(jù)

基于sendfile實現(xiàn)Zero Copy

批量壓縮

總結(jié)