這篇文章來聊一下 Kafka 的一些架構設計原理革半,這也是互聯(lián)網(wǎng)公司面試時非常高頻的技術考點。
Kafka 是高吞吐低延遲的高并發(fā)六敬、高性能的消息中間件外构,在大數(shù)據(jù)領域有極為廣泛的運用。配置良好的 Kafka 集群甚至可以做到每秒幾十萬割笙、上百萬的超高并發(fā)寫入。
那么 Kafka 到底是如何做到這么高的吞吐量和性能的呢?這篇文章我們來詳細說一下乱顾。
頁緩存技術 + 磁盤順序?qū)?/strong>
首先 Kafka 每次接收到數(shù)據(jù)都會往磁盤上去寫,如下圖所示:
那么在這里我們不禁有一個疑問了捌袜,如果把數(shù)據(jù)基于磁盤來存儲弄唧,頻繁的往磁盤文件里寫數(shù)據(jù),這個性能會不會很差?大家肯定都覺得磁盤寫性能是極差的澄干。
沒錯,要是真的跟上面那個圖那么簡單的話疾掰,那確實這個性能是比較差的。
但是實際上 Kafka 在這里有極為優(yōu)秀和出色的設計,就是為了保證數(shù)據(jù)寫入性能,首先 Kafka 是基于操作系統(tǒng)的頁緩存來實現(xiàn)文件寫入的加矛。
操作系統(tǒng)本身有一層緩存辑奈,叫做 Page Cache鸠窗,是在內(nèi)存里的緩存,我們也可以稱之為 OS Cache涨颜,意思就是操作系統(tǒng)自己管理的緩存抢埋。對大數(shù)據(jù)以及人工智能概念都是模糊不清的饥努,該按照什么線路去學習,學完往哪方面發(fā)展酷愧,想深入了解驾诈,想學習的同學歡迎加入大數(shù)據(jù)學習扣群:數(shù)據(jù)515—269+數(shù)字485,有大量干貨(零基礎以及進階的經(jīng)典實戰(zhàn))分享給大家溶浴,并且有清華大學畢業(yè)的資深大數(shù)據(jù)講師給大家免費授課乍迄,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實戰(zhàn)實用學習流程體系 。從java和linux入手士败,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關知識一一分享闯两!
你在寫入磁盤文件的時候,可以直接寫入這個 OS Cache 里,也就是僅僅寫入內(nèi)存中漾狼,接下來由操作系統(tǒng)自己決定什么時候把 OS Cache 里的數(shù)據(jù)真的刷入磁盤文件中重慢。
僅僅這一個步驟,就可以將磁盤文件寫性能提升很多了逊躁,因為其實這里相當于是在寫內(nèi)存伤锚,不是在寫磁盤,大家看下圖:
接著另外一個就是 kafka 寫數(shù)據(jù)的時候志衣,非常關鍵的一點,它是以磁盤順序?qū)懙姆绞絹韺懙摹?/p>
也就是說猛们,僅僅將數(shù)據(jù)追加到文件的末尾念脯,不是在文件的隨機位置來修改數(shù)據(jù)。
普通的機械磁盤如果你要是隨機寫的話弯淘,確實性能極差绿店,也就是隨便找到文件的某個位置來寫數(shù)據(jù)。
但是如果你是追加文件末尾按照順序的方式來寫數(shù)據(jù)的話庐橙,那么這種磁盤順序?qū)懙男阅芑旧峡梢愿鷮憙?nèi)存的性能本身也是差不多的假勿。
所以大家就知道了,上面那個圖里态鳖,Kafka 在寫數(shù)據(jù)的時候转培,一方面基于 OS 層面的 Page Cache 來寫數(shù)據(jù),所以性能很高浆竭,本質(zhì)就是在寫內(nèi)存罷了浸须。
另外一個,它是采用磁盤順序?qū)懙姆绞桨钚梗约词箶?shù)據(jù)刷入磁盤的時候删窒,性能也是極高的,也跟寫內(nèi)存是差不多的顺囊。
基于上面兩點肌索,Kafka 就實現(xiàn)了寫入數(shù)據(jù)的超高性能。那么大家想想特碳,假如說 Kafka 寫入一條數(shù)據(jù)要耗費 1 毫秒的時間诚亚,那么是不是每秒就是可以寫入 1000 條數(shù)據(jù)?
但是假如 Kafka 的性能極高,寫入一條數(shù)據(jù)僅僅耗費 0.01 毫秒呢?那么每秒是不是就可以寫入 10 萬條數(shù)據(jù)?
所以要保證每秒寫入幾萬甚至幾十萬條數(shù)據(jù)的核心點测萎,就是盡最大可能提升每條數(shù)據(jù)寫入的性能亡电,這樣就可以在單位時間內(nèi)寫入更多的數(shù)據(jù)量,提升吞吐量硅瞧。
零拷貝技術
說完了寫入這塊份乒,再來談談消費這塊。
大家應該都知道,從 Kafka 里我們經(jīng)常要消費數(shù)據(jù)或辖,那么消費的時候?qū)嶋H上就是要從 Kafka 的磁盤文件里讀取某條數(shù)據(jù)然后發(fā)送給下游的消費者瘾英,如下圖所示:
那么這里如果頻繁的從磁盤讀數(shù)據(jù)然后發(fā)給消費者,性能瓶頸在哪里呢?
假設要是 Kafka 什么優(yōu)化都不做颂暇,就是很簡單的從磁盤讀數(shù)據(jù)發(fā)送給下游的消費者缺谴,那么大概過程如下所示:
先看看要讀的數(shù)據(jù)在不在 OS Cache 里,如果不在的話就從磁盤文件里讀取數(shù)據(jù)后放入 OS Cache耳鸯。
接著從操作系統(tǒng)的 OS Cache 里拷貝數(shù)據(jù)到應用程序進程的緩存里湿蛔,再從應用程序進程的緩存里拷貝數(shù)據(jù)到操作系統(tǒng)層面的 Socket 緩存里。
最后從 Socket 緩存里提取數(shù)據(jù)后發(fā)送到網(wǎng)卡县爬,最后發(fā)送出去給下游消費阳啥。
整個過程,如下圖所示:
大家看上圖财喳,很明顯可以看到有兩次沒必要的拷貝吧!一次是從操作系統(tǒng)的 Cache 里拷貝到應用進程的緩存里察迟,接著又從應用程序緩存里拷貝回操作系統(tǒng)的 Socket 緩存里。
而且為了進行這兩次拷貝耳高,中間還發(fā)生了好幾次上下文切換扎瓶,一會兒是應用程序在執(zhí)行,一會兒上下文切換到操作系統(tǒng)來執(zhí)行泌枪。
所以這種方式來讀取數(shù)據(jù)是比較消耗性能的概荷。Kafka 為了解決這個問題,在讀數(shù)據(jù)的時候是引入零拷貝技術工闺。
也就是說乍赫,直接讓操作系統(tǒng)的 Cache 中的數(shù)據(jù)發(fā)送到網(wǎng)卡后傳輸給下游的消費者,中間跳過了兩次拷貝數(shù)據(jù)的步驟陆蟆,Socket 緩存中僅僅會拷貝一個描述符過去雷厂,不會拷貝數(shù)據(jù)到 Socket 緩存。
大家看下圖叠殷,體會一下這個精妙的過程:
通過零拷貝技術改鲫,就不需要把 OS Cache 里的數(shù)據(jù)拷貝到應用緩存凑阶,再從應用緩存拷貝到 Socket 緩存了铭拧,兩次拷貝都省略了,所以叫做零拷貝疙筹。
對 Socket 緩存僅僅就是拷貝數(shù)據(jù)的描述符過去壶冒,然后數(shù)據(jù)就直接從 OS Cache 中發(fā)送到網(wǎng)卡上去了缕题,這個過程大大的提升了數(shù)據(jù)消費時讀取文件數(shù)據(jù)的性能。
而且大家會注意到胖腾,在從磁盤讀數(shù)據(jù)的時候烟零,會先看看 OS Cache 內(nèi)存中是否有瘪松,如果有的話,其實讀數(shù)據(jù)都是直接讀內(nèi)存的锨阿。
如果 Kafka 集群經(jīng)過良好的調(diào)優(yōu)宵睦,大家會發(fā)現(xiàn)大量的數(shù)據(jù)都是直接寫入 OS Cache 中,然后讀數(shù)據(jù)的時候也是從 OS Cache 中讀墅诡。
相當于是 Kafka 完全基于內(nèi)存提供數(shù)據(jù)的寫和讀了壳嚎,所以這個整體性能會極其的高。想要學習提升的可以加群:810-589-193一起探討技術末早,學習烟馅,提升自己,免費獲取更多相關學習資料然磷,覺得小編這個分享對大家有幫助可以轉(zhuǎn)發(fā)分享焙糟,希望這些知識點可以幫助在這個行業(yè)發(fā)展的朋友和伙伴們,把有限的時間样屠,真正放在學習和前進上。