目錄
1顾画、頁緩存技術(shù) + 磁盤順序?qū)?/b>
2取劫、零拷貝技術(shù)
3、最后的總結(jié)
“ 這篇文章來聊一下Kafka的一些架構(gòu)設(shè)計(jì)原理研侣,這也是互聯(lián)網(wǎng)公司面試時(shí)非常高頻的技術(shù)考點(diǎn)谱邪。
Kafka是高吞吐低延遲的高并發(fā)、高性能的消息中間件庶诡,在大數(shù)據(jù)領(lǐng)域有極為廣泛的運(yùn)用惦银。配置良好的Kafka集群甚至可以做到每秒幾十萬、上百萬的超高并發(fā)寫入。
那么Kafka到底是如何做到這么高的吞吐量和性能的呢扯俱?這篇文章我們來一點(diǎn)一點(diǎn)說一下书蚪。
1、頁緩存技術(shù) + 磁盤順序?qū)?/p>
首先Kafka每次接收到數(shù)據(jù)都會(huì)往磁盤上去寫迅栅,如下圖所示殊校。
那么在這里我們不禁有一個(gè)疑問了,如果把數(shù)據(jù)基于磁盤來存儲(chǔ)读存,頻繁的往磁盤文件里寫數(shù)據(jù)为流,這個(gè)性能會(huì)不會(huì)很差?大家肯定都覺得磁盤寫性能是極差的让簿。
沒錯(cuò)敬察,要是真的跟上面那個(gè)圖那么簡(jiǎn)單的話,那確實(shí)這個(gè)性能是比較差的拜英。
但是實(shí)際上Kafka在這里有極為優(yōu)秀和出色的設(shè)計(jì)静汤,就是為了保證數(shù)據(jù)寫入性能,首先Kafka是基于操作系統(tǒng)的頁緩存來實(shí)現(xiàn)文件寫入的居凶。
操作系統(tǒng)本身有一層緩存,叫做page cache藤抡,是在內(nèi)存里的緩存侠碧,我們也可以稱之為os cache,意思就是操作系統(tǒng)自己管理的緩存缠黍。
你在寫入磁盤文件的時(shí)候弄兜,可以直接寫入這個(gè)os cache里,也就是僅僅寫入內(nèi)存中瓷式,接下來由操作系統(tǒng)自己決定什么時(shí)候把os cache里的數(shù)據(jù)真的刷入磁盤文件中替饿。
僅僅這一個(gè)步驟,就可以將磁盤文件寫性能提升很多了贸典,因?yàn)槠鋵?shí)這里相當(dāng)于是在寫內(nèi)存视卢,不是在寫磁盤,大家看下圖廊驼。
接著另外一個(gè)就是kafka寫數(shù)據(jù)的時(shí)候据过,非常關(guān)鍵的一點(diǎn),他是以磁盤順序?qū)懙姆绞絹韺懙亩士妗R簿褪钦f绳锅,僅僅將數(shù)據(jù)追加到文件的末尾,不是在文件的隨機(jī)位置來修改數(shù)據(jù)酝掩。
普通的機(jī)械磁盤如果你要是隨機(jī)寫的話鳞芙,確實(shí)性能極差,也就是隨便找到文件的某個(gè)位置來寫數(shù)據(jù)。
但是如果你是追加文件末尾按照順序的方式來寫數(shù)據(jù)的話原朝,那么這種磁盤順序?qū)懙男阅芑旧峡梢愿鷮憙?nèi)存的性能本身也是差不多的闯割。
所以大家就知道了,上面那個(gè)圖里竿拆,Kafka在寫數(shù)據(jù)的時(shí)候宙拉,一方面基于了os層面的page cache來寫數(shù)據(jù),所以性能很高丙笋,本質(zhì)就是在寫內(nèi)存罷了谢澈。
另外一個(gè),他是采用磁盤順序?qū)懙姆绞接澹约词箶?shù)據(jù)刷入磁盤的時(shí)候锥忿,性能也是極高的,也跟寫內(nèi)存是差不多的怠肋。
基于上面兩點(diǎn)敬鬓,kafka就實(shí)現(xiàn)了寫入數(shù)據(jù)的超高性能。
那么大家想想笙各,假如說kafka寫入一條數(shù)據(jù)要耗費(fèi)1毫秒的時(shí)間钉答,那么是不是每秒就是可以寫入1000條數(shù)據(jù)?
但是假如kafka的性能極高杈抢,寫入一條數(shù)據(jù)僅僅耗費(fèi)0.01毫秒呢数尿?那么每秒是不是就可以寫入10萬條數(shù)?
所以要保證每秒寫入幾萬甚至幾十萬條數(shù)據(jù)的核心點(diǎn)惶楼,就是盡最大可能提升每條數(shù)據(jù)寫入的性能右蹦,這樣就可以在單位時(shí)間內(nèi)寫入更多的數(shù)據(jù)量,提升吞吐量歼捐。
2何陆、零拷貝技術(shù)
說完了寫入這塊,再來談?wù)勏M(fèi)這塊豹储。
大家應(yīng)該都知道贷盲,從Kafka里我們經(jīng)常要消費(fèi)數(shù)據(jù),那么消費(fèi)的時(shí)候?qū)嶋H上就是要從kafka的磁盤文件里讀取某條數(shù)據(jù)然后發(fā)送給下游的消費(fèi)者颂翼,如下圖所示晃洒。
那么這里如果頻繁的從磁盤讀數(shù)據(jù)然后發(fā)給消費(fèi)者,性能瓶頸在哪里呢朦乏?
假設(shè)要是kafka什么優(yōu)化都不做球及,就是很簡(jiǎn)單的從磁盤讀數(shù)據(jù)發(fā)送給下游的消費(fèi)者,那么大概過程如下所示:
先看看要讀的數(shù)據(jù)在不在os cache里呻疹,如果不在的話就從磁盤文件里讀取數(shù)據(jù)后放入os cache吃引。
接著從操作系統(tǒng)的os cache里拷貝數(shù)據(jù)到應(yīng)用程序進(jìn)程的緩存里,再從應(yīng)用程序進(jìn)程的緩存里拷貝數(shù)據(jù)到操作系統(tǒng)層面的Socket緩存里,最后從Socket緩存里提取數(shù)據(jù)后發(fā)送到網(wǎng)卡镊尺,最后發(fā)送出去給下游消費(fèi)朦佩。
整個(gè)過程,如下圖所示:
大家看上圖庐氮,很明顯可以看到有兩次沒必要的拷貝吧语稠!
一次是從操作系統(tǒng)的cache里拷貝到應(yīng)用進(jìn)程的緩存里,接著又從應(yīng)用程序緩存里拷貝回操作系統(tǒng)的Socket緩存里弄砍。
而且為了進(jìn)行這兩次拷貝仙畦,中間還發(fā)生了好幾次上下文切換,一會(huì)兒是應(yīng)用程序在執(zhí)行音婶,一會(huì)兒上下文切換到操作系統(tǒng)來執(zhí)行慨畸。
所以這種方式來讀取數(shù)據(jù)是比較消耗性能的。
Kafka為了解決這個(gè)問題衣式,在讀數(shù)據(jù)的時(shí)候是引入零拷貝技術(shù)寸士。
也就是說,直接讓操作系統(tǒng)的cache中的數(shù)據(jù)發(fā)送到網(wǎng)卡后傳輸給下游的消費(fèi)者碴卧,中間跳過了兩次拷貝數(shù)據(jù)的步驟弱卡,Socket緩存中僅僅會(huì)拷貝一個(gè)描述符過去,不會(huì)拷貝數(shù)據(jù)到Socket緩存螟深。
大家看下圖谐宙,體會(huì)一下這個(gè)精妙的過程:
通過零拷貝技術(shù),就不需要把os cache里的數(shù)據(jù)拷貝到應(yīng)用緩存界弧,再從應(yīng)用緩存拷貝到Socket緩存了,兩次拷貝都省略了搭综,所以叫做零拷貝垢箕。
對(duì)Socket緩存僅僅就是拷貝數(shù)據(jù)的描述符過去,然后數(shù)據(jù)就直接從os cache中發(fā)送到網(wǎng)卡上去了兑巾,這個(gè)過程大大的提升了數(shù)據(jù)消費(fèi)時(shí)讀取文件數(shù)據(jù)的性能条获。
而且大家會(huì)注意到,在從磁盤讀數(shù)據(jù)的時(shí)候蒋歌,會(huì)先看看os cache內(nèi)存中是否有帅掘,如果有的話,其實(shí)讀數(shù)據(jù)都是直接讀內(nèi)存的堂油。
如果kafka集群經(jīng)過良好的調(diào)優(yōu)修档,大家會(huì)發(fā)現(xiàn)大量的數(shù)據(jù)都是直接寫入os cache中,然后讀數(shù)據(jù)的時(shí)候也是從os cache中讀府框。
相當(dāng)于是Kafka完全基于內(nèi)存提供數(shù)據(jù)的寫和讀了吱窝,所以這個(gè)整體性能會(huì)極其的高。
說個(gè)題外話,下回有機(jī)會(huì)給大家說一下Elasticsearch的架構(gòu)原理院峡,其實(shí)ES底層也是大量基于os cache實(shí)現(xiàn)了海量數(shù)據(jù)的高性能檢索的兴使,跟Kafka原理類似。
3照激、最后的總結(jié)
通過這篇文章對(duì)kafka底層的頁緩存技術(shù)的使用发魄,磁盤順序?qū)懙乃悸罚约傲憧截惣夹g(shù)的運(yùn)用俩垃,大家應(yīng)該就明白Kafka每臺(tái)機(jī)器在底層對(duì)數(shù)據(jù)進(jìn)行寫和讀的時(shí)候采取的是什么樣的思路励幼,為什么他的性能可以那么高,做到每秒幾十萬的吞吐量吆寨。
這種設(shè)計(jì)思想對(duì)我們平時(shí)自己設(shè)計(jì)中間件的架構(gòu)赏淌,或者是出去面試的時(shí)候,都有很大的幫助啄清。
今天和大家的分享就到這吧六水!有收獲,有感觸辣卒,需要java資料或者喜歡小編的可以關(guān)注小編掷贾,私信“架構(gòu)”就可以免費(fèi)獲得java架構(gòu)資料和最新面試資料!以下是部分資料截圖: