RocketMQ原理

架構(gòu)

image.png

https://github.com/apache/rocketmq/blob/master/docs/cn/architecture.md rocketmq/docs/cn at master · apache/rocketmq · GitHub

RocketMQ & Kafka 對(duì)比

1. 文件結(jié)構(gòu)

首先都是順序?qū)懭耄贿^ RocketMQ 是把消息都存一個(gè)文件中也殖,而 Kafka 是一個(gè)分區(qū)一個(gè)文件土思。 每個(gè)分區(qū)一個(gè)文件在遷移或者數(shù)據(jù)復(fù)制層面上來說更加得靈活。但是分區(qū)多了的話,寫入需要頻繁的在多個(gè)文件之間來回切換浪漠,對(duì)于每個(gè)文件來說是順序?qū)懭氲纳孪埃菑娜挚雌鋵?shí)算隨機(jī)寫入,并且讀取的時(shí)候也是一樣址愿,算隨機(jī)讀该镣。而就一個(gè)文件的 RocketMQ 就沒這個(gè)問題。 消息存儲(chǔ)整體架構(gòu):

[圖片上傳失敗...(image-8002c1-1677753939472)]

kafka rocket
概念區(qū)分 Topic : 主題响谓,可以理解為一個(gè)隊(duì)列 损合,只是一個(gè)邏輯概念,真正存在的是分區(qū)娘纷。
一個(gè)topic多個(gè)Partition(分區(qū))
Partation: 隊(duì)列Topic的分區(qū)嫁审,一個(gè)Topic可以分為多個(gè)分區(qū),用于高并發(fā)場景的負(fù)載功能赖晶; 一個(gè)topic多個(gè)Queue(分片)
Queue是Topic在一個(gè)Broker上的分片等分為指定份數(shù)后的其中一份律适,是負(fù)載均衡過程中資源分配的基本單元。
文件存儲(chǔ) 以 Partition 為單位遏插,每個(gè) Partition 包含一組消息文件(Segment file)和一組索引文件(Index) 只有一個(gè)CommitLog文件
以 Broker 為單位捂贿,存儲(chǔ)消息文件和索引文件,每個(gè) Broker 只有一組消息文件胳嘲,它把在這個(gè) Broker 上的所有主題的消息都存在這一組消息文件中厂僧。
索引文件
ConsumerQueue消息消費(fèi)隊(duì)列索引文件:是按照主題和隊(duì)列分別建立的,每個(gè)隊(duì)列對(duì)應(yīng)一組索引文件
存儲(chǔ)路徑為:$HOME/store/consumequeue/{topic}/{queueId}/{fileName}
IndexFile索引文件:一種可以通過key或時(shí)間區(qū)間來查詢消息的方法
存儲(chǔ)位置是:HOME\store\index{fileName}
“按照Message Key查詢消息”了牛,主要是基于RocketMQ的IndexFile索引文件來實(shí)現(xiàn)的颜屠。RocketMQ的索引文件邏輯結(jié)構(gòu),類似JDK中HashMap的實(shí)現(xiàn)鹰祸。
索引文件 稀疏索引甫窟,為了節(jié)省存儲(chǔ)空間,它不會(huì)為每一條消息都創(chuàng)建索引福荸,而是每隔幾條消息創(chuàng)建一條索引蕴坪。 RocketMQ 中的索引是定長稠密索引,它為每一條消息都建立索引敬锐,每個(gè)索引的長度(注意不是消息長度)是固定的 20 個(gè)字節(jié)
文件存儲(chǔ)的優(yōu)缺點(diǎn) Kafka 以分區(qū)為單位背传,粒度更細(xì),優(yōu)點(diǎn)是更加靈活台夺,很容易進(jìn)行數(shù)據(jù)遷移和擴(kuò)容径玖。
RocketMQ 以 Broker 為單位,較粗的粒度犧牲了靈活性颤介,帶來的好處是梳星,在寫入的時(shí)候赞赖,同時(shí)寫入的文件更少,有更好的批量(不同主題和分區(qū)的數(shù)據(jù)可以組成一批一起寫入)冤灾,更多的順序?qū)懭肭坝颍绕涫窃?Broker 上有很多主題和分區(qū)的情況下,有更好的寫入性能韵吨。

2. 零拷貝優(yōu)化

從發(fā)送消息來說 RocketMQ 用到了 mmap + write 的方式匿垄,并且通過預(yù)熱來減少大文件 mmap 因?yàn)槿表撝袛喈a(chǎn)生的性能問題。而 Kafka 則用了 sendfile归粉,相對(duì)而言我覺得 kafka 發(fā)送的效率更高椿疗,因?yàn)樯倭艘淮雾摼彺娴?SocketBuffer 中的拷貝。并且 swap 問題也可以通過系統(tǒng)參數(shù)來設(shè)置糠悼。

中間件 實(shí)現(xiàn)方式 具體
RocketMQ mmap+write 發(fā)送和消費(fèi)消息時(shí)(針對(duì)CommitLog届榄、ConsumeQueue)使用 mmap + write
Kafka mmap Producer生產(chǎn)的數(shù)據(jù)持久化到broker,采用mmap文件映射倔喂,實(shí)現(xiàn)順序的快速寫入
sendfile Customer從broker讀取數(shù)據(jù)铝条,采用sendfile,將磁盤文件讀到OS內(nèi)核緩沖區(qū)后滴劲,直接轉(zhuǎn)到socket buffer進(jìn)行網(wǎng)絡(luò)傳輸

kafka 為什么快攻晒?為什么rocketmq不用sendfile技術(shù)?
性能:Kafka吞吐量更高班挖,單機(jī)百萬/秒;RocketMQ單機(jī)10萬/秒芯砸。
rocketmq使用了mmap萧芙,沒有使用sendfile,但為什么rocketmq不使用sendfile假丧, 因?yàn)閞ocketmq可以處理消息的順序双揪,消息的過濾,而Kafka不能有這些功能包帚。 kafka中渔期,sendfile壓根就沒有到達(dá)數(shù)據(jù)應(yīng)用層,數(shù)據(jù)只在內(nèi)核中中渴邦,不會(huì)進(jìn)入用戶進(jìn)程的疯趟,也就是不會(huì)進(jìn)入java程序,無法對(duì)數(shù)據(jù)進(jìn)行操作(修改谋梭、排序)信峻。

其中:MMap三次拷貝 sendfile兩次拷貝,多出的一次是CPU拷貝 從內(nèi)核拷貝到用戶進(jìn)程瓮床。

內(nèi)存映射

總結(jié):

  1. java nio實(shí)現(xiàn):FileChannel.transferTo

執(zhí)行順序:sendfile-> mmap->傳統(tǒng)的 I/O 方式

  1. sendfile只有兩次DMA copy盹舞,MMAP有兩次DMA copy,外加一次CPU copy

MMAP(內(nèi)存映射)

MMAP(內(nèi)存映射):將一個(gè)文件或者其它對(duì)象映射到進(jìn)程的地址空間产镐,實(shí)現(xiàn)文件磁盤地址和進(jìn)程虛擬地址空間中一段虛擬地址的一一對(duì)映關(guān)系。簡單來說踢步,就是實(shí)現(xiàn)磁盤文件到虛擬內(nèi)存的直接傳輸癣亚,減少了內(nèi)核態(tài)到用戶態(tài)的數(shù)據(jù)拷貝。 另外這里給大家說明白的一點(diǎn)是获印,這個(gè) mmap 技術(shù)在進(jìn)行文件映射的時(shí)候逃糟,一般有大小限制,在 1.5GB~2GB 之間蓬豁。所以 RocketMQ 才讓CommitLog單個(gè)文件在1GB绰咽,ConsumeQueue文件在5.72MB,不會(huì)太大地粪。 [圖片上傳失敗...(image-52fb1d-1677753939472)]

MMAP有兩次DMA copy,外加一次CPU copy

DMA 輔助的 sendfile

image.png

sendfile只有兩次DMA copy取募, cup拷貝不再拷貝數(shù)據(jù),而是拷貝緩沖區(qū)描述符蟆技。實(shí)現(xiàn)真正意義上的零拷貝玩敏,在 Java 中FileChannal.transferTo()底層用的就是sendfile。 DMA 輔助的 sendfile缺點(diǎn)是:只適用于將數(shù)據(jù)從文件拷貝到套接字上质礼。

頁緩存

image.png

PageCache(頁緩存):文件系統(tǒng)緩存旺聚,加速文件的讀寫速度。我們都知道磁盤 IO 和內(nèi)存 IO 的速度可是相差了好幾個(gè)數(shù)量級(jí)眶蕉。加入頁緩存的目的就是為了使程序?qū)ξ募M(jìn)行順序讀寫的速度接近于內(nèi)存的讀寫速度砰粹。所以簡單來說,對(duì)于數(shù)據(jù)的寫入造挽,OS 會(huì)先寫入至 Cache 內(nèi)碱璃,隨后通過異步的方式由 pdflush 內(nèi)核線程將 Cache 內(nèi)的數(shù)據(jù)刷盤至物理磁盤上。對(duì)于數(shù)據(jù)的讀取饭入,如果一次讀取文件時(shí)出現(xiàn)未命中 PageCache 的情況嵌器,OS 從物理磁盤上訪問讀取文件的同時(shí),會(huì)順序?qū)ζ渌噜弶K的數(shù)據(jù)文件進(jìn)行預(yù)讀取谐丢。

首先了解一下頁緩存爽航,頁緩存是操作系統(tǒng)用來作為磁盤的一種緩存,減少磁盤的I/O操作乾忱。 在寫入磁盤的時(shí)候其實(shí)是寫入頁緩存中讥珍,使得對(duì)磁盤的寫入變成對(duì)內(nèi)存的寫入。寫入的頁變成臟頁饭耳,然后操作系統(tǒng)會(huì)在合適的時(shí)候?qū)⑴K頁寫入磁盤中串述。 在讀取的時(shí)候如果頁緩存命中則直接返回,如果頁緩存 miss 則產(chǎn)生缺頁中斷寞肖,從磁盤加載數(shù)據(jù)至頁緩存中纲酗,然后返回?cái)?shù)據(jù)衰腌。 頁緩存存在數(shù)據(jù)丟失的風(fēng)險(xiǎn),例如機(jī)器突然斷電觅赊,那些還未刷盤的臟頁就丟失了右蕊。不過可以調(diào)用 fsync 強(qiáng)制刷盤,但是這樣對(duì)于性能的損耗較大吮螺。因此一般建議通過多副本機(jī)制來保證消息的可靠饶囚,而不是同步刷盤。

引用

https://baijiahao.baidu.com/s?id=1673444160125100503&wfr=spider&for=pc

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末鸠补,一起剝皮案震驚了整個(gè)濱河市萝风,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌紫岩,老刑警劉巖规惰,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異泉蝌,居然都是意外死亡歇万,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門勋陪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來贪磺,“玉大人,你說我怎么就攤上這事诅愚『” “怎么了?”我有些...
    開封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵呻粹,是天一觀的道長壕曼。 經(jīng)常有香客問我,道長等浊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任摹蘑,我火速辦了婚禮筹燕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘衅鹿。我一直安慰自己撒踪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開白布大渤。 她就那樣靜靜地躺著制妄,像睡著了一般。 火紅的嫁衣襯著肌膚如雪泵三。 梳的紋絲不亂的頭發(fā)上耕捞,一...
    開封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天衔掸,我揣著相機(jī)與錄音,去河邊找鬼俺抽。 笑死敞映,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的磷斧。 我是一名探鬼主播振愿,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼弛饭!你這毒婦竟也來了冕末?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤侣颂,失蹤者是張志新(化名)和其女友劉穎档桃,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體横蜒,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胳蛮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了丛晌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片仅炊。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖澎蛛,靈堂內(nèi)的尸體忽然破棺而出抚垄,到底是詐尸還是另有隱情,我是刑警寧澤谋逻,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布呆馁,位于F島的核電站,受9級(jí)特大地震影響毁兆,放射性物質(zhì)發(fā)生泄漏浙滤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一气堕、第九天 我趴在偏房一處隱蔽的房頂上張望纺腊。 院中可真熱鬧,春花似錦茎芭、人聲如沸揖膜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽壹粟。三九已至,卻和暖如春宿百,著一層夾襖步出監(jiān)牢的瞬間趁仙,已是汗流浹背洪添。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留幸撕,地道東北人薇组。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像坐儿,于是被迫代替她去往敵國和親律胀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容