1.1 Kafka之前發(fā)布與訂閱消息系統(tǒng)存在的問題
1、多個發(fā)布者之間直連
2邀桑、多個獨(dú)立的隊(duì)列系統(tǒng)
需要的是一個單一的集中式系統(tǒng)蝇完,可以用來發(fā)布通用類型的數(shù)據(jù),規(guī)模也可以隨著公司業(yè)務(wù)增長而增長龄恋。
1.2 Kafka登場
Kafka是為了解決上述問題而出現(xiàn)的一款基于發(fā)布與訂閱的消息系統(tǒng)。
1.2.1 消息與批次
消息是Kafka的數(shù)據(jù)單元桐玻,相當(dāng)于數(shù)據(jù)庫的一個數(shù)據(jù)行或者是一條記錄篙挽。由字節(jié)數(shù)組組成。
為提高效率镊靴,消息會被分批次寫入Kafka铣卡。批次是一組消息。批次可以減少網(wǎng)絡(luò)開銷偏竟,但是會存在時間延遲煮落,所以需要在時間延遲和吞吐量之間做出權(quán)衡。批次數(shù)據(jù)會被壓縮踊谋。
1.2.2 模式
消息模式:
????????JSON蝉仇、XML,簡單易用、可讀性好轿衔。
? ??????Avro 提供一種緊湊的序列號格式沉迹,模式與消息體是分開的,模式發(fā)生變化時不需要重新生成代碼害驹;還支持強(qiáng)類型和模式進(jìn)化鞭呕。
1.2.3 主題與分區(qū)
主題:相當(dāng)于數(shù)據(jù)庫的表
一個主題可以有一到多個分區(qū)
消息以追加方式寫入分區(qū),數(shù)據(jù)結(jié)構(gòu)類似于Java的隊(duì)列宛官,先入先出順序讀取葫松。由于一個主題一般有若干個分區(qū),所以無法在整個主題范圍內(nèi)包裝消息的順序底洗,但是可以保證在單個分區(qū)內(nèi)的順序腋么。
1.2.4 生產(chǎn)者和消費(fèi)者
生產(chǎn)者:默認(rèn)情況下消息會被均衡的分布到主題所有分區(qū)上,并不關(guān)系特定消息會被寫到哪個分區(qū)亥揖。某些情況下會把消息寫到指定分區(qū)珊擂。通常是通過消息鍵和分區(qū)器來實(shí)現(xiàn)的。
消費(fèi)者:訂閱一個或多個主題徐块,按照消息生成的順序讀取它們未玻。消費(fèi)者通過檢查消息的偏移量來區(qū)分已經(jīng)讀取過的消息。偏移量是另一種元數(shù)據(jù)胡控,是一個不斷遞增的整數(shù)值扳剿,在創(chuàng)建消息時,Kafka會把它添加到消息里昼激。
消費(fèi)者是消費(fèi)者群組的一部分庇绽,會有一個或 多個消費(fèi)者共同讀取同一個主題。
1.2.5 broker和集群
一個獨(dú)立的Kafka服務(wù)器叫做broker橙困。broker接收來自生產(chǎn)者的消息瞧掺,為消息設(shè)置偏移量,并提及消息保存到磁盤凡傅。單個broker可以輕松處理數(shù)千個分區(qū)以及每秒百萬級的消息量辟狈。
集群包含多個broker。有一個broker充當(dāng)集群控制器的角色夏跷。在集群中哼转,如果一個分區(qū)屬于一個broker,那么該broker稱為該分區(qū)的首領(lǐng)槽华;如果一個分區(qū)分配給多個broker壹蔓,會發(fā)生分區(qū)復(fù)制提供分區(qū)冗余,這樣當(dāng)一個broker失效其他broker可以接管猫态。
1.2.6 多集群
基于以下原因佣蓉,最好使用多集群
? ? ? ? 1披摄、數(shù)據(jù)類型分離
? ? ? ? 2、安全需求隔離
? ? ? ? 3勇凭、多數(shù)據(jù)中心(災(zāi)備)
需注意:Kafka的消息復(fù)制只能在單集群里進(jìn)行疚膊,不能在多集群之間進(jìn)行。
Kafka提供了一個MirrorMaker的工具套像,可以用它來實(shí)現(xiàn)集群間復(fù)制酿联。
1.3 為什么選擇Kafka
1.3.1 多個生產(chǎn)者
可以無縫的支持多個生產(chǎn)者,不管客戶端在使用單個主題還是多個主題夺巩。所以很適合從多個前端系統(tǒng)收集數(shù)據(jù)并以統(tǒng)一格式對外提供數(shù)據(jù)。
1.3.2 多個消費(fèi)者
支持多個消費(fèi)者從一個單獨(dú)的消息流上讀取數(shù)據(jù)周崭,而且消費(fèi)者之間互不影響柳譬。多個消費(fèi)者可以組成一個消費(fèi)群組,共享一個消息流续镇,并保證整個群主對給定的消息只消費(fèi)一次美澳。
1.3.3 基于磁盤的數(shù)據(jù)存儲
允許非實(shí)時消費(fèi),提供持久化到磁盤摸航,根據(jù)設(shè)置的規(guī)則進(jìn)行讀取制跟。
1.3.4 伸縮性
可靈活伸縮擴(kuò)容。
1.3.5 高性能
通過橫向擴(kuò)展生產(chǎn)者酱虎、消費(fèi)者雨膨、broker,Kafka可輕松處理巨大的消息流读串。處理大量數(shù)據(jù)的同時能保證亞秒級的消息延遲聊记。
1.4 數(shù)據(jù)生態(tài)系統(tǒng)
Kafka為數(shù)據(jù)生態(tài)系統(tǒng)帶來了循環(huán)系統(tǒng),在基礎(chǔ)設(shè)施各個組件之間傳遞消息恢暖,為所有客戶端提供統(tǒng)一的接口排监。當(dāng)提供消息模式的系統(tǒng)集成時,生產(chǎn)者與消費(fèi)者之間不再有緊密的耦合杰捂,也不需再建立任何類型直連舆床。
使用場景
1、活動跟蹤嫁佳。Kafka最初使用場景挨队,收集前端用戶交互的數(shù)據(jù)
2、傳遞消息脱拼。
3瞒瘸、度量指標(biāo)和日志記錄
4、提交日志
5熄浓、流處理情臭。與Hadoop的map和reduce類似省撑,不過是操作實(shí)時數(shù)據(jù)流
1.5 起源故事
Kafka是為了解決LinkedIn數(shù)據(jù)管道問題而生的。
1.5.4 命名
Jay Kreps大學(xué)上過很多文學(xué)課程俯在,很喜歡Franz Kafka