什么是Kafka额湘?
Apache Kafka是一個(gè)分布式發(fā)布 - 訂閱消息系統(tǒng)和一個(gè)強(qiáng)大的隊(duì)列秕铛,可以處理大量的數(shù)據(jù),并使您能夠?qū)⑾囊粋€(gè)端點(diǎn)傳遞到另一個(gè)端點(diǎn)缩挑。?Kafka適合離線和在線消息消費(fèi)但两。?Kafka消息保留在磁盤上,并在群集內(nèi)復(fù)制以防止數(shù)據(jù)丟失供置。?Kafka構(gòu)建在ZooKeeper同步服務(wù)之上谨湘。?它與Apache Storm和Spark非常好地集成,用于實(shí)時(shí)流式數(shù)據(jù)分析芥丧。
好處
以下是Kafka的幾個(gè)好處 -
可靠性?- Kafka是分布式紧阔,分區(qū),復(fù)制和容錯(cuò)的续担。
可擴(kuò)展性?- Kafka消息傳遞系統(tǒng)輕松縮放擅耽,無(wú)需停機(jī)。
耐用性?- Kafka使用分布式提交日志物遇,這意味著消息會(huì)盡可能快地保留在磁盤上乖仇,因此它是持久的。
性能?- Kafka對(duì)于發(fā)布和訂閱消息都具有高吞吐量询兴。?即使存儲(chǔ)了許多TB的消息乃沙,它也保持穩(wěn)定的性能。
Kafka非呈ⅲ快警儒,并保證零停機(jī)和零數(shù)據(jù)丟失。
用例
Kafka可以在許多用例中使用眶根。?其中一些列出如下 -
指標(biāo)?- Kafka通常用于操作監(jiān)控?cái)?shù)據(jù)蜀铲。?這涉及聚合來(lái)自分布式應(yīng)用程序的統(tǒng)計(jì)信息,以產(chǎn)生操作數(shù)據(jù)的集中饋送属百。
日志聚合解決方案?- Kafka可用于跨組織從多個(gè)服務(wù)收集日志记劝,并使它們以標(biāo)準(zhǔn)格式提供給多個(gè)服務(wù)器。
流處理?- 流行的框架(如Storm和Spark Streaming)從主題中讀取數(shù)據(jù)诸老,對(duì)其進(jìn)行處理隆夯,并將處理后的數(shù)據(jù)寫入新主題,供用戶和應(yīng)用程序使用别伏。?Kafka的強(qiáng)耐久性在流處理的上下文中也非常有用。
需要Kafka
Kafka是一個(gè)統(tǒng)一的平臺(tái)忧额,用于處理所有實(shí)時(shí)數(shù)據(jù)Feed厘肮。?Kafka支持低延遲消息傳遞,并在出現(xiàn)機(jī)器故障時(shí)提供對(duì)容錯(cuò)的保證睦番。?它具有處理大量不同消費(fèi)者的能力类茂。?Kafka非乘J簦快,執(zhí)行2百萬(wàn)寫/秒巩检。?Kafka將所有數(shù)據(jù)保存到磁盤厚骗,這實(shí)質(zhì)上意味著所有寫入都會(huì)進(jìn)入操作系統(tǒng)(RAM)的頁(yè)面緩存。?這使得將數(shù)據(jù)從頁(yè)面緩存?zhèn)鬏數(shù)骄W(wǎng)絡(luò)套接字非常有效兢哭。
結(jié)構(gòu)圖
Apache Kafka - 集群架構(gòu)
看看下面的插圖民轴。?它顯示Kafka的集群圖。
Apache Kafka - WorkFlow
到目前為止球订,我們討論了Kafka的核心概念杉武。?讓我們現(xiàn)在來(lái)看一下Kafka的工作流程。
Kafka只是分為一個(gè)或多個(gè)分區(qū)的主題的集合辙售。?Kafka分區(qū)是消息的線性有序序列轻抱,其中每個(gè)消息由它們的索引(稱為偏移)來(lái)標(biāo)識(shí)。?Kafka集群中的所有數(shù)據(jù)都是不相連的分區(qū)聯(lián)合旦部。?傳入消息寫在分區(qū)的末尾祈搜,消息由消費(fèi)者順序讀取。?通過(guò)將消息復(fù)制到不同的代理提供持久性士八。
Kafka以快速容燕,可靠,持久婚度,容錯(cuò)和零停機(jī)的方式提供基于pub-sub和隊(duì)列的消息系統(tǒng)蘸秘。?在這兩種情況下,生產(chǎn)者只需將消息發(fā)送到主題蝗茁,消費(fèi)者可以根據(jù)自己的需要選擇任何一種類型的消息傳遞系統(tǒng)醋虏。?讓我們按照下一節(jié)中的步驟來(lái)了解消費(fèi)者如何選擇他們選擇的消息系統(tǒng)。
發(fā)布 - 訂閱消息的工作流程
以下是Pub-Sub消息的逐步工作流程 -
生產(chǎn)者定期向主題發(fā)送消息哮翘。
Kafka代理存儲(chǔ)為該特定主題配置的分區(qū)中的所有消息颈嚼。?它確保消息在分區(qū)之間平等共享。?如果生產(chǎn)者發(fā)送兩個(gè)消息并且有兩個(gè)分區(qū)饭寺,Kafka將在第一分區(qū)中存儲(chǔ)一個(gè)消息阻课,在第二分區(qū)中存儲(chǔ)第二消息叫挟。
消費(fèi)者訂閱特定主題。
一旦消費(fèi)者訂閱主題限煞,Kafka將向消費(fèi)者提供主題的當(dāng)前偏移抹恳,并且還將偏移保存在Zookeeper系綜中。
消費(fèi)者將定期請(qǐng)求Kafka(如100 Ms)新消息署驻。
一旦Kafka收到來(lái)自生產(chǎn)者的消息奋献,它將這些消息轉(zhuǎn)發(fā)給消費(fèi)者。
消費(fèi)者將收到消息并進(jìn)行處理硕舆。
一旦消息被處理秽荞,消費(fèi)者將向Kafka代理發(fā)送確認(rèn)。
一旦Kafka收到確認(rèn)抚官,它將偏移更改為新值扬跋,并在Zookeeper中更新它。?由于偏移在Zookeeper中維護(hù)凌节,消費(fèi)者可以正確地讀取下一封郵件钦听,即使在服務(wù)器暴力期間。
以上流程將重復(fù)倍奢,直到消費(fèi)者停止請(qǐng)求朴上。
消費(fèi)者可以隨時(shí)回退/跳到所需的主題偏移量,并閱讀所有后續(xù)消息卒煞。
隊(duì)列消息/用戶組的工作流
在隊(duì)列消息傳遞系統(tǒng)而不是單個(gè)消費(fèi)者中痪宰,具有相同組ID?的一組消費(fèi)者將訂閱主題。?簡(jiǎn)單來(lái)說(shuō)畔裕,訂閱具有相同?Group ID?的主題的消費(fèi)者被認(rèn)為是單個(gè)組衣撬,并且消息在它們之間共享。?讓我們檢查這個(gè)系統(tǒng)的實(shí)際工作流程扮饶。
生產(chǎn)者以固定間隔向某個(gè)主題發(fā)送消息具练。
Kafka存儲(chǔ)在為該特定主題配置的分區(qū)中的所有消息,類似于前面的方案甜无。
單個(gè)消費(fèi)者訂閱特定主題扛点,假設(shè)?Topic-01?為?Group ID?為?Group-1?。
Kafka以與發(fā)布 - 訂閱消息相同的方式與消費(fèi)者交互岂丘,直到新消費(fèi)者以相同的組ID?訂閱相同主題?Topic-01??1 陵究。
一旦新消費(fèi)者到達(dá),Kafka將其操作切換到共享模式元潘,并在兩個(gè)消費(fèi)者之間共享數(shù)據(jù)畔乙。?此共享將繼續(xù),直到用戶數(shù)達(dá)到為該特定主題配置的分區(qū)數(shù)翩概。
一旦消費(fèi)者的數(shù)量超過(guò)分區(qū)的數(shù)量牲距,新消費(fèi)者將不會(huì)接收任何進(jìn)一步的消息,直到現(xiàn)有消費(fèi)者取消訂閱任何一個(gè)消費(fèi)者钥庇。?出現(xiàn)這種情況是因?yàn)镵afka中的每個(gè)消費(fèi)者將被分配至少一個(gè)分區(qū)牍鞠,并且一旦所有分區(qū)被分配給現(xiàn)有消費(fèi)者,新消費(fèi)者將必須等待评姨。
此功能也稱為使用者組难述。?同樣,Kafka將以非常簡(jiǎn)單和高效的方式提供兩個(gè)系統(tǒng)中最好的吐句。
ZooKeeper的作用
Apache Kafka的一個(gè)關(guān)鍵依賴是Apache Zookeeper胁后,它是一個(gè)分布式配置和同步服務(wù)。?Zookeeper是Kafka代理和消費(fèi)者之間的協(xié)調(diào)接口嗦枢。?Kafka服務(wù)器通過(guò)Zookeeper集群共享信息攀芯。?Kafka在Zookeeper中存儲(chǔ)基本元數(shù)據(jù),例如關(guān)于主題文虏,代理侣诺,消費(fèi)者偏移(隊(duì)列讀取器)等的信息。
由于所有關(guān)鍵信息存儲(chǔ)在Zookeeper中氧秘,并且它通常在其整體上復(fù)制此數(shù)據(jù)年鸳,因此Kafka代理/ Zookeeper的故障不會(huì)影響Kafka集群的狀態(tài)。?Kafka將恢復(fù)狀態(tài)丸相,一旦Zookeeper重新啟動(dòng)搔确。?這為Kafka帶來(lái)了零停機(jī)時(shí)間。Kafka代理之間的領(lǐng)導(dǎo)者選舉也通過(guò)使用Zookeeper在領(lǐng)導(dǎo)者失敗的情況下完成灭忠。
要了解有關(guān)Zookeeper的詳細(xì)信息膳算,請(qǐng)參閱?zookeeper