一蓝晒、概述
Kafka 是一個(gè)消息系統(tǒng)冈绊,原本開(kāi)發(fā)自 LinkedIn,用作 LinkedIn 的活動(dòng)流數(shù)據(jù)(Activity Stream)和運(yùn)營(yíng)數(shù)據(jù)處理管道(Pipeline)的基礎(chǔ)。現(xiàn)在它已被多家公司作為多種類(lèi)型的數(shù)據(jù)管道和消息系統(tǒng)使用灵临。
- 活動(dòng)流數(shù)據(jù) 是幾乎所有站點(diǎn)在對(duì)其網(wǎng)站使用情況做報(bào)表時(shí)都要用到的數(shù)據(jù)中最常規(guī)的部分∨枯活動(dòng)數(shù)據(jù)包括頁(yè)面訪問(wèn)量(Page View)儒溉、被查看內(nèi)容方面的信息以及搜索情況等內(nèi)容。這種數(shù)據(jù)通常的處理方式是先把各種活動(dòng)以日志的形式寫(xiě)入某種文件发钝,然后周期性地對(duì)這些文件進(jìn)行統(tǒng)計(jì)分析顿涣。
- 運(yùn)營(yíng)數(shù)據(jù) 指的是服務(wù)器的性能數(shù)據(jù)(CPU、IO 使用率酝豪、請(qǐng)求時(shí)間涛碑、服務(wù)日志等等數(shù)據(jù)),總的來(lái)說(shuō)孵淘,運(yùn)營(yíng)數(shù)據(jù)的統(tǒng)計(jì)方法種類(lèi)繁多蒲障。
Kafka通常用于應(yīng)用中的兩種廣播類(lèi)型:
- 在系統(tǒng)和應(yīng)用間建立實(shí)時(shí)的數(shù)據(jù)管道,能夠可信賴(lài)的獲取數(shù)據(jù)。
- 建立實(shí)時(shí)的流應(yīng)用晌涕,可以處理或者響應(yīng)數(shù)據(jù)流滋捶。
由此可見(jiàn),kafka給自身的定位并不只是一個(gè)消息系統(tǒng)余黎,而是通過(guò)發(fā)布訂閱消息這種機(jī)制實(shí)現(xiàn)了流平臺(tái)重窟。
作為一個(gè)分布式流平臺(tái),通過(guò)需要具備以下三個(gè)關(guān)鍵能力:
- 發(fā)布訂閱記錄流惧财,和消息隊(duì)列或者企業(yè)新消息系統(tǒng)類(lèi)似巡扇。
- 以可容錯(cuò)、持久的方式保存記錄流
- 當(dāng)記錄流產(chǎn)生時(shí)就進(jìn)行處理
Kafka和大多數(shù)消息系統(tǒng)一樣垮衷,搭建好kafka集群后厅翔,生產(chǎn)者向特定的topic生產(chǎn)消息,而消費(fèi)者通過(guò)訂閱topic搀突,能夠準(zhǔn)實(shí)時(shí)的拉取到該topic新消息刀闷,進(jìn)行消費(fèi)。如下圖:
kafka主要有以下特性:
- 消息持久化
- 高吞吐量
- 可擴(kuò)展性
尤其是高吞吐量仰迁,是他的最大賣(mài)點(diǎn)甸昏。kafka之所以能夠?qū)崿F(xiàn)高吞吐量,是基于他自身優(yōu)良的設(shè)計(jì)徐许,及集群的可擴(kuò)展性施蜜。
Kafka應(yīng)用場(chǎng)景
- 消息系統(tǒng)
- 日志系統(tǒng)
- 流處理
二、基本術(shù)語(yǔ)
Broker:Kafka 集群包含一個(gè)或多個(gè)服務(wù)器雌隅,這種服務(wù)器被稱(chēng)為 broker翻默。
Topic:每條發(fā)布到 Kafka 集群的消息都有一個(gè)類(lèi)別(主題),這個(gè)類(lèi)別被稱(chēng)為 Topic恰起。(物理上不同 Topic 的消息分開(kāi)存儲(chǔ)修械,邏輯上一個(gè) Topic 的消息雖然保存于一個(gè)或多個(gè) broker 上,但用戶(hù)只需指定消息的 Topic 即可生產(chǎn)或消費(fèi)數(shù)據(jù)而不必關(guān)心數(shù)據(jù)存于何處)村缸。
kafka中消息訂閱和發(fā)送都是基于某個(gè)topic祠肥。比如有個(gè)topic叫做NBA賽事信息,那么producer會(huì)把NBA賽事信息的消息發(fā)送到此topic下面梯皿。所有訂閱此topic的consumer將會(huì)拉取到此topic下的消息。Topic就像一個(gè)特定主題的收件箱县恕,producer往里丟东羹,consumer取走。Partition:Partition 是物理上的概念忠烛,每個(gè) Topic 包含一個(gè)或多個(gè) Partition属提。
Producer:負(fù)責(zé)發(fā)布消息到 Kafka broker。
Consumer:消息消費(fèi)者,向 Kafka broker 讀取消息的客戶(hù)端冤议。
Consumer Group:每個(gè) Consumer 屬于一個(gè)特定的 Consumer Group(可為每個(gè) Consumer 指定 group name斟薇,若不指定 group name 則屬于默認(rèn)的 group)。
三恕酸、主題(Topic)和日志(Log)
一個(gè)Topic可以認(rèn)為是一類(lèi)消息堪滨,每個(gè)topic將被分成多個(gè)partition(區(qū)),每個(gè)partition在存儲(chǔ)層面是append log文件。任何發(fā)布到此partition的消息都會(huì)被直接追加到log文件的尾部蕊温,每條消息在文件中的位置稱(chēng)為offset(偏移量)袱箱,offset為一個(gè)long型數(shù)字,它用來(lái)唯一標(biāo)記某個(gè)分區(qū)內(nèi)的一條消息义矛。kafka并沒(méi)有提供其它額外的索引機(jī)制來(lái)存儲(chǔ)offset发笔,因?yàn)樵趉afka中幾乎不允許對(duì)消息進(jìn)行“隨機(jī)讀寫(xiě)”。
四凉翻、Consumer與topic關(guān)系以及機(jī)制
Kafka和其它消息系統(tǒng)有一個(gè)不一樣的設(shè)計(jì)了讨,在consumer之上加了一層group。同一個(gè)group的consumer可以并行消費(fèi)同一個(gè)topic的消息制轰,但是同group的consumer量蕊,不會(huì)重復(fù)消費(fèi)。這就好比多個(gè)consumer組成了一個(gè)團(tuán)隊(duì)艇挨,一起干活残炮,當(dāng)然干活的速度就上來(lái)了。group中的consumer是如何配合協(xié)調(diào)的缩滨,其實(shí)和topic的分區(qū)相關(guān)聯(lián)势就,后面我們會(huì)詳細(xì)論述。
如果同一個(gè)topic需要被多次消費(fèi)脉漏,可以通過(guò)設(shè)立多個(gè)consumer group來(lái)實(shí)現(xiàn)苞冯。每個(gè)group分別消費(fèi),互不影響侧巨。
- 如果所有的consumer都具有相同的group舅锄,這種情況和JMS queue模式很像,消息將會(huì)在consumers之間負(fù)載均衡司忱。
- 如果所有的consumer都具有不同的group皇忿,那這就是"發(fā)布-訂閱",消息將會(huì)廣播給所有的消費(fèi)者坦仍。
在kafka中鳍烁,一個(gè)partition中的消息只會(huì)被group中的一個(gè)consumer消費(fèi)(同一時(shí)刻),每個(gè)group中consumer消息消費(fèi)互相獨(dú)立繁扎,我們可以認(rèn)為一個(gè)group是一個(gè)"訂閱"者幔荒。一個(gè)Topic中的每個(gè)partions只會(huì)被一個(gè)"訂閱者"中的一個(gè)consumer消費(fèi)糊闽,不過(guò)一個(gè)consumer可以同時(shí)消費(fèi)多個(gè)partitions中的消息。
kafka只能保證一個(gè)partition中的消息被某個(gè)consumer消費(fèi)時(shí)是順序的爹梁。事實(shí)上右犹,從Topic角度來(lái)說(shuō),,當(dāng)有多個(gè)partitions時(shí)姚垃,消息仍不是全局有序的念链。
通常情況下,一個(gè)group中會(huì)包含多個(gè)consumer莉炉,這樣不僅可以提高topic中消息的并發(fā)消費(fèi)能力钓账,而且還能提高"故障容錯(cuò)"性。如果group中的某個(gè)consumer失效絮宁,那么其消費(fèi)的partitions將會(huì)有其他consumer自動(dòng)接管梆暮。kafka的設(shè)計(jì)原理決定對(duì)于一個(gè)topic,同一個(gè)group中不能有多于partitions個(gè)數(shù)的consumer同時(shí)消費(fèi)绍昂,否則將意味著某些consumer將無(wú)法得到消息啦粹。
參考文章如下:
作者:稀有氣體
來(lái)源:CSDN
原文:https://blog.csdn.net/liyiming2017/article/details/82790040