Kafka 技術(shù)匯總

1 基本概念

Kafka 是一個分布式消息隊(duì)列拔疚，具有高性能肥隆、持久化、多副本備份稚失、橫向擴(kuò)展能力栋艳。生產(chǎn)者往隊(duì)列里寫消息，消費(fèi)者從隊(duì)列里取消息進(jìn)行業(yè)務(wù)邏輯墩虹。一般在架構(gòu)設(shè)計(jì)中起到解耦嘱巾、削峰、異步處理的作用诫钓。
（1）生產(chǎn)者和消費(fèi)者（producer和consumer）：消息的發(fā)送者叫 Producer，消息的使用者和接受者是 Consumer篙螟，生產(chǎn)者將數(shù)據(jù)保存到 Kafka 集群中菌湃，消費(fèi)者從中獲取消息進(jìn)行業(yè)務(wù)的處理。

image

（2）broker：Kafka 集群中有很多臺 Server遍略，其中每一臺 Server 都可以存儲消息惧所，將每一臺 Server 稱為一個 kafka 實(shí)例，也叫做 broker绪杏。

（3）主題（topic）：一個 topic 里保存的是同一類消息下愈，相當(dāng)于對消息的分類，每個 producer 將消息發(fā)送到 kafka 中蕾久，都需要指明要存的 topic 是哪個势似，也就是指明這個消息屬于哪一類。

（4）分區(qū)（partition）：每個 topic 都可以分成多個 partition僧著，每個 partition 在存儲層面是 append log 文件履因。任何發(fā)布到此 partition 的消息都會被直接追加到 log 文件的尾部。為什么要進(jìn)行分區(qū)呢盹愚？最根本的原因就是：kafka基于文件進(jìn)行存儲栅迄，當(dāng)文件內(nèi)容大到一定程度時，很容易達(dá)到單個磁盤的上限皆怕，因此毅舆，采用分區(qū)的辦法西篓，一個分區(qū)對應(yīng)一個文件，這樣就可以將數(shù)據(jù)分別存儲到不同的server上去憋活，另外這樣做也可以負(fù)載均衡污淋，容納更多的消費(fèi)者。

（5）偏移量（Offset）：一個分區(qū)對應(yīng)一個磁盤上的文件余掖，而消息在文件中的位置就稱為 offset（偏移量）寸爆，offset 為一個 long 型數(shù)字，它可以唯一標(biāo)記一條消息盐欺。由于kafka 并沒有提供其他額外的索引機(jī)制來存儲 offset赁豆，文件只能順序的讀寫，所以在kafka中幾乎不允許對消息進(jìn)行“隨機(jī)讀寫”冗美。
（6）分布式和分區(qū)（distributed魔种、partitioned）
??我們說 kafka 是一個分布式消息系統(tǒng)，所謂的分布式粉洼，實(shí)際上我們已經(jīng)大致了解节预。消息保存在 Topic 中，而為了能夠?qū)崿F(xiàn)大數(shù)據(jù)的存儲属韧，一個 topic 劃分為多個分區(qū)安拟，每個分區(qū)對應(yīng)一個文件，可以分別存儲到不同的機(jī)器上宵喂，以實(shí)現(xiàn)分布式的集群存儲糠赦。另外，每個 partition 可以有一定的副本锅棕，備份到多臺機(jī)器上拙泽，以提高可用性。

總結(jié)起來就是：一個 topic 對應(yīng)的多個 partition 分散存儲到集群中的多個 broker 上裸燎，存儲方式是一個 partition 對應(yīng)一個文件顾瞻，每個 broker 負(fù)責(zé)存儲在自己機(jī)器上的 partition 中的消息讀寫。
（7）副本（replicated ）
kafka 還可以配置 partitions 需要備份的個數(shù)(replicas),每個 partition 將會被備份到多臺機(jī)器上,以提高可用性德绿，備份的數(shù)量可以通過配置文件指定荷荤。

這種冗余備份的方式在分布式系統(tǒng)中是很常見的，那么既然有副本脆炎，就涉及到對同一個文件的多個備份如何進(jìn)行管理和調(diào)度梅猿。kafka 采取的方案是：每個 partition 選舉一個 server 作為“l(fā)eader”，由 leader 負(fù)責(zé)所有對該分區(qū)的讀寫秒裕，其他 server 作為 follower 只需要簡單的與 leader 同步袱蚓，保持跟進(jìn)即可。如果原來的 leader 失效几蜻，會重新選舉由其他的 follower 來成為新的 leader喇潘。

至于如何選取 leader体斩，實(shí)際上如果我們了解 ZooKeeper，就會發(fā)現(xiàn)其實(shí)這正是 Zookeeper 所擅長的颖低，Kafka 使用 ZK 在 Broker 中選出一個 Controller絮吵，用于 Partition 分配和 Leader 選舉。

另外忱屑，這里我們可以看到蹬敲，實(shí)際上作為 leader 的 server 承擔(dān)了該分區(qū)所有的讀寫請求，因此其壓力是比較大的莺戒，從整體考慮伴嗡，有多少個 partition 就意味著會有多少個leader，kafka 會將 leader 分散到不同的 broker 上从铲，確保整體的負(fù)載均衡瘪校。

2. zookeeper 作用

Apache Kafka 的一個關(guān)鍵依賴是 Apache Zookeeper，它是一個分布式配置和同步服務(wù)名段。Zookeeper 是 Kafka 代理和消費(fèi)者之間的協(xié)調(diào)接口阱扬。Kafka 服務(wù)器通過 Zookeeper 集群共享信息。Kafka 在 Zookeeper 中存儲基本元數(shù)據(jù)伸辟，例如關(guān)于主題麻惶，代理，消費(fèi)者偏移(隊(duì)列讀取器)等的信息自娩。

由于所有關(guān)鍵信息存儲在 Zookeeper 中用踩，并且它通常在其整體上復(fù)制此數(shù)據(jù)，因此Kafka代理/ Zookeeper 的故障不會影響 Kafka 集群的狀態(tài)忙迁。Kafka 將恢復(fù)狀態(tài)，一旦 Zookeeper 重新啟動碎乃。這為Kafka帶來了零停機(jī)時間姊扔。Kafka 代理之間的領(lǐng)導(dǎo)者選舉也通過使用 Zookeeper 在領(lǐng)導(dǎo)者失敗的情況下完成。

3.發(fā)布 - 訂閱消息的工作流程

生產(chǎn)者定期向主題發(fā)送消息梅誓。
Kafka 代理存儲為該特定主題配置的分區(qū)中的所有消息恰梢。它確保消息在分區(qū)之間平等共享。如果生產(chǎn)者發(fā)送兩個消息并且有兩個分區(qū)梗掰，Kafka 將在第一分區(qū)中存儲一個消息嵌言，在第二分區(qū)中存儲第二消息。
消費(fèi)者訂閱特定主題及穗。
一旦消費(fèi)者訂閱主題摧茴，Kafka 將向消費(fèi)者提供主題的當(dāng)前偏移，并且還將偏移保存在 Zookeeper 系統(tǒng)中埂陆。
消費(fèi)者將定期請求 Kafka (如100 Ms)新消息苛白。
一旦 Kafka 收到來自生產(chǎn)者的消息娃豹，它將這些消息轉(zhuǎn)發(fā)給消費(fèi)者。
消費(fèi)者將收到消息并進(jìn)行處理购裙。
一旦消息被處理懂版，消費(fèi)者將向 Kafka 代理發(fā)送確認(rèn)。
一旦 Kafka 收到確認(rèn)躏率，它將偏移更改為新值躯畴，并在 Zookeeper 中更新它。由于偏移在 - Zookeeper 中維護(hù)薇芝，消費(fèi)者可以正確地讀取下一封郵件蓬抄，即使在服務(wù)器暴力期間。

以上流程將重復(fù)恩掷，直到消費(fèi)者停止請求倡鲸。
消費(fèi)者可以隨時回退/跳到所需的主題偏移量，并閱讀所有后續(xù)消息黄娘。

4.隊(duì)列消息/用戶組的工作流

在隊(duì)列消息傳遞系統(tǒng)而不是單個消費(fèi)者中峭状，具有相同組 ID 的一組消費(fèi)者將訂閱主題。簡單來說逼争，訂閱具有相同 Group ID 的主題的消費(fèi)者被認(rèn)為是單個組优床，并且消息在它們之間共享。讓我們檢查這個系統(tǒng)的實(shí)際工作流程誓焦。

生產(chǎn)者以固定間隔向某個主題發(fā)送消息胆敞。
Kafka存儲在為該特定主題配置的分區(qū)中的所有消息，類似于前面的方案杂伟。
單個消費(fèi)者訂閱特定主題移层，假設(shè) Topic-01 為 Group ID 為 Group-1 。
Kafka 以與發(fā)布 - 訂閱消息相同的方式與消費(fèi)者交互赫粥，直到新消費(fèi)者以相同的組 ID 訂閱相同主題Topic-01 1 观话。
一旦新消費(fèi)者到達(dá)，Kafka 將其操作切換到共享模式，并在兩個消費(fèi)者之間共享數(shù)據(jù)。此共享將繼續(xù)甜攀，直到用戶數(shù)達(dá)到為該特定主題配置的分區(qū)數(shù)。
一旦消費(fèi)者的數(shù)量超過分區(qū)的數(shù)量晦溪，新消費(fèi)者將不會接收任何進(jìn)一步的消息，直到現(xiàn)有消費(fèi)者取消訂閱任何一個消費(fèi)者挣跋。出現(xiàn)這種情況是因?yàn)?Kafka 中的每個消費(fèi)者將被分配至少一個分區(qū)三圆，并且一旦所有分區(qū)被分配給現(xiàn)有消費(fèi)者，新消費(fèi)者將必須等待。

此功能也稱為使用者組嫌术。同樣哀澈，Kafka 將以非常簡單和高效的方式提供兩個系統(tǒng)中最好的。

5.分布式度气、副本割按、選舉的實(shí)現(xiàn)

https://www.orchome.com/22

6.Kafka的消息結(jié)構(gòu)？

xx.index ：相對offset ,絕對position
xx.log :offset,position,message
xx.timeindex:time,相對offset

(1)查找segment file
00000000000000000000.index表示最開始的文件磷籍，起始偏移量(offset)為0.第二個文件00000000000000368769.index的消息量起始偏移量為368770 = 368769 + 1.同樣适荣，第三個文件00000000000000737337.index的起始偏移量為737338=737337 + 1，其他后續(xù)文件依次類推院领，以起始偏移量命名并排序這些文件弛矛，只要根據(jù)offset 二分查找文件列表，就可以快速定位到具體文件比然。
當(dāng)offset=368776時定位到00000000000000368769.index|log

(2)通過segment file查找message
通過第一步定位到segment file丈氓，當(dāng)offset=368776時，依次定位到00000000000000368769.index的元數(shù)據(jù)物理位置和00000000000000368769.log的物理偏移地址强法，然后再通過00000000000000368769.log順序查找直到offset=368776為止万俗。

https://blog.csdn.net/hyj_king/article/details/105710993
https://www.orchome.com/28
https://www.orchome.com/29

問題

消費(fèi)者側(cè)在獲取消息時，是通過主動去pull消息呢饮怯？還是由Kafka給消費(fèi)者push消息闰歪？
答：
在 kafka 中，采用了 pull 方式蓖墅，即 consumer 在和 broker 建立連接之后库倘，主動去 pull(或者說 fetch )消息，首先 consumer 端可以根據(jù)自己的消費(fèi)能力適時的去 fetch 消息并處理论矾，且可以控制消息消費(fèi)的進(jìn)度(offset)教翩。
??partition 中的消息只有一個 consumer 在消費(fèi)，且不存在消息狀態(tài)的控制贪壳，也沒有復(fù)雜的消息確認(rèn)機(jī)制迂曲，可見 kafka broker 端是相當(dāng)輕量級的。當(dāng)消息被 consumer 接收之后寥袭，需要保存 Offset 記錄消費(fèi)到哪，以前保存在 ZK 中关霸，由于 ZK 的寫性能不好传黄，以前的解決方法都是 Consumer 每隔一分鐘上報一次，在 0.10 版本后队寇，Kafka 把這個 Offset 的保存膘掰，從 ZK 中剝離，保存在一個名叫 consumeroffsets topic 的 Topic 中，由此可見识埋，consumer 客戶端也很輕量級凡伊。

https://www.orchome.com/20

數(shù)據(jù)可靠性和重復(fù)消費(fèi)
生產(chǎn)者把消息發(fā)給Kafka，發(fā)送過程中掛掉窒舟、或者Kafka保存消息時發(fā)生異常怎么辦系忙？同理，消費(fèi)者獲取消費(fèi)時發(fā)生異常怎么辦惠豺？甚至银还，如果消費(fèi)者已經(jīng)消費(fèi)了數(shù)據(jù)，但是修改offset時失敗了洁墙，導(dǎo)致重復(fù)消費(fèi)怎么辦？

發(fā)送可靠性：發(fā)送消息后热监，等待確認(rèn)（需要確保足夠副本節(jié)點(diǎn)可用狀態(tài)）
提交offset，但處理消息失敗孝扛，需要保存offset列吼，重復(fù)消費(fèi)
重復(fù)消費(fèi)：有業(yè)務(wù)端來保障（比如數(shù)據(jù)表唯一性）