1掌挚、kafka 簡(jiǎn)介
?kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)智袭,它可以處理百萬(wàn)級(jí)QPS(每秒訪問(wèn)次數(shù))的動(dòng)作流數(shù)據(jù)献烦。
2曙求、kafka名詞解釋
producer :生產(chǎn)者
consumer:消費(fèi)者牌借。
topic: 消息以topic為類別記錄,Kafka將消息分門別類,每一類的消息稱之為一個(gè)主題(Topic)蛉威。
broker:以集群的方式運(yùn)行,可以由一個(gè)或多個(gè)服務(wù)組成,每個(gè)服務(wù)(server)叫做一個(gè)broker;消費(fèi)者可以訂閱一個(gè)或多個(gè)主題(topic),并從Broker拉數(shù)據(jù),從而消費(fèi)這些已發(fā)布的消息走哺。
? ? ? 每個(gè)消息(也叫作record記錄,也被稱為消息)是由一個(gè)key蚯嫌,一個(gè)value和時(shí)間戳構(gòu)成。
3丙躏、kafka應(yīng)用場(chǎng)景
? ? ?(1)? 構(gòu)建實(shí)時(shí)的流數(shù)據(jù)管道择示,可靠地獲取系統(tǒng)和應(yīng)用程序之間的數(shù)據(jù)。
? ? ?(2)? 構(gòu)建實(shí)時(shí)流的應(yīng)用程序晒旅,對(duì)數(shù)據(jù)流進(jìn)行轉(zhuǎn)換或反應(yīng)栅盲。
4、kafka消息傳輸流程
Producer即生產(chǎn)者废恋,向Kafka集群發(fā)送消息谈秫,在發(fā)送消息之前,會(huì)對(duì)消息進(jìn)行分類鱼鼓,即Topic拟烫,上圖展示了兩個(gè)producer發(fā)送了分類為topic1的消息,另外一個(gè)發(fā)送了topic2的消息迄本。
Topic即主題硕淑,通過(guò)對(duì)消息指定主題可以將消息分類,消費(fèi)者可以只關(guān)注自己需要的Topic中的消息
Consumer即消費(fèi)者嘉赎,消費(fèi)者通過(guò)與kafka集群建立長(zhǎng)連接的方式置媳,不斷地從集群中拉取消息,然后可以對(duì)這些消息進(jìn)行處理公条。
從上圖中就可以看出同一個(gè)Topic下的消費(fèi)者和生產(chǎn)者的數(shù)量并不是對(duì)應(yīng)的拇囊。
5、kafka服務(wù)器消息存儲(chǔ)策略
Topic在邏輯上可以被認(rèn)為是一個(gè)queue靶橱,每條消費(fèi)都必須指定它的Topic寥袭,可以簡(jiǎn)單理解為必須指明把這條消息放進(jìn)哪個(gè)queue里路捧。為了使得Kafka的吞吐率可以線性提高,物理上把Topic分成一個(gè)或多個(gè)Partition纠永,每個(gè)Partition在物理上對(duì)應(yīng)一個(gè)文件夾鬓长,該文件夾下存儲(chǔ)這個(gè)Partition的所有消息和索引文件。若創(chuàng)建topic1和topic2兩個(gè)topic尝江,且分別有13個(gè)和19個(gè)分區(qū)涉波,則整個(gè)集群上會(huì)相應(yīng)會(huì)生成共32個(gè)文件夾。
replication-factor : 復(fù)制因子炭序,默認(rèn)設(shè)置為1啤覆。該值的設(shè)置,可以理解為惭聂,創(chuàng)建topic的時(shí)候窗声,設(shè)置復(fù)制因子,比如設(shè)置為3辜纲,那么就會(huì)在集群中將分區(qū)復(fù)制3份笨觅,然后3個(gè)相同的partition就會(huì)推舉一個(gè)leader和兩個(gè)follower,follwer只復(fù)制數(shù)據(jù)耕腾,leader對(duì)外提供服務(wù)见剩,如果這個(gè)leader掛掉了,就會(huì)很快再推舉出一個(gè)leader扫俺。也就為分區(qū)提供了備份容錯(cuò)的功能苍苞。
6、集群與生產(chǎn)者的交互
±俏场(1)生產(chǎn)者在向kafka集群發(fā)送消息的時(shí)候羹呵,可以通過(guò)指定分區(qū)來(lái)發(fā)送到指定的分區(qū)中;
×屏稹(2)也可以通過(guò)指定均衡策略來(lái)將消息發(fā)送到不同的分區(qū)中冈欢;
(3)如果不指定没炒,就會(huì)采用默認(rèn)的隨機(jī)均衡策略涛癌,將消息隨機(jī)的存儲(chǔ)到不同的分區(qū)中。
7送火、集群與消費(fèi)者之間的交互
這是Kafka用來(lái)實(shí)現(xiàn)一個(gè)Topic消息的廣播(發(fā)給所有的Consumer)和單播(發(fā)給某一個(gè)Consumer)的手段。一個(gè)Topic可以對(duì)應(yīng)多個(gè)Consumer Group先匪。如果需要實(shí)現(xiàn)廣播种吸,只要每個(gè)Consumer有一個(gè)獨(dú)立的Group就可以了。要實(shí)現(xiàn)單播只要所有的Consumer在同一個(gè)Group里呀非。用Consumer Group還可以將Consumer進(jìn)行自由的分組而不需要多次發(fā)送消息到不同的Topic坚俗。
下面這個(gè)例子更清晰地展示了Kafka Consumer Group的特性镜盯。首先創(chuàng)建一個(gè)Topic (名為topic1,包含3個(gè)Partition)猖败,然后創(chuàng)建一個(gè)屬于group1的Consumer實(shí)例速缆,并創(chuàng)建三個(gè)屬于group2的Consumer實(shí)例,最后通過(guò)Producer向topic1發(fā)送key分別為1恩闻,2艺糜,3的消息。結(jié)果發(fā)現(xiàn)屬于group1的Consumer收到了所有的這三條消息幢尚,同時(shí)group2中的3個(gè)Consumer分別收到了key為1破停,2,3的消息尉剩。
對(duì)于一個(gè)group而言真慢,消費(fèi)者的數(shù)量不應(yīng)該多余分區(qū)的數(shù)量,因?yàn)樵谝粋€(gè)group中理茎,每個(gè)分區(qū)至多只能綁定到一個(gè)消費(fèi)者上黑界,即一個(gè)消費(fèi)者可以消費(fèi)多個(gè)分區(qū),一個(gè)分區(qū)只能給一個(gè)消費(fèi)者消費(fèi) 因此皂林,若一個(gè)group中的消費(fèi)者數(shù)量大于分區(qū)數(shù)量的話朗鸠,多余的消費(fèi)者將不會(huì)收到任何消息。
一個(gè)topic 可以配置幾個(gè)partition式撼,produce發(fā)送的消息分發(fā)到不同的partition中童社,consumer接受數(shù)據(jù)的時(shí)候是按照group來(lái)接受,kafka確保每個(gè)partition只能同一個(gè)group中的同一個(gè)consumer消費(fèi)著隆,如果想要重復(fù)消費(fèi)扰楼,那么需要其他的組來(lái)消費(fèi)。Zookeerper中保存這每個(gè)topic下的每個(gè)partition在每個(gè)group中消費(fèi)的offset?新版kafka把這個(gè)offsert保存到了一個(gè)__consumer_offsert的topic下?這個(gè)__consumer_offsert 有50個(gè)分區(qū)美浦,通過(guò)將group的id哈希值%50的值來(lái)確定要保存到那一個(gè)分區(qū). ?這樣也是為了考慮到zookeeper不擅長(zhǎng)大量讀寫的原因弦赖。
假設(shè)一個(gè)topic test 被groupA消費(fèi)了,現(xiàn)在啟動(dòng)另外一個(gè)新的groupB來(lái)消費(fèi)test浦辨,默認(rèn)test-groupB的offset不是0蹬竖,而是沒(méi)有新建立,除非當(dāng)test有數(shù)據(jù)的時(shí)候流酬,groupB會(huì)收到該數(shù)據(jù)币厕,該條數(shù)據(jù)也是第一條數(shù)據(jù),groupB的offset也是剛初始化的ofsert, 除非用顯式的用–from-beginnging 來(lái)獲取從0開(kāi)始數(shù)據(jù)?
參考文檔:講的很詳細(xì)
http://blog.csdn.net/ychenfeng/article/details/74980531? ?
https://www.2cto.com/kf/201604/499261.html
https://www.cnblogs.com/sodawoods-blogs/p/8969774.html? ?//編程大牛 消費(fèi)者編程芽腾,致敬