Kafka 之壓縮算法&Hash算法

Kafka 支持的壓縮算法還挺多的,這一篇來站在Kafka的角度看一下壓縮算法秉剑。就當(dāng)前情況來說泛豪,支持GZIP、Snappy、LZ4 這三種壓縮算法诡曙。具體是通過compression.type 來開啟消息壓縮并且設(shè)定具體的壓縮算法臀叙。

props.put(“compressions.type”, “GZIP”);

或者

props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, “GZIP”)

壓縮算法是要占用挺大一部分cpu資源的并且耗時(shí)也是不小的,而壓縮的目的很大程度上是為了提升網(wǎng)絡(luò)傳輸?shù)男阅芗勐保吘剐↑c(diǎn)傳得快嘛劝萤。但是整個(gè)壓縮的過程也是很耗時(shí)的,通常來說KafkaProducer.send( )主要時(shí)間其實(shí)都花在在壓縮操作上荠雕,如果壓縮的過程十分漫長稳其,那么壓縮就顯得有點(diǎn)多余了,所以選擇一個(gè)高性能的壓縮算法是十分關(guān)鍵的炸卑。而且就現(xiàn)狀來說對于Kafka這種消息系統(tǒng)瓶頸往往不是CPU既鞠,通常來說都是受網(wǎng)絡(luò)帶寬。

下面來看看GZIP盖文、Snappy嘱蛋、LZ4 這三種壓縮算法

GZIP

GZIP是GNUzip的縮寫,最初是用于UNIX系統(tǒng)的文件壓縮五续,常見的.gz的壓縮文件就是gzip所壓縮得到的洒敏,通常來說,對于純文本內(nèi)容疙驾,可以壓縮到原大小的40%來進(jìn)行傳輸凶伙,Java 實(shí)現(xiàn)的gzip 和 unix下的gzip 壓縮效率和壓縮率是很相近的。

Snappy

Snappy是谷歌開源的一個(gè)壓縮/解壓庫它碎,其實(shí)Snappy的壓縮率挺一般的函荣,可能比我們常見的壓縮算法壓縮率都要差,但是Snappy 對于Kafka 這種消息系統(tǒng)來說有一個(gè)顯著的優(yōu)點(diǎn)扳肛,它的壓縮速率基本上是第一的傻挂。最初的設(shè)計(jì)目的就是用來平衡壓縮時(shí)間與壓縮率的的蒿辙,對于一些常規(guī)的文件平窘,多那么1、2 k但是要多花那么幾毫秒折剃,其實(shí)還挺得不償失的套腹,在Snappy最初推出的時(shí)候所重點(diǎn)宣傳的其實(shí)就是壓縮速率而非壓縮率绪抛。

LZ4

LZ4其實(shí)和snappy的初衷是相同的,但是LZ4追求壓縮速率的同時(shí)相對于snappy來說电禀,不僅壓縮更快了睦疫,壓縮率也更佳可觀了,同樣是谷歌開發(fā)的鞭呕。去看LZ4相關(guān)介紹的時(shí)候,提到了LZ77,博主是這么介紹LZ4的:LZ4就是一個(gè)用16k大小哈希表儲存字典并簡化檢索的LZ77葫松,而LZ77是一個(gè)應(yīng)用了字典來進(jìn)行壓縮的算法瓦糕。通俗來說,就是讓程序觀察(看字典)當(dāng)前看到的數(shù)據(jù)是否和之前有重復(fù)腋么, 如果有的話咕娄,我們就保存兩個(gè)重復(fù)字段的距離(offset)和重復(fù)的長度,以替代重復(fù)的字段而以此來壓縮數(shù)據(jù)珊擂。
其中LZ77 最大的缺陷是在字典中尋找待匹配的最長的字符串占用了大量的時(shí)間圣勒,如果字典和待搜索的緩存過短,能匹配到的概率就會非常小摧扇,針對這個(gè)問題LZ4做出了自己的改進(jìn)圣贸,從而進(jìn)一步的提升了壓縮速率。
因?yàn)槲覍嚎s算法也不是很熟悉扛稽,只能概要的介紹一下吁峻,推給大家,還請見諒在张,以后有機(jī)會仔細(xì)的來看這些壓縮算法用含,下面是幾種算法的一個(gè)比較,然后Kafka是按照batch對消息進(jìn)行壓縮的帮匾。

image.png

然后接下來Hash算法啄骇,Hash算法在Kafka 中被用來作為具體的分區(qū)選擇,這決定分區(qū)的選擇是否公平瘟斜、分配到的各個(gè)分區(qū)的消息和請求書是夠均衡缸夹。

Kafka 中使用的Hash算法叫做murmur2murmurHash是一種比較先進(jìn)的非加密Hash算法(主要還是用來Kafka這種選擇的場景)哼转,當(dāng)前最新的版本是murmur3明未,它能在有規(guī)律的輸入時(shí)也能保證分布較為均勻,使用這個(gè)算法的還有redis(當(dāng)字典被用作數(shù)據(jù)庫的底層實(shí)現(xiàn)或者h(yuǎn)ash鍵的底層實(shí)現(xiàn)時(shí)壹蔓,來計(jì)算鍵的哈希值)趟妥、nginx、Hadoop佣蓉。然后說到Hash披摄,Java 中最常見的HashMap 采用的xors hash。

我們經(jīng)常在一些場景中聽到加密Hash 或者 不加密Hash這樣的一些詞兒勇凭,有時(shí)候感覺一些Hash散列算法就是加密疚膊,其實(shí)這方面是存在一些界限的。準(zhǔn)確來說Hash算法是一種消息摘要算法虾标,不是一種加密算法寓盗,但是因?yàn)镠ash算法的單向運(yùn)算(存在一定程度上的不可逆性),所以經(jīng)常被用來作為加密算法中的一個(gè)重要構(gòu)成部分,但是完整的加密算法遠(yuǎn)不止Hash算法(通常來說傀蚌,加密算法是可逆的)基显,除了加密算法,Hash本身最適合的場景其實(shí)是HashMap善炫、Kafka分區(qū)選擇這種選擇的場景撩幽。

這一篇說了一些概念和個(gè)人的見解,不是很熟悉箩艺,見諒窜醉。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市艺谆,隨后出現(xiàn)的幾起案子榨惰,更是在濱河造成了極大的恐慌,老刑警劉巖擂涛,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件读串,死亡現(xiàn)場離奇詭異,居然都是意外死亡撒妈,警方通過查閱死者的電腦和手機(jī)恢暖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來狰右,“玉大人杰捂,你說我怎么就攤上這事∑灏觯” “怎么了嫁佳?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長谷暮。 經(jīng)常有香客問我蒿往,道長,這世上最難降的妖魔是什么湿弦? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任瓤漏,我火速辦了婚禮,結(jié)果婚禮上颊埃,老公的妹妹穿的比我還像新娘蔬充。我一直安慰自己,他們只是感情好班利,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布饥漫。 她就那樣靜靜地躺著,像睡著了一般罗标。 火紅的嫁衣襯著肌膚如雪庸队。 梳的紋絲不亂的頭發(fā)上积蜻,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天,我揣著相機(jī)與錄音彻消,去河邊找鬼浅侨。 笑死,一個(gè)胖子當(dāng)著我的面吹牛证膨,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播鼓黔,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼央勒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了澳化?” 一聲冷哼從身側(cè)響起崔步,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎缎谷,沒想到半個(gè)月后井濒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡列林,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年瑞你,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片希痴。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡者甲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出砌创,到底是詐尸還是另有隱情虏缸,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布嫩实,位于F島的核電站刽辙,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏甲献。R本人自食惡果不足惜宰缤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望竟纳。 院中可真熱鬧撵溃,春花似錦、人聲如沸锥累。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽桶略。三九已至语淘,卻和暖如春诲宇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背惶翻。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工姑蓝, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吕粗。 一個(gè)月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓纺荧,卻偏偏與公主長得像,于是被迫代替她去往敵國和親颅筋。 傳聞我的和親對象是個(gè)殘疾皇子宙暇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容

  • tl;dr(太長不讀):zstd是Facebook在2016年開源的新無損壓縮算法占贫,優(yōu)點(diǎn)是壓縮率和壓縮/解壓縮性能...
    petergz閱讀 58,866評論 5 16
  • Design 1. Motivation 我們設(shè)計(jì)Kafka用來作為統(tǒng)一的平臺來處理大公司可能擁有的所有實(shí)時(shí)數(shù)據(jù)源...
    BlackManba_24閱讀 1,358評論 0 8
  • 一、kafka壓縮幾點(diǎn)說明 首先說明一點(diǎn)kafka的壓縮和kafka的compact是不同的先口,compact就是相...
    明翼閱讀 14,745評論 1 3
  • 前言 看完本文你將學(xué)會以下知識: kafka 數(shù)據(jù)的生產(chǎn)大致流程 如何創(chuàng)建并使用 kafka生產(chǎn)者 kafka生產(chǎn)...
    code_solve閱讀 10,738評論 1 10
  • 題目1:如何判斷一個(gè)元素是否出現(xiàn)在窗口可視范圍(瀏覽器的上邊緣和下邊緣之間型奥,肉眼可視)。寫一個(gè)函數(shù) isVisib...
    QQQQQCY閱讀 144評論 0 0