Kafka 之壓縮算法&Hash算法

Kafka 支持的壓縮算法還挺多的，這一篇來站在Kafka的角度看一下壓縮算法秉剑。就當(dāng)前情況來說泛豪，支持GZIP、Snappy、LZ4 這三種壓縮算法诡曙。具體是通過compression.type 來開啟消息壓縮并且設(shè)定具體的壓縮算法臀叙。

props.put(“compressions.type”, “GZIP”);

或者

props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, “GZIP”)

壓縮算法是要占用挺大一部分cpu資源的并且耗時(shí)也是不小的，而壓縮的目的很大程度上是為了提升網(wǎng)絡(luò)傳輸?shù)男阅芗勐保吘剐↑c(diǎn)傳得快嘛劝萤。但是整個(gè)壓縮的過程也是很耗時(shí)的，通常來說KafkaProducer.send( )主要時(shí)間其實(shí)都花在在壓縮操作上荠雕，如果壓縮的過程十分漫長稳其，那么壓縮就顯得有點(diǎn)多余了，所以選擇一個(gè)高性能的壓縮算法是十分關(guān)鍵的炸卑。而且就現(xiàn)狀來說對于Kafka這種消息系統(tǒng)瓶頸往往不是CPU既鞠，通常來說都是受網(wǎng)絡(luò)帶寬。

下面來看看GZIP盖文、Snappy嘱蛋、LZ4 這三種壓縮算法

GZIP

GZIP是GNUzip的縮寫，最初是用于UNIX系統(tǒng)的文件壓縮五续，常見的.gz的壓縮文件就是gzip所壓縮得到的洒敏，通常來說，對于純文本內(nèi)容疙驾，可以壓縮到原大小的40%來進(jìn)行傳輸凶伙，Java 實(shí)現(xiàn)的gzip 和 unix下的gzip 壓縮效率和壓縮率是很相近的。

Snappy

Snappy是谷歌開源的一個(gè)壓縮/解壓庫它碎，其實(shí)Snappy的壓縮率挺一般的函荣，可能比我們常見的壓縮算法壓縮率都要差，但是Snappy 對于Kafka 這種消息系統(tǒng)來說有一個(gè)顯著的優(yōu)點(diǎn)扳肛，它的壓縮速率基本上是第一的傻挂。最初的設(shè)計(jì)目的就是用來平衡壓縮時(shí)間與壓縮率的的蒿辙，對于一些常規(guī)的文件平窘，多那么1、2 k但是要多花那么幾毫秒折剃，其實(shí)還挺得不償失的套腹，在Snappy最初推出的時(shí)候所重點(diǎn)宣傳的其實(shí)就是壓縮速率而非壓縮率绪抛。

LZ4

LZ4其實(shí)和snappy的初衷是相同的，但是LZ4追求壓縮速率的同時(shí)相對于snappy來說电禀，不僅壓縮更快了睦疫，壓縮率也更佳可觀了，同樣是谷歌開發(fā)的鞭呕。去看LZ4相關(guān)介紹的時(shí)候，提到了LZ77，博主是這么介紹LZ4的：LZ4就是一個(gè)用16k大小哈希表儲存字典并簡化檢索的LZ77葫松，而LZ77是一個(gè)應(yīng)用了字典來進(jìn)行壓縮的算法瓦糕。通俗來說，就是讓程序觀察（看字典）當(dāng)前看到的數(shù)據(jù)是否和之前有重復(fù)腋么，如果有的話咕娄，我們就保存兩個(gè)重復(fù)字段的距離（offset）和重復(fù)的長度，以替代重復(fù)的字段而以此來壓縮數(shù)據(jù)珊擂。
其中LZ77 最大的缺陷是在字典中尋找待匹配的最長的字符串占用了大量的時(shí)間圣勒，如果字典和待搜索的緩存過短，能匹配到的概率就會非常小摧扇，針對這個(gè)問題LZ4做出了自己的改進(jìn)圣贸，從而進(jìn)一步的提升了壓縮速率。
因?yàn)槲覍嚎s算法也不是很熟悉扛稽，只能概要的介紹一下吁峻，推給大家，還請見諒在张，以后有機(jī)會仔細(xì)的來看這些壓縮算法用含，下面是幾種算法的一個(gè)比較，然后Kafka是按照batch對消息進(jìn)行壓縮的帮匾。

image.png

然后接下來Hash算法啄骇，Hash算法在Kafka 中被用來作為具體的分區(qū)選擇，這決定分區(qū)的選擇是否公平瘟斜、分配到的各個(gè)分區(qū)的消息和請求書是夠均衡缸夹。

Kafka 中使用的Hash算法叫做murmur2，murmurHash是一種比較先進(jìn)的非加密Hash算法（主要還是用來Kafka這種選擇的場景）哼转，當(dāng)前最新的版本是murmur3明未，它能在有規(guī)律的輸入時(shí)也能保證分布較為均勻，使用這個(gè)算法的還有redis（當(dāng)字典被用作數(shù)據(jù)庫的底層實(shí)現(xiàn)或者h(yuǎn)ash鍵的底層實(shí)現(xiàn)時(shí)壹蔓，來計(jì)算鍵的哈希值）趟妥、nginx、Hadoop佣蓉。然后說到Hash披摄，Java 中最常見的HashMap 采用的xors hash。

我們經(jīng)常在一些場景中聽到加密Hash 或者不加密Hash這樣的一些詞兒勇凭，有時(shí)候感覺一些Hash散列算法就是加密疚膊，其實(shí)這方面是存在一些界限的。準(zhǔn)確來說Hash算法是一種消息摘要算法虾标，不是一種加密算法寓盗，但是因?yàn)镠ash算法的單向運(yùn)算（存在一定程度上的不可逆性），所以經(jīng)常被用來作為加密算法中的一個(gè)重要構(gòu)成部分，但是完整的加密算法遠(yuǎn)不止Hash算法（通常來說傀蚌，加密算法是可逆的）基显，除了加密算法，Hash本身最適合的場景其實(shí)是HashMap善炫、Kafka分區(qū)選擇這種選擇的場景撩幽。

這一篇說了一些概念和個(gè)人的見解，不是很熟悉箩艺，見諒窜醉。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市艺谆，隨后出現(xiàn)的幾起案子榨惰，更是在濱河造成了極大的恐慌，老刑警劉巖擂涛，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件读串，死亡現(xiàn)場離奇詭異，居然都是意外死亡撒妈，警方通過查閱死者的電腦和手機(jī)恢暖，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來狰右，“玉大人杰捂，你說我怎么就攤上這事∑灏觯” “怎么了嫁佳？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長谷暮。經(jīng)常有香客問我蒿往，道長，這世上最難降的妖魔是什么湿弦？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任瓤漏，我火速辦了婚禮，結(jié)果婚禮上颊埃，老公的妹妹穿的比我還像新娘蔬充。我一直安慰自己，他們只是感情好班利，可當(dāng)我...
茶點(diǎn)故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布饥漫。她就那樣靜靜地躺著，像睡著了一般罗标。火紅的嫁衣襯著肌膚如雪庸队。梳的紋絲不亂的頭發(fā)上积蜻，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天，我揣著相機(jī)與錄音彻消，去河邊找鬼浅侨。笑死，一個(gè)胖子當(dāng)著我的面吹牛证膨，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播鼓黔，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼央勒，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了澳化？” 一聲冷哼從身側(cè)響起崔步，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎缎谷，沒想到半個(gè)月后井濒，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,586評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡列林，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年瑞你，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片希痴。...
茶點(diǎn)故事閱讀 38,137評論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡者甲，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出砌创，到底是詐尸還是另有隱情虏缸，我是刑警寧澤，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布嫩实，位于F島的核電站刽辙，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏甲献。R本人自食惡果不足惜宰缤，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望竟纳。院中可真熱鬧撵溃，春花似錦、人聲如沸锥累。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽桶略。三九已至语淘，卻和暖如春诲宇，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背惶翻。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工姑蓝，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人吕粗。一個(gè)月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓纺荧，卻偏偏與公主長得像，于是被迫代替她去往敵國和親颅筋。傳聞我的和親對象是個(gè)殘疾皇子宙暇，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,901評論 2贊 345

Kafka 之壓縮算法&Hash算法

GZIP

Snappy

LZ4

推薦閱讀更多精彩內(nèi)容