java實(shí)現(xiàn)布隆過(guò)濾器

什么是布隆過(guò)濾器

布隆過(guò)濾器(Bloom Filter)是1970年由布隆提出來(lái)的印蔬。它實(shí)際上是由一個(gè)很長(zhǎng)的二進(jìn)制數(shù)組+一系列hash算法映射函數(shù)勋桶,用于判斷一個(gè)元素是否存在于集合中。

布隆過(guò)濾器可以用于檢索一個(gè)元素是否在一個(gè)集合中侥猬。它的優(yōu)點(diǎn)是空間效率和查詢(xún)時(shí)間都比一般的算法要好的多例驹,缺點(diǎn)是有一定的誤識(shí)別率和刪除困難。


場(chǎng)景

假設(shè)有10億條手機(jī)號(hào)退唠,然后判斷某條手機(jī)號(hào)是否在列表內(nèi)鹃锈?

mysql可以嗎?

正常情況下瞧预,如果數(shù)據(jù)量不大屎债,我們可以考慮使用mysql存儲(chǔ)。將所有數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)垢油,然后每次去庫(kù)里查詢(xún)判斷是否存在盆驹。但是如果數(shù)據(jù)量太大,超過(guò)千萬(wàn)滩愁,mysql查詢(xún)效率是很低的躯喇,特別消耗性能。

HashSet可以嗎

我們可以把數(shù)據(jù)放入HashSet中硝枉,利用HashSet天然的去重性廉丽,查詢(xún)只需要調(diào)用contains方法即可,但是hashset是存放在內(nèi)存中的妻味,數(shù)據(jù)量過(guò)大內(nèi)存直接oom了正压。

布隆過(guò)濾器特點(diǎn)

插入和查詢(xún)效率高,占用空間少弧可,但是返回的結(jié)果是不確定的蔑匣。

一個(gè)元素如果判斷為存在的時(shí)候劣欢,它不一定真的存在。但是如果判斷一個(gè)元素不存在裁良,那么它一定是不存在的凿将。

布隆過(guò)濾器可以添加元素,但是一定不能刪除元素价脾,會(huì)導(dǎo)致誤判率增加牧抵。

布隆過(guò)濾器原理

布隆過(guò)濾器其實(shí)就是是一個(gè)BIT數(shù)組,通過(guò)一系列hash算法映射出對(duì)應(yīng)的hash,然后將hash對(duì)應(yīng)的數(shù)組下標(biāo)位置改為1侨把。查詢(xún)時(shí)就是對(duì)數(shù)據(jù)在進(jìn)行一系列hash算法得到下標(biāo)犀变,從BIT數(shù)組里取數(shù)據(jù)如如果是1 則說(shuō)明數(shù)據(jù)有可能存在,如果是0 說(shuō)明一定不存在

為什么會(huì)有誤差率

我們知道布隆過(guò)濾器其實(shí)是對(duì)數(shù)據(jù)做hash,那么不管用什么算法秋柄,都有可能兩條不同的數(shù)據(jù)生成的hash確是相同的获枝,也就是我們常說(shuō)的hash沖突。

首先插入一條數(shù)據(jù): 好好學(xué)技術(shù)


在插入一條數(shù)據(jù):


這是如果查詢(xún)一條數(shù)據(jù)骇笔,假設(shè)他的hash下標(biāo)已經(jīng)標(biāo)為1了省店,那么布隆過(guò)濾器就會(huì)認(rèn)為他存在


常見(jiàn)使用場(chǎng)景

緩存穿透

java實(shí)現(xiàn)布隆過(guò)濾器

package com.fandf.test.redis;

import java.util.BitSet;

/**

* java布隆過(guò)濾器

*

* @author fandongfeng

*/

public class MyBloomFilter {

? ? /**

? ? * 位數(shù)組大小

? ? */

? ? private static final int DEFAULT_SIZE = 2 << 24;

? ? /**

? ? * 通過(guò)這個(gè)數(shù)組創(chuàng)建多個(gè)Hash函數(shù)

? ? */

? ? private static final int[] SEEDS = new int[]{4, 8, 16, 32, 64, 128, 256};

? ? /**

? ? * 初始化位數(shù)組,數(shù)組中的元素只能是 0 或者 1

? ? */

? ? private final BitSet bits = new BitSet(DEFAULT_SIZE);

? ? /**

? ? * Hash函數(shù)數(shù)組

? ? */

? ? private final MyHash[] myHashes = new MyHash[SEEDS.length];

? ? /**

? ? * 初始化多個(gè)包含 Hash 函數(shù)的類(lèi)數(shù)組笨触,每個(gè)類(lèi)中的 Hash 函數(shù)都不一樣

? ? */

? ? public MyBloomFilter() {

? ? ? ? // 初始化多個(gè)不同的 Hash 函數(shù)

? ? ? ? for (int i = 0; i < SEEDS.length; i++) {

? ? ? ? ? ? myHashes[i] = new MyHash(DEFAULT_SIZE, SEEDS[i]);

? ? ? ? }

? ? }

? ? /**

? ? * 添加元素到位數(shù)組

? ? */

? ? public void add(Object value) {

? ? ? ? for (MyHash myHash : myHashes) {

? ? ? ? ? ? bits.set(myHash.hash(value), true);

? ? ? ? }

? ? }

? ? /**

? ? * 判斷指定元素是否存在于位數(shù)組

? ? */

? ? public boolean contains(Object value) {

? ? ? ? boolean result = true;

? ? ? ? for (MyHash myHash : myHashes) {

? ? ? ? ? ? result = result && bits.get(myHash.hash(value));

? ? ? ? }

? ? ? ? return result;

? ? }

? ? /**

? ? * 自定義 Hash 函數(shù)

? ? */

? ? private class MyHash {

? ? ? ? private int cap;

? ? ? ? private int seed;

? ? ? ? MyHash(int cap, int seed) {

? ? ? ? ? ? this.cap = cap;

? ? ? ? ? ? this.seed = seed;

? ? ? ? }

? ? ? ? /**

? ? ? ? * 計(jì)算 Hash 值

? ? ? ? */

? ? ? ? int hash(Object obj) {

? ? ? ? ? ? return (obj == null) ? 0 : Math.abs(seed * (cap - 1) & (obj.hashCode() ^ (obj.hashCode() >>> 16)));

? ? ? ? }

? ? }

? ? public static void main(String[] args) {

? ? ? ? String str = "好好學(xué)技術(shù)";

? ? ? ? MyBloomFilter myBloomFilter = new MyBloomFilter();

? ? ? ? System.out.println("str是否存在:" + myBloomFilter.contains(str));

? ? ? ? myBloomFilter.add(str);

? ? ? ? System.out.println("str是否存在:" + myBloomFilter.contains(str));

? ? }

}

Guava實(shí)現(xiàn)布隆過(guò)濾器

引入依賴(lài)

<dependency>

? ? <groupId>com.google.guava</groupId>

? ? <artifactId>guava</artifactId>

? ? <version>31.1-jre</version>

</dependency>


package com.fandf.test.redis;

import com.google.common.base.Charsets;

import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

/**

* @author fandongfeng

*/

public class GuavaBloomFilter {

? ? public static void main(String[] args) {

? ? ? ? BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8),100000,0.01);

? ? ? ? bloomFilter.put("好好學(xué)技術(shù)");

? ? ? ? System.out.println(bloomFilter.mightContain("不好好學(xué)技術(shù)"));

? ? ? ? System.out.println(bloomFilter.mightContain("好好學(xué)技術(shù)"));

? ? }

}

hutool實(shí)現(xiàn)布隆過(guò)濾器

引入依賴(lài)

<dependency>

? ? <groupId>cn.hutool</groupId>

? ? <artifactId>hutool-all</artifactId>

? ? <version>5.8.3</version>

</dependency>


package com.fandf.test.redis;

import cn.hutool.bloomfilter.BitMapBloomFilter;

import cn.hutool.bloomfilter.BloomFilterUtil;

/**

* @author fandongfeng

*/

public class HutoolBloomFilter {

? ? public static void main(String[] args) {

? ? ? ? BitMapBloomFilter bloomFilter = BloomFilterUtil.createBitMap(1000);

? ? ? ? bloomFilter.add("好好學(xué)技術(shù)");

? ? ? ? System.out.println(bloomFilter.contains("不好好學(xué)技術(shù)"));

? ? ? ? System.out.println(bloomFilter.contains("好好學(xué)技術(shù)"));

? ? }

}


Redisson實(shí)現(xiàn)布隆過(guò)濾器

引入依賴(lài)

<dependency>

? ? <groupId>org.redisson</groupId>

? ? <artifactId>redisson</artifactId>

? ? <version>3.20.0</version>

</dependency>


package com.fandf.test.redis;

import org.redisson.Redisson;

import org.redisson.api.RBloomFilter;

import org.redisson.api.RedissonClient;

import org.redisson.config.Config;

/**

* Redisson 實(shí)現(xiàn)布隆過(guò)濾器

* @author fandongfeng

*/

public class RedissonBloomFilter {

? ? public static void main(String[] args) {

? ? ? ? Config config = new Config();

? ? ? ? config.useSingleServer().setAddress("redis://127.0.0.1:6379");

? ? ? ? //構(gòu)造Redisson

? ? ? ? RedissonClient redisson = Redisson.create(config);

? ? ? ? RBloomFilter<String> bloomFilter = redisson.getBloomFilter("name");

? ? ? ? //初始化布隆過(guò)濾器:預(yù)計(jì)元素為100000000L,誤差率為1%

? ? ? ? bloomFilter.tryInit(100000000L,0.01);

? ? ? ? bloomFilter.add("好好學(xué)技術(shù)");

? ? ? ? System.out.println(bloomFilter.contains("不好好學(xué)技術(shù)"));

? ? ? ? System.out.println(bloomFilter.contains("好好學(xué)技術(shù)"));

? ? }

}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末懦傍,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子芦劣,更是在濱河造成了極大的恐慌粗俱,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件虚吟,死亡現(xiàn)場(chǎng)離奇詭異寸认,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)稍味,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)废麻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人模庐,你說(shuō)我怎么就攤上這事∮鸵耍” “怎么了掂碱?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,285評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)慎冤。 經(jīng)常有香客問(wèn)我疼燥,道長(zhǎng),這世上最難降的妖魔是什么蚁堤? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,485評(píng)論 1 283
  • 正文 為了忘掉前任醉者,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘撬即。我一直安慰自己立磁,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布剥槐。 她就那樣靜靜地躺著唱歧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪粒竖。 梳的紋絲不亂的頭發(fā)上颅崩,一...
    開(kāi)封第一講書(shū)人閱讀 49,821評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音蕊苗,去河邊找鬼沿后。 笑死,一個(gè)胖子當(dāng)著我的面吹牛朽砰,可吹牛的內(nèi)容都是我干的尖滚。 我是一名探鬼主播,決...
    沈念sama閱讀 38,960評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼锅移,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼熔掺!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起非剃,我...
    開(kāi)封第一講書(shū)人閱讀 37,719評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤置逻,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后备绽,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體券坞,經(jīng)...
    沈念sama閱讀 44,186評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評(píng)論 2 327
  • 正文 我和宋清朗相戀三年肺素,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了恨锚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,650評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡倍靡,死狀恐怖猴伶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情塌西,我是刑警寧澤他挎,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站捡需,受9級(jí)特大地震影響办桨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜站辉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評(píng)論 3 313
  • 文/蒙蒙 一呢撞、第九天 我趴在偏房一處隱蔽的房頂上張望损姜。 院中可真熱鬧,春花似錦殊霞、人聲如沸摧阅。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,757評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)逸尖。三九已至,卻和暖如春瘸右,著一層夾襖步出監(jiān)牢的瞬間娇跟,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,991評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工太颤, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留苞俘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,370評(píng)論 2 360
  • 正文 我出身青樓龄章,卻偏偏與公主長(zhǎng)得像吃谣,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子做裙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容

  • 記得前段時(shí)間的文章么岗憋?redis使用位圖法記錄在線(xiàn)用戶(hù)的狀態(tài),還是需要自己實(shí)現(xiàn)一個(gè)IM在線(xiàn)用戶(hù)狀態(tài)的記錄锚贱,今天來(lái)講...
    小草莓子桑閱讀 4,072評(píng)論 3 11
  • 什么是 BloomFilter 布隆過(guò)濾器(英語(yǔ):Bloom Filter)是 1970 年由布隆提出的仔戈。它實(shí)際上...
    JavaKeeper_海星閱讀 741評(píng)論 0 0
  • 一、布隆過(guò)濾器 1.1 原理 1.1.1 布隆過(guò)濾器基礎(chǔ)版 原理就是一個(gè)對(duì)一個(gè)key進(jìn)行k個(gè)hash算法獲取k個(gè)值...
    CJ21閱讀 5,002評(píng)論 0 5
  • 一拧廊、什么是布隆過(guò)濾器监徘? 布隆過(guò)濾器可以用來(lái)判斷一個(gè)元素是否在一個(gè)集合中。它的優(yōu)勢(shì)是只需要占用很小的內(nèi)存空間以及有著...
    王知無(wú)閱讀 1,395評(píng)論 1 8
  • 什么是 BloomFilter 布隆過(guò)濾器(英語(yǔ):Bloom Filter)是 1970 年由布隆提出的吧碾。它實(shí)際上...
    AnyL8023閱讀 453評(píng)論 0 0