布隆過濾器

1.定義

布隆過濾器是一種數(shù)據(jù)結(jié)構(gòu)瞒滴,特點(diǎn)是高效地插入和查詢,可以用來告訴你 “某樣?xùn)|西一定不存在或者可能存在”,由二進(jìn)制向量(或者說位數(shù)組)和一系列隨機(jī)映射函數(shù)(哈希函數(shù))兩部分組成的數(shù)據(jù)結(jié)構(gòu)逸吵。

布隆過濾器是一種來檢索元素是否在給定大集合中的數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)是高效且性能很好的缝裁,但缺點(diǎn)是具有一定的錯(cuò)誤識(shí)別率和刪除難度扫皱。并且,理論情況下,添加到集合中的元素越多韩脑,誤報(bào)的可能性就越大氢妈。

2.原理

  • 插入元素時(shí):
    1.使用布隆過濾器中的哈希函數(shù)對(duì)元素值進(jìn)行計(jì)算,得到哈希值(有幾個(gè)哈希函數(shù)得到幾個(gè)哈希值)扰才。
    2.根據(jù)不同哈希函數(shù)得到的哈希值允懂,在位數(shù)組中把對(duì)應(yīng)下標(biāo)的值置為 1。
  • 判斷元素是否存在時(shí):
    1.對(duì)給定元素再次使用相同的哈希函數(shù)進(jìn)行哈希計(jì)算衩匣;
    2.得到值之后判斷位數(shù)組中的每個(gè)元素是否都為 1蕾总,如果值都為 1,那么說明這個(gè)值在布隆過濾器中琅捏,如果存在一個(gè)值不為 1生百,說明該元素不在布隆過濾器中。

不同的字符串可能哈希出來的位置相同柄延,這種情況我們可以適當(dāng)增加位數(shù)組大小或者調(diào)整我們的哈希函數(shù)蚀浆。

綜上,我們可以得出:布隆過濾器說某個(gè)元素存在搜吧,小概率會(huì)誤判市俊。布隆過濾器說某個(gè)元素不在,那么這個(gè)元素一定不在滤奈。

3.使用場(chǎng)景

1.判斷給定數(shù)據(jù)是否存在:比如判斷一個(gè)數(shù)字是否存在于包含大量數(shù)字的數(shù)字集中(數(shù)字集很大摆昧,5億以上!)蜒程、 防止緩存穿透(判斷請(qǐng)求的數(shù)據(jù)是否有效避免直接繞過緩存請(qǐng)求數(shù)據(jù)庫(kù))等等绅你、郵箱的垃圾郵件過濾、黑名單功能等等昭躺。
2.去重:比如爬給定網(wǎng)址的時(shí)候?qū)σ呀?jīng)爬取過的 URL 去重忌锯。

4.實(shí)現(xiàn)

import java.util.BitSet;

public class MyBloomFilter {

    /**
     * 位數(shù)組的大小
     */
    private static final int DEFAULT_SIZE = 2 << 24;
    /**
     * 通過這個(gè)數(shù)組可以創(chuàng)建 6 個(gè)不同的哈希函數(shù)
     */
    private static final int[] SEEDS = new int[]{3, 13, 46, 71, 91, 134};

    /**
     * 位數(shù)組。數(shù)組中的元素只能是 0 或者 1
     */
    private BitSet bits = new BitSet(DEFAULT_SIZE);

    /**
     * 存放包含 hash 函數(shù)的類的數(shù)組
     */
    private SimpleHash[] func = new SimpleHash[SEEDS.length];

    /**
     * 初始化多個(gè)包含 hash 函數(shù)的類的數(shù)組领炫,每個(gè)類中的 hash 函數(shù)都不一樣
     */
    public MyBloomFilter() {
        // 初始化多個(gè)不同的 Hash 函數(shù)
        for (int i = 0; i < SEEDS.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, SEEDS[i]);
        }
    }

    /**
     * 添加元素到位數(shù)組
     */
    public void add(Object value) {
        for (SimpleHash f : func) {
            bits.set(f.hash(value), true);
        }
    }

    /**
     * 判斷指定元素是否存在于位數(shù)組
     */
    public boolean contains(Object value) {
        boolean ret = true;
        for (SimpleHash f : func) {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }

    /**
     * 靜態(tài)內(nèi)部類偶垮。用于 hash 操作!
     */
    public static class SimpleHash {

        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) {
            this.cap = cap;
            this.seed = seed;
        }

        /**
         * 計(jì)算 hash 值
         */
        public int hash(Object value) {
            int h;
            return (value == null) ? 0 : Math.abs(seed * (cap - 1) & ((h = value.hashCode()) ^ (h >>> 16)));
        }

    }
}

測(cè)試:

        String value1 = "https://javaguide.cn/";
        String value2 = "https://github.com/Snailclimb";
        MyBloomFilter filter = new MyBloomFilter();
        System.out.println(filter.contains(value1));
        System.out.println(filter.contains(value2));
        filter.add(value1);
        filter.add(value2);
        System.out.println(filter.contains(value1));
        System.out.println(filter.contains(value2));

Output:

false
false
true
true

參考:JavaGuide

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末帝洪,一起剝皮案震驚了整個(gè)濱河市似舵,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌碟狞,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,978評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件婚陪,死亡現(xiàn)場(chǎng)離奇詭異族沃,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門脆淹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來常空,“玉大人,你說我怎么就攤上這事盖溺±觳冢” “怎么了?”我有些...
    開封第一講書人閱讀 156,623評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵烘嘱,是天一觀的道長(zhǎng)昆禽。 經(jīng)常有香客問我,道長(zhǎng)蝇庭,這世上最難降的妖魔是什么醉鳖? 我笑而不...
    開封第一講書人閱讀 56,324評(píng)論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮哮内,結(jié)果婚禮上盗棵,老公的妹妹穿的比我還像新娘。我一直安慰自己北发,他們只是感情好纹因,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評(píng)論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著琳拨,像睡著了一般瞭恰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上从绘,一...
    開封第一講書人閱讀 49,741評(píng)論 1 289
  • 那天寄疏,我揣著相機(jī)與錄音,去河邊找鬼僵井。 笑死陕截,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的批什。 我是一名探鬼主播农曲,決...
    沈念sama閱讀 38,892評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼驻债!你這毒婦竟也來了乳规?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,655評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤合呐,失蹤者是張志新(化名)和其女友劉穎暮的,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體淌实,經(jīng)...
    沈念sama閱讀 44,104評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡冻辩,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年猖腕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片恨闪。...
    茶點(diǎn)故事閱讀 38,569評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡倘感,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出咙咽,到底是詐尸還是另有隱情老玛,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評(píng)論 4 328
  • 正文 年R本政府宣布钧敞,位于F島的核電站蜡豹,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏犁享。R本人自食惡果不足惜余素,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望炊昆。 院中可真熱鬧桨吊,春花似錦、人聲如沸凤巨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)敢茁。三九已至佑淀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間彰檬,已是汗流浹背伸刃。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留逢倍,地道東北人捧颅。 一個(gè)月前我還...
    沈念sama閱讀 46,260評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像较雕,于是被迫代替她去往敵國(guó)和親碉哑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評(píng)論 2 348