布隆過(guò)濾器(Bloom Filter)的原理和實(shí)現(xiàn)

布隆過(guò)濾器使用場(chǎng)景

之前在《數(shù)學(xué)之美》里面看到過(guò)布隆過(guò)濾器的介紹阳似。那么什么場(chǎng)景下面需要使用布隆過(guò)濾器呢?

看下下面幾個(gè)問(wèn)題

  • 字處理軟件中咸这,需要檢查一個(gè)英語(yǔ)單詞是否拼寫(xiě)正確
  • 在 FBI痒蓬,一個(gè)嫌疑人的名字是否已經(jīng)在嫌疑名單上
  • 在網(wǎng)絡(luò)爬蟲(chóng)里,一個(gè)網(wǎng)址是否被訪問(wèn)過(guò)
  • yahoo, gmail等郵箱垃圾郵件過(guò)濾功能

以上這些場(chǎng)景有個(gè)共同的問(wèn)題:如何查看一個(gè)東西是否在有大量數(shù)據(jù)的池子里面贪惹。

通常的做法有如下幾種思路:

  • 數(shù)組
  • 鏈表
  • 樹(shù)苏章、平衡二叉樹(shù)、Trie
  • Map (紅黑樹(shù))
  • 哈希表

上面這幾種數(shù)據(jù)結(jié)構(gòu)配合一些搜索算法是可以解決數(shù)據(jù)量不大的問(wèn)題的奏瞬,如果當(dāng)集合里面的數(shù)據(jù)量非常大的時(shí)候枫绅,就會(huì)有問(wèn)題。比如:
有500萬(wàn)條記錄甚至1億條記錄硼端?這個(gè)時(shí)候常規(guī)的數(shù)據(jù)結(jié)構(gòu)的問(wèn)題就凸顯出來(lái)了并淋。數(shù)組、鏈表显蝌、樹(shù)等數(shù)據(jù)結(jié)構(gòu)會(huì)存儲(chǔ)元素的內(nèi)容预伺,一旦數(shù)據(jù)量過(guò)大,消耗的內(nèi)存也會(huì)呈現(xiàn)線性增長(zhǎng)曼尊,最終達(dá)到瓶頸酬诀。哈希表查詢效率可以達(dá)到O(1)。但是哈希表需要消耗的內(nèi)存依然很高骆撇。使用哈希表存儲(chǔ)一億 個(gè)垃圾 email 地址的消耗瞒御?哈希表的做法:首先,哈希函數(shù)將一個(gè)email地址映射成8字節(jié)信息指紋神郊;考慮到哈希表存儲(chǔ)效率通常小于50%(哈希沖突)肴裙;因此消耗的內(nèi)存:8 * 2 * 1億 字節(jié) = 1.6G 內(nèi)存,普通計(jì)算機(jī)是無(wú)法提供如此大的內(nèi)存涌乳。這個(gè)時(shí)候蜻懦,布隆過(guò)濾器(Bloom Filter)就應(yīng)運(yùn)而生。

在繼續(xù)介紹布隆過(guò)濾器的原理時(shí)夕晓,先講解下關(guān)于哈希函數(shù)的預(yù)備知識(shí)宛乃。

哈希函數(shù)

哈希函數(shù)的概念是:將任意大小的數(shù)據(jù)轉(zhuǎn)換成特定大小的數(shù)據(jù)的函數(shù),轉(zhuǎn)換后的數(shù)據(jù)稱為哈希值或哈希編碼。下面是一幅示意圖:

可以明顯的看到征炼,原始數(shù)據(jù)經(jīng)過(guò)哈希函數(shù)的映射后稱為了一個(gè)個(gè)的哈希編碼析既,數(shù)據(jù)得到壓縮。哈希函數(shù)是實(shí)現(xiàn)哈希表和布隆過(guò)濾器的基礎(chǔ)谆奥。

布隆過(guò)濾器介紹

  • 巴頓.布隆于一九七零年提出
  • 一個(gè)很長(zhǎng)的二進(jìn)制向量 (位數(shù)組)
  • 一系列隨機(jī)函數(shù) (哈希)
  • 空間效率和查詢效率高
  • 不會(huì)漏判眼坏,但是有一定的誤判率(哈希表是精確匹配)

布隆過(guò)濾器原理

布隆過(guò)濾器(Bloom Filter)的核心實(shí)現(xiàn)是一個(gè)超大的位數(shù)組和幾個(gè)哈希函數(shù)。假設(shè)位數(shù)組的長(zhǎng)度為m酸些,哈希函數(shù)的個(gè)數(shù)為k

以上圖為例宰译,具體的操作流程:假設(shè)集合里面有3個(gè)元素{x, y, z},哈希函數(shù)的個(gè)數(shù)為3擂仍。首先將位數(shù)組進(jìn)行初始化囤屹,將里面每個(gè)位都設(shè)置位0。對(duì)于集合里面的每一個(gè)元素逢渔,將元素依次通過(guò)3個(gè)哈希函數(shù)進(jìn)行映射肋坚,每次映射都會(huì)產(chǎn)生一個(gè)哈希值,這個(gè)值對(duì)應(yīng)位數(shù)組上面的一個(gè)點(diǎn)肃廓,然后將位數(shù)組對(duì)應(yīng)的位置標(biāo)記為1智厌。查詢W元素是否存在集合中的時(shí)候,同樣的方法將W通過(guò)哈希映射到位數(shù)組上的3個(gè)點(diǎn)盲赊。如果3個(gè)點(diǎn)的其中有一個(gè)點(diǎn)不為1铣鹏,則可以判斷該元素一定不存在集合中。反之哀蘑,如果3個(gè)點(diǎn)都為1诚卸,則該元素可能存在集合中。注意:此處不能判斷該元素是否一定存在集合中绘迁,可能存在一定的誤判率合溺。可以從圖中可以看到:假設(shè)某個(gè)元素通過(guò)映射對(duì)應(yīng)下標(biāo)為4缀台,5棠赛,6這3個(gè)點(diǎn)。雖然這3個(gè)點(diǎn)都為1膛腐,但是很明顯這3個(gè)點(diǎn)是不同元素經(jīng)過(guò)哈希得到的位置睛约,因此這種情況說(shuō)明元素雖然不在集合中,也可能對(duì)應(yīng)的都是1哲身,這是誤判率存在的原因辩涝。

添加元素

  • 將要添加的元素給k個(gè)哈希函數(shù)
  • 得到對(duì)應(yīng)于位數(shù)組上的k個(gè)位置
  • 將這k個(gè)位置設(shè)為1

查詢?cè)?/h1>
  • 將要查詢的元素給k個(gè)哈希函數(shù)
  • 得到對(duì)應(yīng)于位數(shù)組上的k個(gè)位置
  • 如果k個(gè)位置有一個(gè)為0,則肯定不在集合中
  • 如果k個(gè)位置全部為1勘天,則可能在集合中

github代碼

簡(jiǎn)易實(shí)現(xiàn)

import java.util.BitSet;

/**
 * Created by haicheng.lhc on 18/05/2017.
 *
 * @author haicheng.lhc
 * @date 2017/05/18
 */
public class SimpleBloomFilter {

    private static final int DEFAULT_SIZE = 2 << 24;
    private static final int[] seeds = new int[] {7, 11, 13, 31, 37, 61,};

    private BitSet bits = new BitSet(DEFAULT_SIZE);
    private SimpleHash[] func = new SimpleHash[seeds.length];

    public static void main(String[] args) {
        String value = " stone2083@yahoo.cn ";
        SimpleBloomFilter filter = new SimpleBloomFilter();
        System.out.println(filter.contains(value));
        filter.add(value);
        System.out.println(filter.contains(value));
    }

    public SimpleBloomFilter() {
        for (int i = 0; i < seeds.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    public void add(String value) {
        for (SimpleHash f : func) {
            bits.set(f.hash(value), true);
        }
    }

    public boolean contains(String value) {
        if (value == null) {
            return false;
        }
        boolean ret = true;
        for (SimpleHash f : func) {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }

    public static class SimpleHash {

        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) {
            this.cap = cap;
            this.seed = seed;
        }

        public int hash(String value) {
            int result = 0;
            int len = value.length();
            for (int i = 0; i < len; i++) {
                result = seed * result + value.charAt(i);
            }
            return (cap - 1) & result;
        }

    }
}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末怔揩,一起剝皮案震驚了整個(gè)濱河市棍丐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌沧踏,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件巾钉,死亡現(xiàn)場(chǎng)離奇詭異翘狱,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)砰苍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)潦匈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人赚导,你說(shuō)我怎么就攤上這事茬缩。” “怎么了吼旧?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,823評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵凰锡,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我圈暗,道長(zhǎng)掂为,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,204評(píng)論 1 292
  • 正文 為了忘掉前任员串,我火速辦了婚禮勇哗,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘寸齐。我一直安慰自己欲诺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布渺鹦。 她就那樣靜靜地躺著扰法,像睡著了一般。 火紅的嫁衣襯著肌膚如雪海铆。 梳的紋絲不亂的頭發(fā)上迹恐,一...
    開(kāi)封第一講書(shū)人閱讀 51,190評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音卧斟,去河邊找鬼殴边。 笑死,一個(gè)胖子當(dāng)著我的面吹牛珍语,可吹牛的內(nèi)容都是我干的锤岸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,078評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼板乙,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼是偷!你這毒婦竟也來(lái)了拳氢?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,923評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蛋铆,失蹤者是張志新(化名)和其女友劉穎馋评,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體刺啦,經(jīng)...
    沈念sama閱讀 45,334評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡留特,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了玛瘸。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜕青。...
    茶點(diǎn)故事閱讀 39,727評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖糊渊,靈堂內(nèi)的尸體忽然破棺而出右核,到底是詐尸還是另有隱情,我是刑警寧澤渺绒,帶...
    沈念sama閱讀 35,428評(píng)論 5 343
  • 正文 年R本政府宣布贺喝,位于F島的核電站,受9級(jí)特大地震影響宗兼,放射性物質(zhì)發(fā)生泄漏搜变。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評(píng)論 3 326
  • 文/蒙蒙 一针炉、第九天 我趴在偏房一處隱蔽的房頂上張望挠他。 院中可真熱鬧,春花似錦篡帕、人聲如沸殖侵。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,672評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)拢军。三九已至,卻和暖如春怔鳖,著一層夾襖步出監(jiān)牢的瞬間茉唉,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,826評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工结执, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留度陆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,734評(píng)論 2 368
  • 正文 我出身青樓献幔,卻偏偏與公主長(zhǎng)得像懂傀,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蜡感,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容