29-布隆過(guò)濾器（Bloom Filter）

布隆過(guò)濾器（Bloom Filter）

思考

如果要經(jīng)常判斷一個(gè)元素是否存在挟冠，是你的話携添，你會(huì)考慮怎么做？

很容易想到叛本，可以使用哈希表（HashSet沪蓬，HashMap）,將元素作為key來(lái)進(jìn)行查找
- 通過(guò)這種方法的時(shí)間復(fù)雜度為O(1)，但是缺點(diǎn)在于空間利用率不高来候，需要占用比較多的內(nèi)存資源

但是跷叉，如果要編寫(xiě)一個(gè)網(wǎng)絡(luò)爬蟲(chóng)去爬10億個(gè)網(wǎng)站數(shù)據(jù)，為了避免爬到重復(fù)的網(wǎng)站营搅，如何判斷某個(gè)網(wǎng)站是否爬過(guò)呢云挟？

很顯然，HashSet與HashMap比不是非常好的選擇转质，因?yàn)闀?huì)消耗大量的內(nèi)存空間

那是否存在時(shí)間復(fù)雜度低园欣，占用內(nèi)存空間少的方案？
布隆過(guò)濾器（Bloom Filter）就可以辦到這一點(diǎn)休蟹。

布隆過(guò)濾器簡(jiǎn)介

布隆過(guò)濾器是在1970年由布隆提出的沸枯，它是一個(gè)空間利用率高的概率型數(shù)據(jù)結(jié)構(gòu)，可以用來(lái)告訴你鸡挠，一個(gè)元素一定不存在或者可能存在辉饱，基于這個(gè)結(jié)論，所以布隆過(guò)濾器有如下的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：空間效率和查詢(xún)時(shí)間都遠(yuǎn)遠(yuǎn)超過(guò)一般的算法
缺點(diǎn)：有一定的誤判率拣展，刪除困難

雖然布隆過(guò)濾器存在一定的誤判率彭沼，但是誤判率依然可以通過(guò)代碼進(jìn)行控制，所以結(jié)合業(yè)務(wù)需求來(lái)進(jìn)行調(diào)整备埃。一般在如下情況下可以考慮使用布隆過(guò)濾器

經(jīng)常要判斷某一個(gè)元素是否存在
元素?cái)?shù)量巨大姓惑，希望有比較少的內(nèi)存空間
允許有一定的誤判率

本質(zhì)：布隆過(guò)濾器的本質(zhì)是一個(gè)很長(zhǎng)的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)（Hash函數(shù)）
通過(guò)上面的描述可以知道褐奴，布隆過(guò)濾器由2部分組成，一部分為哈希函數(shù)于毙，另外一部分為二進(jìn)制向量

二進(jìn)制向量：可以理解為二進(jìn)制數(shù)組

常見(jiàn)應(yīng)用

網(wǎng)頁(yè)黑名單系統(tǒng)敦冬，垃圾郵件過(guò)濾系統(tǒng)，爬蟲(chóng)的網(wǎng)址判重系統(tǒng)唯沮，解決緩存穿透問(wèn)題

布隆過(guò)濾器的原理

現(xiàn)假設(shè)布隆過(guò)濾器由20位二進(jìn)制（初始值為0）脖旱，3個(gè)哈希函數(shù)組成，每個(gè)元素經(jīng)過(guò)哈希函數(shù)處理都能生成一個(gè)索引

添加元素介蛉，將每一個(gè)哈希函數(shù)生成的索引萌庆，都設(shè)置為1
例如：現(xiàn)在假設(shè)要添加一個(gè)元素A，這會(huì)分別利用三個(gè)哈希函數(shù)币旧，生成對(duì)應(yīng)的所用值（假設(shè)第一個(gè)哈希函數(shù)生成的索引為4践险，第二個(gè)哈希函數(shù)生成的索引為7，第三個(gè)哈希函數(shù)生成的索引為18）吹菱，然后將數(shù)組中的對(duì)應(yīng)索引中的值設(shè)置為1
如果要繼續(xù)添加元素B巍虫，同樣會(huì)利用三個(gè)哈希函數(shù)，生成對(duì)應(yīng)的索引值（假設(shè)第一個(gè)哈希函數(shù)生成的索引值為2鳍刷，第二個(gè)哈希函數(shù)生成的索引值為7占遥，第三個(gè)哈希函數(shù)生成的索引值為15），然后將數(shù)組中的對(duì)應(yīng)索引中的值設(shè)置為1
查詢(xún)?cè)厥欠翊嬖冢?br> 利用哈希函數(shù)倾剿，分別計(jì)算出元素在對(duì)應(yīng)函數(shù)下的索引筷频，如果對(duì)應(yīng)數(shù)組索引中的值全部為1，這說(shuō)明這個(gè)元素可能存在前痘，如果對(duì)應(yīng)索引中的值凛捏，至少有一個(gè)為0，這說(shuō)明這個(gè)元素一定不存在
所以
- 如果有一個(gè)哈希函數(shù)生成的索引位置不為1芹缔，就代表不存在（100%準(zhǔn)確）
- 如果每一個(gè)哈希函數(shù)生成的索引位置都為1坯癣，就代表存在，但存在一定的誤判率

所以最欠，根據(jù)布隆過(guò)濾器的原理示罗，可以知道

添加/查詢(xún)的時(shí)間復(fù)雜度為O(k)，其中k是哈希函數(shù)的個(gè)數(shù)

空間復(fù)雜度為O(m)芝硬，m是二進(jìn)制位的個(gè)數(shù)

布隆過(guò)濾器的誤判率

誤判率p一般來(lái)講蚜点，收到3個(gè)因素的影響，分別為

二進(jìn)制位的個(gè)數(shù)m
哈希函數(shù)的個(gè)數(shù)k
數(shù)據(jù)規(guī)模n

根據(jù)下圖中已知的公式拌阴，就能計(jì)算出當(dāng)前的誤判率p

由于在數(shù)據(jù)規(guī)模非常大時(shí)绍绘，n的值就非常大，所以可以忽略0,5的常系數(shù)，同時(shí)二進(jìn)制位的個(gè)數(shù)也會(huì)非常大陪拘，所以常數(shù)1也可以忽略厂镇，因此簡(jiǎn)化后的公式如下

所以實(shí)際開(kāi)發(fā)中，誤判率是結(jié)合業(yè)務(wù)來(lái)確定的左刽，因此誤判率可以認(rèn)為是一個(gè)已知的值捺信。并且數(shù)據(jù)規(guī)模也是已知的，所以就可以利用誤判率p和數(shù)據(jù)規(guī)模n得出二進(jìn)制位的個(gè)數(shù)m與哈希表的個(gè)數(shù)k

科學(xué)家總結(jié)出的公式如下：

計(jì)算二進(jìn)制位的個(gè)數(shù)

計(jì)算哈希表的個(gè)數(shù)

布隆過(guò)濾器的實(shí)現(xiàn)

結(jié)合前面介紹布隆過(guò)濾器的特性欠痴，可以知道迄靠，布隆過(guò)濾器有會(huì)提供2個(gè)API，分別是添加元素與查詢(xún)?cè)厥欠翊嬖?/p>

兩個(gè)API的實(shí)現(xiàn)如下

/*
* n為數(shù)據(jù)規(guī)模
* p為誤判率(0,1)
* */
public BloomFilter(int n,double p) {
    if (n <= 0 || p <= 0 || p >= 1){
        throw new IllegalArgumentException("wrong n or p");
    }
    double ln2 = Math.log(2);
    //計(jì)算二進(jìn)制向量的長(zhǎng)度
    bitSize = (int)(- (n * Math.log(p)) / (ln2 * ln2));
    //計(jì)算哈希函數(shù)的個(gè)數(shù)
    hashSize = (int)(bitSize * ln2 / n);
    //bits數(shù)組的長(zhǎng)度
    bits = new long[(int)((bitSize + Long.SIZE - 1)) / Long.SIZE];
}
/*
* 添加元素
* */
public void put(T value){
    nullCheck(value);
    int hash1 = value.hashCode();
    int hash2 = hash1 >>> 16;
    for (int i = 1; i <= hashSize; i++) {
        int combinedHash = hash1 + (i * hash2);
        if (combinedHash < 0) {
            combinedHash = ~combinedHash;
        }
        //生成一個(gè)二進(jìn)制位的索引
        int index = combinedHash % bitSize;
        //設(shè)置index位置的二進(jìn)制位為1
        set(index);
    }
}

以上是兩個(gè)API的主要實(shí)現(xiàn)邏輯喇辽。具體實(shí)現(xiàn)可以查閱demo梨水。

demo下載地址

完！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末茵臭，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子舅世，更是在濱河造成了極大的恐慌旦委，老刑警劉巖，帶你破解...
沈念sama閱讀 217,084評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件雏亚，死亡現(xiàn)場(chǎng)離奇詭異缨硝，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)罢低，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,623評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)查辩，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人网持，你說(shuō)我怎么就攤上這事宜岛。” “怎么了功舀？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,450評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵萍倡，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我辟汰，道長(zhǎng)列敲，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,322評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任帖汞，我火速辦了婚禮戴而，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘翩蘸。我一直安慰自己所意，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,370評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著扁眯，像睡著了一般壮莹。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上姻檀，一...
開(kāi)封第一講書(shū)人閱讀 51,274評(píng)論 1贊 300
城市分裂傳說(shuō)
那天命满，我揣著相機(jī)與錄音，去河邊找鬼绣版。笑死胶台，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的杂抽。我是一名探鬼主播诈唬，決...
沈念sama閱讀 40,126評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼缩麸！你這毒婦竟也來(lái)了铸磅？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,980評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤杭朱，失蹤者是張志新（化名）和其女友劉穎阅仔，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體弧械，經(jīng)...
沈念sama閱讀 45,414評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡八酒，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,599評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了刃唐。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片羞迷。...
茶點(diǎn)故事閱讀 39,773評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖画饥，靈堂內(nèi)的尸體忽然破棺而出衔瓮，到底是詐尸還是另有隱情，我是刑警寧澤抖甘，帶...
沈念sama閱讀 35,470評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布报辱，位于F島的核電站，受9級(jí)特大地震影響单山，放射性物質(zhì)發(fā)生泄漏碍现。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,080評(píng)論 3贊 327
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一米奸、第九天我趴在偏房一處隱蔽的房頂上張望昼接。院中可真熱鬧，春花似錦悴晰、人聲如沸慢睡。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,713評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)漂辐。三九已至泪喊，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間髓涯，已是汗流浹背袒啼。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,852評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留纬纪，地道東北人蚓再。一個(gè)月前我還...
沈念sama閱讀 47,865評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像包各，于是被迫代替她去往敵國(guó)和親摘仅。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,689評(píng)論 2贊 354