從HashSet到布隆過濾器

前言

魚和熊掌不可兼得的道理在計(jì)算機(jī)的世界中普遍適用玉工，我們?cè)谠O(shè)計(jì)程序時(shí)猬膨，總是需要做各種各樣的取舍平衡（trade-off）绵疲，比如用空間換時(shí)間勤婚，又或者用時(shí)間來換空間摹量。
而從HashSet到布隆過濾器，則是時(shí)間/空間和程序精準(zhǔn)度的一個(gè)平衡取舍馒胆。

1. 傳統(tǒng)的HashSet

需求：判斷一個(gè)元素是否在一個(gè)集合中缨称。

傳統(tǒng)HashSet中（以字符串為例）：

添加：通過字符串的hash值，快速定位到基準(zhǔn)位置祝迂，hash沖突時(shí)睦尽，進(jìn)行沖突處理，然后插入型雳；
查找：通過字符串的hash值当凡，快速定位到基準(zhǔn)位置，在基準(zhǔn)位置開始查找纠俭，直至找到字符均匹配的元素沿量。

當(dāng)HashSet基于字符串?dāng)?shù)組、hash沖突解決方案為線性探查法（沖突就找下一個(gè)位置）時(shí)：

HashSet插入

HashSet查找

傳統(tǒng)HashSet是百分百精準(zhǔn)的（之前插入過的一定能找到冤荆，沒插入的一定找不到）朴则。對(duì)于少量數(shù)據(jù)，HashSet非常方便實(shí)用钓简；然而當(dāng)數(shù)據(jù)量極其龐大時(shí)乌妒，無論空間還是時(shí)間的消耗汹想，可能都達(dá)到了一個(gè)不可接受的量級(jí)。

2. 不精準(zhǔn)的HashSet

事實(shí)上撤蚊，如果只是為了【判斷一個(gè)元素是否在一個(gè)集合中】欧宜，且允許存在一定的誤判幾率的話，我們大可不必記錄原始數(shù)據(jù)拴魄，只需要和其生成的hash打交道即可冗茸。具體的做法可以為：
不再保存源數(shù)據(jù)（字符串），而是使用boolean數(shù)組匹中，簡單記錄哪些元素(hash)是已存在于集合中的：

不精準(zhǔn)的HashSet

雖然空間省了（String[ ] ? boolean[ ]）夏漱，效率也提升了（不用管hash沖突），但副作用也來了：未曾插入過集合的“趙六”也被判定為“存在”了顶捷。

我們可以通過一些方法降低誤判率：

增大數(shù)組長度
比如上面數(shù)組長度從5增加到20時(shí)挂绰，hash=1/6/11落到了index=1/6/11的位置，自然不會(huì)沖突了：
添加新的hash函數(shù)
比如新增一個(gè)hash2函數(shù)服赎，“張三”的 [hash1=1, hash2=2]葵蒂，“趙六”的[hash1=11, hash2=4]；
插入“張三”時(shí)重虑，數(shù)組中index=1/2的標(biāo)記均置為true践付，查詢時(shí)也必須兩個(gè)均為true，才認(rèn)為是查找成功缺厉；
因?yàn)椤摆w六” 對(duì)應(yīng)的index=1/4永高，沒有全部為true，則認(rèn)為查找失斕嵴搿：

我們可以根據(jù)集合中的數(shù)據(jù)量以及容忍的誤判率命爬，從而選擇合適的數(shù)組長度及hash個(gè)數(shù)。

3. 布隆過濾器

3.1 基于bit的布隆過濾器

1個(gè)boolean需要占用1個(gè)字節(jié)(8bit)辐脖，然而標(biāo)識(shí)【存在/不存在】這兩種狀態(tài)饲宛，只需1bit即可：1=存在，0=不存在：

基于bit的布隆過濾器

現(xiàn)代編程語言沒有直接提供 "bit"這樣的基本數(shù)據(jù)類型嗜价，不過我們可以使用byte/int/long等進(jìn)行替換艇抠，只是位置定位的方法需要簡單地改變一下。以byte(8bit)為例炭剪，先確定在數(shù)組中的位置练链、然后確定bit在byte中的位置（通常是從低位到高位）：

基于byte的布隆過濾器

上圖其實(shí)就是布隆過濾器的全貌了，當(dāng)然奴拦，我們可以通過新增hash函數(shù)個(gè)數(shù)降低誤判率：

多個(gè)Hash的布隆過濾器

查找的過程和boolean類似媒鼓，對(duì)應(yīng)位置的bit均為1時(shí)認(rèn)為查詢成功：

布隆過濾器查詢

像以上通過將源數(shù)據(jù)映射為1bit，用于表示 [真/假]、[有/無]绿鸣、[存在/不存在] 等兩種狀態(tài)疚沐，從而達(dá)到壓縮空間的方法稱之為BitMap算法，與之對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)通常被稱之為BitSet（參考Java/C++的API）

比如我們需要記錄 0-7共八個(gè)數(shù)字是否在集合中潮模，我們只需要8bit(1個(gè)字節(jié))即可：0在則[0 0 0 0, 0 0 0 1]亮蛔，1在則[0 0 0 0, 0 0 1 0]，0和1都在則 [0 0 0 0, 0 0 1 1]擎厢；全部數(shù)字都在究流，則為 [1 1 1 1, 1 1 1 1]。當(dāng)新增第九個(gè)數(shù)字8時(shí)动遭，BitSet則需要擴(kuò)容為兩個(gè)字節(jié)了芬探。針對(duì)數(shù)字是否在集合中這一判斷，BitMap是準(zhǔn)確的厘惦，因?yàn)樗偸遣粩鄶U(kuò)容以滿足需求偷仿。

在布隆過濾器的運(yùn)用中，BitSet中記錄的是hash值宵蕉，準(zhǔn)確說應(yīng)該是[hash % 數(shù)組長度] 的值（因?yàn)閿?shù)組長度固定）酝静；
因?yàn)閇原數(shù)據(jù) ? hash]是多對(duì)1的，[hash ? index]也是多對(duì)一的羡玛，所以布隆過濾器依然是存在誤差的别智。

3.2 數(shù)組長度和函數(shù)個(gè)數(shù)的確定

實(shí)際運(yùn)用中，我們可以根據(jù)集合中需要插入的【存量數(shù)據(jù)量n個(gè)】缝左、【容忍的誤判幾率p】亿遂，從而推導(dǎo)出合理的【數(shù)組的長度m(bit)】和【hash函數(shù)個(gè)數(shù)k】浓若，公式可以參考：
$m = - \frac{n\ln p}{(\ln 2)^2}$ $k = \frac{m}{n}\ln 2$

比如現(xiàn)在有1000萬個(gè)IP黑名單渺杉，別人訪問網(wǎng)站時(shí)，需要判斷是否這個(gè)人在黑名單內(nèi)挪钓，如果在則拒絕訪問是越。
我們?cè)试S誤判達(dá)到萬分之一，此時(shí) n=10 000 000碌上，p=0.0001倚评，套公式=>
m = -10 000 000 * ln(0.0001) / (ln2)^2 ≈ 1.9 * 10^8 bit ≈ 22.85MB
k = (1.9 * 10^8) * ln2 / 10 000 000 ≈ 13 個(gè)
我們只需要使用22.86MB的內(nèi)存+13個(gè)hash函數(shù)即可完成任務(wù)。

關(guān)于N個(gè)hash函數(shù)的選擇馏予，可以參考谷歌Guava中的做法：
hash1 = hash(原始數(shù)據(jù))天梧，這里的hash算法可以為 MurmurHash或MD5等
hash2 = hash1 + 1 * hash1>>>32
hash3 = hash1 + 2 * hash1>>>32
...
hashN = hash1 + (N-1) * hash1 >>> 32

3.3 布隆過濾器簡單總結(jié)

作用：【檢索一個(gè)元素是否在一個(gè)集合中】
優(yōu)點(diǎn)：空間占用少、查詢效率高霞丧；
缺點(diǎn)：存在誤判 （不在集合中的元素也有可能被判定為“存在”）呢岗、刪除困難。

關(guān)于刪除困難：

傳統(tǒng)的布隆過濾器(1bit) 是不支持刪除的，因?yàn)橛锌赡芏鄠€(gè)數(shù)據(jù)共享同一個(gè)bit（都置為1）后豫，刪除一個(gè)數(shù)據(jù)時(shí)悉尾，如果直接置0，會(huì)影響其他數(shù)據(jù)的判斷挫酿。
可以使用計(jì)數(shù)支持刪除操作构眯，原理是將原來的1bit拓展為N-bit作為計(jì)數(shù)空間，新增時(shí)加1早龟，刪除時(shí)減1惫霸；相應(yīng)地，總的空間大小會(huì)膨脹至原來的N倍葱弟；另外計(jì)數(shù)時(shí)需要考慮溢出N-bit的情況它褪。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市翘悉，隨后出現(xiàn)的幾起案子茫打，更是在濱河造成了極大的恐慌，老刑警劉巖妖混，帶你破解...
沈念sama閱讀 221,888評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件老赤，死亡現(xiàn)場離奇詭異，居然都是意外死亡制市，警方通過查閱死者的電腦和手機(jī)抬旺，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,677評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來祥楣，“玉大人开财，你說我怎么就攤上這事∥笸剩” “怎么了责鳍？”我有些...
開封第一講書人閱讀 168,386評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長兽间。經(jīng)常有香客問我历葛，道長，這世上最難降的妖魔是什么嘀略？我笑而不...
開封第一講書人閱讀 59,726評(píng)論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任恤溶，我火速辦了婚禮，結(jié)果婚禮上帜羊，老公的妹妹穿的比我還像新娘咒程。我一直安慰自己，他們只是感情好讼育，可當(dāng)我...
茶點(diǎn)故事閱讀 68,729評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布帐姻。她就那樣靜靜地躺著粮宛，像睡著了一般。火紅的嫁衣襯著肌膚如雪卖宠。梳的紋絲不亂的頭發(fā)上巍杈，一...
開封第一講書人閱讀 52,337評(píng)論 1贊 310
城市分裂傳說
那天，我揣著相機(jī)與錄音扛伍，去河邊找鬼筷畦。笑死，一個(gè)胖子當(dāng)著我的面吹牛刺洒，可吹牛的內(nèi)容都是我干的鳖宾。我是一名探鬼主播，決...
沈念sama閱讀 40,902評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼逆航，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼鼎文！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起因俐，我...
開封第一講書人閱讀 39,807評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤拇惋，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后抹剩，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體撑帖，經(jīng)...
沈念sama閱讀 46,349評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,439評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年澳眷，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了胡嘿。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,567評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡钳踊，死狀恐怖衷敌，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情拓瞪，我是刑警寧澤缴罗，帶...
沈念sama閱讀 36,242評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站吴藻，受9級(jí)特大地震影響瞒爬，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜沟堡，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,933評(píng)論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望矢空。院中可真熱鬧航罗，春花似錦、人聲如沸屁药。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,420評(píng)論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至复亏，卻和暖如春趾娃，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背缔御。一陣腳步聲響...
開封第一講書人閱讀 33,531評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工抬闷，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人耕突。一個(gè)月前我還...
沈念sama閱讀 48,995評(píng)論 3贊 377
代替公主和親
正文我出身青樓笤成，卻偏偏與公主長得像，于是被迫代替她去往敵國和親眷茁。傳聞我的和親對(duì)象是個(gè)殘疾皇子炕泳，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,585評(píng)論 2贊 359