首先介紹作用:
可以解決海量數(shù)據(jù)的存在性問題,又不占用很多內(nèi)存的前提下陕悬。
位圖法的原理主要就是利用int類型數(shù)據(jù)践磅,一個int類型數(shù)據(jù)是4個字節(jié),一個字節(jié)8位含末,然后一個int數(shù)據(jù)利用自身字節(jié)位就可以表示0-31的數(shù)是否存在猜拾,bit位表示數(shù)值,位山0佣盒,1值表示這個數(shù)值是否存在挎袜。
所有的int類型數(shù)據(jù)一共有2^32/8 = 2^29 Byte約等于512MB(2^10=1KB 2^20 =1MB 2^30=1GB)表示所有的int類型數(shù)需要512MB,現(xiàn)在的計算機(jī)完全可以勝任肥惭,這些可以表示多少位數(shù)呢就是一個int可以表示32個數(shù)盯仪,32*2^32=2^37約等于10^11百億級別;
具體方案
那么接下來我們只需要申請一個int數(shù)組長度為 int tmp[N/32+1]即可存儲完這些數(shù)據(jù)蜜葱,其中N代表要進(jìn)行查找的總數(shù)(這里也就是2^32)全景,tmp中的每個元素在內(nèi)存在占32位可以對應(yīng)表示十進(jìn)制數(shù)0~31,所以可得到BitMap表:
tmp[0]:可表示0~31
tmp[1]:可表示32~63
tmp[2]可表示64~95
~~
假設(shè)這10億int數(shù)據(jù)為:6,3,8,32,36,……,那么具體的BitMap表示為:
使用如何快速查找具體的是否存在:
(1). 如何判斷int數(shù)字放在哪一個tmp數(shù)組中:將數(shù)字直接除以32取整數(shù)部分(x/32)牵囤,例如:整數(shù)8除以32取整等于0爸黄,那么8就在tmp[0]上滞伟;
(2). 如何確定數(shù)字放在32個位中的哪個位:將數(shù)字mod32取模(x%32)。上例中我們?nèi)绾未_定8在tmp[0]中的32個位中的哪個位炕贵,這種情況直接mod上32就ok梆奈,又如整數(shù)8,在tmp[0]中的第8 mod上32等于8称开,那么整數(shù)8就在tmp[0]中的第八個bit位(從右邊數(shù)起)鉴裹。
對于多次出現(xiàn)的數(shù)據(jù)處理方法
然后我們怎么統(tǒng)計只出現(xiàn)一次的數(shù)呢?每一個數(shù)出現(xiàn)的情況我們可以分為三種:0次钥弯、1次、大于1次督禽。也就是說我們需要用2個bit位才能表示每個數(shù)的出現(xiàn)情況脆霎。此時則三種情況分別對應(yīng)的bit位表示是:00、01狈惫、11
我們順序掃描這10億的數(shù)睛蛛,在對應(yīng)的雙bit位上標(biāo)記該數(shù)出現(xiàn)的次數(shù)。最后取出所有雙bit位為01的int型數(shù)就可以了胧谈。