題目:我有40億個整數(shù)呀闻,再給一個新的整數(shù),我需要判斷新的整數(shù)是否在40億個整數(shù)中潜慎,你會怎么做捡多?
為什么我說分8次加載數(shù)據(jù)太慢了呢?
從磁盤加載數(shù)據(jù)是磁盤io操作铐炫,是非常慢的局服,你每次都要加載這么大的數(shù)據(jù),還要8次驳遵,我估計你找一個數(shù)的時間可以達到分鐘甚至小時級了。
把數(shù)據(jù)分散在8臺機器上山涡,然后來一個新的數(shù)據(jù)堤结,8臺機器一起找,最后再匯總結(jié)果就行了鸭丛。
【更好毫秒級方法】
小史:申請40億個位就好了竞穷,新的數(shù)轉(zhuǎn)換成一個位,然后判斷一下這個位是0還是1就行了鳞溉。
呂老師:小史啊瘾带,考慮問題要考慮清楚啊,如果是40億個位熟菲,那么這40億個位哪些是0看政,哪些是1呢?來了一個新的數(shù)抄罕,怎么判斷是否在40億個位之中允蚣?
小史:我想想,對啊呆贿,40億個位嚷兔,40億個數(shù)森渐,那么每個位都是1,這冒晰。同衣。。
呂老師:32位int的范圍壶运,總共就是2的32次方耐齐,大概42億多點。所以你可以申請2的32次方個位前弯。
小史:意思是我把整個整數(shù)范圍都覆蓋了蚪缀,哦,對哦恕出。這樣一來询枚,就可以做了,1代表第一個位浙巫,2代表第二個位金蜀,2的32次方代表最后一個位。40億個數(shù)中的畴,存在的數(shù)就在相應(yīng)的位置1渊抄,其他位就是0。
小史:新的數(shù)就去找相應(yīng)的位丧裁,比如來了一個1234护桦,就找一下第1234位,如果是1就存在煎娇,是0就不存在啦二庵。2的32次方個位,相當(dāng)于2的29次方個字節(jié)缓呛,哇催享,才500MB,真是節(jié)省了不少內(nèi)存呢哟绊。
大數(shù)據(jù)算法因妙,叫位圖法,英文名叫bitmap票髓。用位來表示狀態(tài)攀涵,從而節(jié)省空間。
另一個方法:
32位int的范圍是42億炬称,40億整數(shù)中肯定有一些是連續(xù)的汁果,先外部排序,用一個初始的數(shù)和一個長度構(gòu)成一個數(shù)據(jù)結(jié)構(gòu)玲躯,來表示一段連續(xù)的數(shù)据德,舉個例子鳄乏。
1 2 3 4 6 7用(1,4)和(6,2)表示,變成了2個數(shù)表示棘利。來新數(shù)用二分法查找橱野。
最差情況就是2億多的斷點,也就是2億多的結(jié)構(gòu)體善玫,每個結(jié)構(gòu)體8個字節(jié)水援,大概16億字節(jié),1.6GB茅郎,在內(nèi)存中可以放下蜗元。
給出了方案,還能主動分析空間和可行性系冗。