面試必備之海量數(shù)據(jù)處理

關(guān)于海量數(shù)據(jù)處理問題衔蹲,通過最近的面試可以看出這是一個(gè)經(jīng)常會(huì)問的問題莫其。本篇文章基于實(shí)際的面試問題倍啥,總結(jié)關(guān)于海量數(shù)據(jù)處理的常用算法以及針對這些實(shí)際面試問題提出解決方案注服。

一韭邓、海量數(shù)據(jù)處理

所謂海量數(shù)據(jù)處理,無非就是基于海量數(shù)據(jù)上的存儲(chǔ)溶弟、處理女淑、操作。何謂海量可很,就是數(shù)據(jù)量太大诗力,所以導(dǎo)致要么是無法在較短時(shí)間內(nèi)迅速解決凰浮,要么是數(shù)據(jù)太大我抠,導(dǎo)致無法一次性裝入內(nèi)存。

那解決辦法呢?

針對時(shí)間袜茧,我們可以采用巧妙的算法搭配合適的數(shù)據(jù)結(jié)構(gòu)菜拓,如Bloom filter/Hash/bit-map/堆/trie樹。

針對空間笛厦,無非就一個(gè)辦法:大而化小纳鼎,分而治之(hash映射)。

二、算法/數(shù)據(jù)結(jié)構(gòu)基礎(chǔ)

1.Bloom Filter

Bloom Filter(BF)是一種空間效率很高的隨機(jī)數(shù)據(jù)結(jié)構(gòu)贱鄙,它利用位數(shù)組很簡潔地表示一個(gè)集合劝贸,并能判斷一個(gè)元素是否屬于這個(gè)集合。它是一個(gè)判斷元素是否存在集合的快速的概率算法逗宁。Bloom Filter有可能會(huì)出現(xiàn)錯(cuò)誤判斷映九,但不會(huì)漏掉判斷。也就是Bloom Filter判斷元素不再集合瞎颗,那肯定不在件甥。如果判斷元素存在集合中,有一定的概率判斷錯(cuò)誤哼拔。因此引有,Bloom Filter不適合那些“零錯(cuò)誤”的應(yīng)用場合。
而在能容忍低錯(cuò)誤率的應(yīng)用場合下倦逐,Bloom Filter比其他常見的算法(如hash譬正,折半查找)極大節(jié)省了空間。

適用范圍

可以用來實(shí)現(xiàn)數(shù)據(jù)字典僻孝,進(jìn)行數(shù)據(jù)的判重导帝,或者集合求交集

具體參考:海量數(shù)據(jù)處理之Bloom Filter詳解

2.Hash

Hash,一般翻譯做“散列”穿铆,也有直接音譯為“哈夏ィ”的,就是把任意長度的輸入(又叫做預(yù)映射荞雏, pre-image)虐秦,通過散列算法,變換成固定長度的輸出凤优,該輸出就是散列值悦陋。這種轉(zhuǎn)換是一種壓縮映射,也就是筑辨,散列值的空間通常遠(yuǎn)小于輸入的空間俺驶,不同的輸入可能會(huì)散列成相同的輸出,而不可能從散列值來唯一的確定輸入值棍辕。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數(shù)暮现。

具體參考:十一、從頭到尾解析Hash表算法

3. Bit-map

所謂的Bit-map就是用一個(gè)bit位來標(biāo)記某個(gè)元素對應(yīng)的值楚昭。由于采用了Bit為單位來存儲(chǔ)數(shù)據(jù)栖袋,因此在存儲(chǔ)空間方面,可以大大節(jié)省抚太。

如果說了這么多還沒明白什么是Bit-map塘幅,那么我們來看一個(gè)具體的例子昔案,假設(shè)我們要對0-7內(nèi)的5個(gè)元素(4,7,2,5,3)排序(這里假設(shè)這些元素沒有重復(fù))。那么我們就可以采用Bit-map的方法來達(dá)到排序的目的电媳。要表示8個(gè)數(shù)踏揣,我們就只需要8個(gè)Bit(1Bytes),首先我們開辟1Byte的空間匾乓,將這些空間的所有Bit位都置為0(如下圖:)

然后遍歷這5個(gè)元素呼伸,首先第一個(gè)元素是4,那么就把4對應(yīng)的位置為1(可以這樣操作 p+(i/8)|(0x01<<(i%8)) 當(dāng)然了這里的操作涉及到Big-ending和Little-ending的情況钝尸,這里默認(rèn)為Big-ending),因?yàn)槭菑牧汩_始的括享,所以要把第五位置為一(如下圖):



然后再處理第二個(gè)元素7,將第八位置為1,珍促,接著再處理第三個(gè)元素铃辖,一直到最后處理完所有的元素,將相應(yīng)的位置為1猪叙,這時(shí)候的內(nèi)存的Bit位的狀態(tài)如下:

具體參考:數(shù)據(jù)結(jié)構(gòu):位圖法

4.堆

堆是一種特殊的二叉樹娇斩,具備以下兩種性質(zhì)
1)每個(gè)節(jié)點(diǎn)的值都大于(或者都小于,稱為最小堆)其子節(jié)點(diǎn)的值
2)樹是完全平衡的穴翩,并且最后一層的樹葉都在最左邊這樣就定義了一個(gè)最大堆犬第。
如下圖用一個(gè)數(shù)組來表示堆:


5.trie樹

下面我們有and,as,at,cn,com這些關(guān)鍵詞,那么如何構(gòu)建trie樹呢芒帕?



從上面的圖中歉嗓,我們或多或少的可以發(fā)現(xiàn)一些好玩的特性。

第一:根節(jié)點(diǎn)不包含字符背蟆,除根節(jié)點(diǎn)外的每一個(gè)子節(jié)點(diǎn)都包含一個(gè)字符鉴分。

第二:從根節(jié)點(diǎn)到某一節(jié)點(diǎn),路徑上經(jīng)過的字符連接起來带膀,就是該節(jié)點(diǎn)對應(yīng)的字符串志珍。

第三:每個(gè)單詞的公共前綴作為一個(gè)字符節(jié)點(diǎn)保存。

適用范圍:

前綴統(tǒng)計(jì)垛叨,詞頻統(tǒng)計(jì)伦糯。

具體參考:6天通吃樹結(jié)構(gòu)—— 第五天 Trie樹

6.外排序

適用范圍:

大數(shù)據(jù)的排序,去重

** 基本原理及要點(diǎn):**

外部排序的兩個(gè)獨(dú)立階段:

1)首先按內(nèi)存大小嗽元,將外存上含n個(gè)記錄的文件分成若干長度L的子文件或段敛纲。依次讀入內(nèi)存并利用有效的內(nèi)部排序?qū)λ麄冞M(jìn)行排序,并將排序后得到的有序字文件重新寫入外存还棱,通常稱這些子文件為歸并段载慈。

2)對這些歸并段進(jìn)行逐趟歸并惭等,使歸并段逐漸由小到大珍手,直至得到整個(gè)有序文件為之。

外排序的優(yōu)化方法:置換選擇 敗者樹原理,最優(yōu)歸并樹

具體參考:選擇置換+敗者樹搞定外部排序

三琳要、面試問題解決

①寡具、海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個(gè)IP稚补。

算法思想:分而治之+Hash

1.IP地址最多有2^32=4G種取值情況童叠,所以不能完全加載到內(nèi)存中處理;
2.可以考慮采用“分而治之”的思想课幕,按照IP地址的Hash(IP)%1024值厦坛,把海量IP日志分別存儲(chǔ)到1024個(gè)小文件中。這樣乍惊,每個(gè)小文件最多包含4MB個(gè)IP地址杜秸;
3.對于每一個(gè)小文件,可以構(gòu)建一個(gè)IP為key润绎,出現(xiàn)次數(shù)為value的Hash map撬碟,同時(shí)記錄當(dāng)前出現(xiàn)次數(shù)最多的那個(gè)IP地址;
4.可以得到1024個(gè)小文件中的出現(xiàn)次數(shù)最多的IP莉撇,再依據(jù)常規(guī)的排序算法得到總體上出現(xiàn)次數(shù)最多的IP呢蛤;

②、 搜索引擎會(huì)通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來棍郎,每個(gè)查詢串的長度為1-255字節(jié)其障。假設(shè)目前有一千萬個(gè)記錄(這些查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬涂佃,但如果除去重復(fù)后静秆,不超過3百萬個(gè)。一個(gè)查詢串的重復(fù)度越高巡李,說明查詢它的用戶越多抚笔,也就是越熱門。)侨拦,請你統(tǒng)計(jì)最熱門的10個(gè)查詢串殊橙,要求使用的內(nèi)存不能超過1G。

可以在內(nèi)存中處理狱从,典型的Top K算法

算法思想:hashmap+堆

1.先對這批海量數(shù)據(jù)預(yù)處理膨蛮,在O(N)的時(shí)間內(nèi)用Hash表完成統(tǒng)計(jì)
2.借助堆這個(gè)數(shù)據(jù)結(jié)構(gòu)季研,找出Top K敞葛,時(shí)間復(fù)雜度為O(N*logK)。

或者:采用trie樹与涡,關(guān)鍵字域存該查詢串出現(xiàn)的次數(shù)惹谐,沒有出現(xiàn)為0持偏。最后用10個(gè)元素的最小推來對出現(xiàn)頻率進(jìn)行排序。

③氨肌、有一個(gè)1G大小的一個(gè)文件鸿秆,里面每一行是一個(gè)詞,詞的大小不超過16字節(jié)怎囚,內(nèi)存限制大小是1M卿叽。返回頻數(shù)最高的100個(gè)詞。

算法思想:分而治之 + hash統(tǒng)計(jì) + 堆排序

1.順序讀文件中恳守,對于每個(gè)詞x考婴,取hash(x)%5000,然后按照該值存到5000個(gè)小文件(記為x0,x1,...x4999)中催烘。這樣每個(gè)文件大概是200k左右蕉扮。如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續(xù)往下分颗圣,直到分解得到的小文件的大小都不超過1M喳钟。

2.對每個(gè)小文件,采用trie樹/hash_map等統(tǒng)計(jì)每個(gè)文件中出現(xiàn)的詞以及相應(yīng)的頻率在岂。

3.取出出現(xiàn)頻率最大的100個(gè)詞(可以用含100個(gè)結(jié)點(diǎn)的最小堆)后奔则,再把100個(gè)詞及相應(yīng)的頻率存入文件,這樣又得到了5000個(gè)文件蔽午。最后就是把這5000個(gè)文件進(jìn)行歸并(類似于歸并排序)的過程了易茬。

④、有10個(gè)文件及老,每個(gè)文件1G抽莱,每個(gè)文件的每一行存放的都是用戶的query,每個(gè)文件的query都可能重復(fù)骄恶。要求你按照query的頻度排序食铐。

方案1:

算法思想:分而治之 + hash統(tǒng)計(jì) + 堆排序

順序讀取10個(gè)文件,按照hash(query)%10的結(jié)果將query寫入到另外10個(gè)文件中僧鲁。這樣新生成的文件每個(gè)的大小大約也1G虐呻,大于1G繼續(xù)按照上述思路分。

找一臺(tái)內(nèi)存在2G左右的機(jī)器寞秃,依次對用hash_map(query, query_count)來統(tǒng)計(jì)每個(gè)query出現(xiàn)的次數(shù)斟叼。利用快速/堆/歸并排序按照出現(xiàn)次數(shù)進(jìn)行排序。將排序好的query和對應(yīng)的query_cout輸出到文件中春寿。這樣得到了10個(gè)排好序的文件(記為)朗涩。

對這10個(gè)文件進(jìn)行歸并排序(內(nèi)排序與外排序相結(jié)合)。

方案2:

算法思想:hashmap+堆

一般query的總量是有限的绑改,只是重復(fù)的次數(shù)比較多而已谢床,可能對于所有的query兄一,一次性就可以加入到內(nèi)存了。這樣萤悴,我們就可以采用trie樹/hash_map等直接來統(tǒng)計(jì)每個(gè)query出現(xiàn)的次數(shù),然后按出現(xiàn)次數(shù)做快速/堆/歸并排序就可以了皆的。

⑤覆履、 給定a、b兩個(gè)文件费薄,各存放50億個(gè)url硝全,每個(gè)url各占64字節(jié),內(nèi)存限制是4G楞抡,讓你找出a伟众、b文件共同的url

方案1:可以估計(jì)每個(gè)文件安的大小為5G×64=320G,遠(yuǎn)遠(yuǎn)大于內(nèi)存限制的4G召廷。所以不可能將其完全加載到內(nèi)存中處理凳厢。考慮采取分而治之的方法竞慢。

**算法思想:分而治之 + hash統(tǒng)計(jì) **

遍歷文件a先紫,對每個(gè)url求取hash(url)%1000,然后根據(jù)所取得的值將url分別存儲(chǔ)到1000個(gè)小文件(記為a0,a1,...,a999)中筹煮。這樣每個(gè)小文件的大約為300M遮精。

遍歷文件b,采取和a相同的方式將url分別存儲(chǔ)到1000小文件(記為b0,b1,...,b999)败潦。這樣處理后本冲,所有可能相同的url都在對應(yīng)的小文件(a0vsb0,a1vsb1,...,a999vsb999)中,不對應(yīng)的小文件不可能有相同的url劫扒。然后我們只要求出1000對小文件中相同的url即可檬洞。

求每對小文件中相同的url時(shí),可以把其中一個(gè)小文件的url存儲(chǔ)到hash_set中沟饥。然后遍歷另一個(gè)小文件的每個(gè)url疮胖,看其是否在剛才構(gòu)建的hash_set中,如果是闷板,那么就是共同的url澎灸,存到文件里面就可以了。

方案2:如果允許有一定的錯(cuò)誤率遮晚,可以使用Bloom filter性昭,4G內(nèi)存大概可以表示340億bit。將其中一個(gè)文件中的url使用Bloom filter映射為這340億bit县遣,然后挨個(gè)讀取另外一個(gè)文件的url糜颠,檢查是否與Bloom filter汹族,如果是,那么該url應(yīng)該是共同的url(注意會(huì)有一定的錯(cuò)誤率)其兴。

⑥顶瞒、在2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù),注元旬,內(nèi)存不足以容納這2.5億個(gè)整數(shù)榴徐。

采用2-Bitmap(每個(gè)數(shù)分配2bit,00表示不存在匀归,01表示出現(xiàn)一次坑资,10表示多次,11無意義)進(jìn)行穆端,共需內(nèi)存2^32 * 2 bit=1 GB內(nèi)存袱贮,還可以接受。然后掃描這2.5億個(gè)整數(shù)体啰,查看Bitmap中相對應(yīng)位攒巍,如果是00變01,01變10荒勇,10保持不變窑业。所描完事后,查看bitmap枕屉,把對應(yīng)位是01的整數(shù)輸出即可常柄。

⑦、給40億個(gè)不重復(fù)的unsigned int的整數(shù)搀擂,沒排過序的西潘,然后再給一個(gè)數(shù),如何快速判斷這個(gè)數(shù)是否在那40億個(gè)數(shù)當(dāng)中哨颂?

方案1:申請512M的內(nèi)存喷市,一個(gè)bit位代表一個(gè)unsigned int值。讀入40億個(gè)數(shù)威恼,設(shè)置相應(yīng)的bit位品姓,讀入要查詢的數(shù),查看相應(yīng)bit位是否為1箫措,為1表示存在腹备,為0表示不存在。

方案2:因?yàn)?^32為40億多斤蔓,所以給定一個(gè)數(shù)可能在植酥,也可能不在其中;
這里我們把40億個(gè)數(shù)中的每一個(gè)用32位的二進(jìn)制來表示
假設(shè)這40億個(gè)數(shù)開始放在一個(gè)文件中。

然后將這40億個(gè)數(shù)分成兩類:
1.最高位為0
2.最高位為1
并將這兩類分別寫入到兩個(gè)文件中友驮,其中一個(gè)文件中數(shù)的個(gè)數(shù)<=20億漂羊,而另一個(gè)>=20億(這相當(dāng)于折半了);
與要查找的數(shù)的最高位比較并接著進(jìn)入相應(yīng)的文件再查找

再然后把這個(gè)文件為又分成兩類:
1.次最高位為0
2.次最高位為1

并將這兩類分別寫入到兩個(gè)文件中卸留,其中一個(gè)文件中數(shù)的個(gè)數(shù)<=10億走越,而另一個(gè)>=10億(這相當(dāng)于折半了);
與要查找的數(shù)的次最高位比較并接著進(jìn)入相應(yīng)的文件再查找耻瑟。
.......
以此類推旨指,就可以找到了。

參考文章:

海量數(shù)據(jù)處理 算法總結(jié)
十道海量數(shù)據(jù)處理面試題與十個(gè)方法大總結(jié)
教你如何迅速秒殺掉:99%的海量數(shù)據(jù)處理面試題

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末匆赃,一起剝皮案震驚了整個(gè)濱河市淤毛,隨后出現(xiàn)的幾起案子今缚,更是在濱河造成了極大的恐慌算柳,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件姓言,死亡現(xiàn)場離奇詭異瞬项,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)何荚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門囱淋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人餐塘,你說我怎么就攤上這事妥衣。” “怎么了戒傻?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵税手,是天一觀的道長。 經(jīng)常有香客問我需纳,道長芦倒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任不翩,我火速辦了婚禮兵扬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘口蝠。我一直安慰自己器钟,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布妙蔗。 她就那樣靜靜地躺著俱箱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪灭必。 梳的紋絲不亂的頭發(fā)上狞谱,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天乃摹,我揣著相機(jī)與錄音,去河邊找鬼跟衅。 笑死孵睬,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的伶跷。 我是一名探鬼主播掰读,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼叭莫!你這毒婦竟也來了蹈集?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤雇初,失蹤者是張志新(化名)和其女友劉穎拢肆,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體靖诗,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡郭怪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了刊橘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鄙才。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖促绵,靈堂內(nèi)的尸體忽然破棺而出攒庵,到底是詐尸還是另有隱情,我是刑警寧澤败晴,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布浓冒,位于F島的核電站,受9級特大地震影響位衩,放射性物質(zhì)發(fā)生泄漏裆蒸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一糖驴、第九天 我趴在偏房一處隱蔽的房頂上張望僚祷。 院中可真熱鬧,春花似錦贮缕、人聲如沸辙谜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽装哆。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蜕琴,已是汗流浹背萍桌。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留凌简,地道東北人上炎。 一個(gè)月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像雏搂,于是被迫代替她去往敵國和親藕施。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容