海量數(shù)據(jù)處理問(wèn)題

分治法

  • 總體思想是先根據(jù)Hash函數(shù)將一個(gè)內(nèi)存難以一次性讀取的大文件分散到若干小文件中(其中相同的數(shù)據(jù)會(huì)被hash到同一個(gè)小文件中)蔚叨,然后對(duì)每一個(gè)小文件的數(shù)據(jù)進(jìn)行處理棒厘,再進(jìn)行合并處理(例如外排序:對(duì)小文件進(jìn)行快排约计,然后對(duì)于有序的子序列,只需要很少的內(nèi)存就可以進(jìn)行歸并排序)
  • 在處理海量數(shù)據(jù)中的最小k個(gè)數(shù)之類的問(wèn)題可以使用堆排序(時(shí)間復(fù)雜度為O(N*lgk))

多層劃分

  • 舉例:求取海量數(shù)據(jù)的中位數(shù)挣输。對(duì)于int32整數(shù)來(lái)說(shuō)刊驴,可以按照32個(gè)位的前n位進(jìn)行區(qū)域劃分,可以劃分2^n個(gè)區(qū)域胸墙,這些區(qū)域間是有序的我注。這樣就可以確定中位數(shù)再哪個(gè)區(qū)域的第幾大 數(shù)

bitmap

  • 實(shí)質(zhì)為bit數(shù)組,每一位只能為0或1
  • int32只需要512M的內(nèi)存就可以存儲(chǔ)全部的整數(shù)
  • 可以用2bit來(lái)表示多種狀態(tài)迟隅,例如00表示無(wú)但骨,01表示出現(xiàn)1次,10表示出現(xiàn)多次

字典樹(shù)(Trie Tree)

  • 只能用于字符串
  • 在遍歷時(shí)構(gòu)建
  • 相比于Hash表優(yōu)點(diǎn)在于空間開(kāi)銷(xiāo)小

bloom filter

  • 一般用bit數(shù)組存儲(chǔ)智袭,用于在海量數(shù)據(jù)下判斷某元素時(shí)候存在于集合之中
  • 使用k個(gè)Hash函數(shù)奔缠,將每一個(gè)數(shù)據(jù)都映射在bit數(shù)組中的k個(gè)位上(使用多個(gè)hash函數(shù)是為了減緩沖突問(wèn)題,但是仍不可避免沖突所以有誤差)
  • 缺點(diǎn)是不能刪除元素补履,除非把bit數(shù)組換成int數(shù)組添坊,每一位表示一個(gè)計(jì)數(shù)器

倒排索引

  • 用于文本檢索,對(duì)所有文檔建立倒排索引箫锤,可以查詢指定單詞出現(xiàn)在哪些文檔中

simhash

  • 用于比較文本之間的相似度
  • 思想是將高維的特征向量降維成低維的特征向量贬蛙,通過(guò)兩個(gè)向量的海明距離來(lái)判斷相似度
  • 五個(gè)步驟:
    • 分詞:將文本進(jìn)行分詞并對(duì)每個(gè)詞賦予一個(gè)權(quán)重,代表該詞在整個(gè)文本中的重要程度
    • hash:通過(guò)hash函數(shù)將原詞映射為n位bit簽名谚攒,將字符串轉(zhuǎn)換為了向量
    • 加權(quán):給詞向量加權(quán)阳准,對(duì)于每一位,1則直接乘權(quán)重馏臭,0則乘負(fù)的權(quán)重
    • 合并:將文本中的所有的詞向量加權(quán)結(jié)果進(jìn)行累加野蝇,變成一個(gè)向量
    • 降維:根據(jù)合并結(jié)果讼稚,大于0則置為1,小于0則置為0绕沈。這樣就得到了一個(gè)n-bit的文本simhash簽名
  • 根據(jù)經(jīng)驗(yàn)锐想,文本之間海明距離小于3則認(rèn)為相似度較高
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市乍狐,隨后出現(xiàn)的幾起案子赠摇,更是在濱河造成了極大的恐慌,老刑警劉巖浅蚪,帶你破解...
    沈念sama閱讀 211,817評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件藕帜,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡惜傲,警方通過(guò)查閱死者的電腦和手機(jī)洽故,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)盗誊,“玉大人时甚,你說(shuō)我怎么就攤上這事」猓” “怎么了撞秋?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,354評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)嚣鄙。 經(jīng)常有香客問(wèn)我,道長(zhǎng)串结,這世上最難降的妖魔是什么哑子? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,498評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮肌割,結(jié)果婚禮上卧蜓,老公的妹妹穿的比我還像新娘。我一直安慰自己把敞,他們只是感情好弥奸,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,600評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著奋早,像睡著了一般盛霎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上耽装,一...
    開(kāi)封第一講書(shū)人閱讀 49,829評(píng)論 1 290
  • 那天愤炸,我揣著相機(jī)與錄音,去河邊找鬼掉奄。 笑死规个,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播诞仓,決...
    沈念sama閱讀 38,979評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼缤苫,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了墅拭?” 一聲冷哼從身側(cè)響起活玲,我...
    開(kāi)封第一講書(shū)人閱讀 37,722評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎帜矾,沒(méi)想到半個(gè)月后翼虫,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,189評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡屡萤,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,519評(píng)論 2 327
  • 正文 我和宋清朗相戀三年珍剑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片死陆。...
    茶點(diǎn)故事閱讀 38,654評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡招拙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出措译,到底是詐尸還是另有隱情别凤,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布领虹,位于F島的核電站规哪,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏塌衰。R本人自食惡果不足惜诉稍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,940評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望最疆。 院中可真熱鬧杯巨,春花似錦、人聲如沸努酸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,762評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)获诈。三九已至仍源,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間舔涎,已是汗流浹背镜会。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,993評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留终抽,地道東北人戳表。 一個(gè)月前我還...
    沈念sama閱讀 46,382評(píng)論 2 360
  • 正文 我出身青樓桶至,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親匾旭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子镣屹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,543評(píng)論 2 349