(3)大數(shù)據(jù) -- BitMap應(yīng)用

學(xué)會了BitMap的原理伐蒋,所以我們一定要來好好折騰一下自己,沒有環(huán)境也要創(chuàng)造環(huán)境搞事情


image.png

一迁酸、準(zhǔn)備數(shù)據(jù)

首先先鱼,用世界上最*的語言創(chuàng)建一個大文件

<?php

    set_time_limit(0);
    $max = pow(2, 32) - 1;
    $count = 你喜歡多少就多少;
    while ($count > 0) {
        $arr = array();
        for ($i = 0; $i < 10000; ++$i) {
            $arr[] = mt_rand(0, $max);
        }
        $content = $count > 10000 ? implode(PHP_EOL, $arr) . PHP_EOL : implode(PHP_EOL, $arr);
        file_put_contents('./smalldata.txt', $content, FILE_APPEND);
        $count -= 10000;
        unset($arr);
    }

// 別人高大上的大數(shù)據(jù),我們這種民間作坊就叫小數(shù)據(jù)


image.png

生成了一個5g多的文件奸鬓,我忘了當(dāng)時寫了多少個數(shù)據(jù)焙畔,大概5E左右個自然數(shù)吧。

image.png

二串远、思路以及方案

A宏多、

既然是一行一個數(shù)字,那就要一行一行的讀取文件(應(yīng)該有一次讀取多行的方法抑淫,不過我暫時沒找到),然后set bit姥闪∈嘉空間確定限制在512MB+了,時間復(fù)雜度也是O(n)沒跑了筐喳,但是一行一行的讀取也確實(shí)比較慢催式,那么就用多線程減少一下時間好了。(實(shí)現(xiàn)多線程有幾個方法避归,我這里用到了實(shí)現(xiàn)runnable接口這一種)

B荣月、

首先給多個線程劃分好讀取文件的區(qū)域,第n行 ~ 第n + m行梳毙,這樣就需要可以任意讀取文件某一個位置的工具哺窄,這里用到了RandomAccessFile,先把文件大小除以線程個數(shù)確定大概范圍,然后遞歸一個一個byte的地讀萌业,遞歸出口是讀取到換行符或者到文件結(jié)尾坷襟。

思路和方案大概就是這樣,代碼在我的gayhub上面生年,拉到最下面就是地址婴程。

C、

其實(shí)靠上面兩條就可以做出來了抱婉,不過這的要這樣子做的話档叔,效率會非常低,因?yàn)樾阅芷款i都在IO流上蒸绩,查了網(wǎng)上優(yōu)化文件讀取的方式衙四,是用MappedByteBuffer。(我開始用了RandomAccessFile侵贵,后面查了發(fā)現(xiàn)它是一個一個byte的讀届搁,慢到爆炸)

D、

最后我開了4個線程去排序窍育,花了差不多700s的時間


image.png

這是我用了差不多兩個月的空余時間才做出來的卡睦,性能上一定還有很多優(yōu)化的空間的,應(yīng)該主要還是在IO流這塊漱抓,不過我所以暫時不去優(yōu)化它了表锻,

代碼的gayhub地址:https://github.com/PHPerKael/BitMap/


看完我的小數(shù)據(jù),再看看別人家真正的大數(shù)據(jù)處理:

2016年11月10日乞娄,具有計(jì)算奧運(yùn)會之稱的Sort Benchmark全球排序競賽公布2016年最終成績瞬逊,騰訊云大數(shù)據(jù)聯(lián)合團(tuán)隊(duì)用時不到99秒(98.8秒)就完成100TB的數(shù)據(jù)排序,打破了去年329秒的紀(jì)錄仪或。在更早前确镊,百度創(chuàng)造的紀(jì)錄是716秒,Hadoop的紀(jì)錄是4222秒范删。


image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蕾域,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子到旦,更是在濱河造成了極大的恐慌旨巷,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件添忘,死亡現(xiàn)場離奇詭異采呐,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)搁骑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進(jìn)店門斧吐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來又固,“玉大人,你說我怎么就攤上這事会通】谟瑁” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵涕侈,是天一觀的道長沪停。 經(jīng)常有香客問我,道長裳涛,這世上最難降的妖魔是什么木张? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮端三,結(jié)果婚禮上舷礼,老公的妹妹穿的比我還像新娘。我一直安慰自己郊闯,他們只是感情好妻献,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著团赁,像睡著了一般育拨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上欢摄,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天熬丧,我揣著相機(jī)與錄音,去河邊找鬼怀挠。 笑死析蝴,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的绿淋。 我是一名探鬼主播闷畸,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吞滞!你這毒婦竟也來了佑菩?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤冯吓,失蹤者是張志新(化名)和其女友劉穎倘待,沒想到半個月后疮跑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體组贺,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年祖娘,在試婚紗的時候發(fā)現(xiàn)自己被綠了失尖。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片啊奄。...
    茶點(diǎn)故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖掀潮,靈堂內(nèi)的尸體忽然破棺而出菇夸,到底是詐尸還是另有隱情,我是刑警寧澤仪吧,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布庄新,位于F島的核電站,受9級特大地震影響薯鼠,放射性物質(zhì)發(fā)生泄漏择诈。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一出皇、第九天 我趴在偏房一處隱蔽的房頂上張望羞芍。 院中可真熱鬧,春花似錦郊艘、人聲如沸荷科。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽畏浆。三九已至,卻和暖如春奈附,著一層夾襖步出監(jiān)牢的瞬間全度,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工斥滤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留将鸵,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓佑颇,卻偏偏與公主長得像顶掉,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子挑胸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容