（3）大數(shù)據(jù) -- BitMap應(yīng)用

學(xué)會了BitMap的原理伐蒋，所以我們一定要來好好折騰一下自己，沒有環(huán)境也要創(chuàng)造環(huán)境搞事情

image.png

一迁酸、準(zhǔn)備數(shù)據(jù)

首先先鱼，用世界上最*的語言創(chuàng)建一個大文件

<?php

    set_time_limit(0);
    $max = pow(2, 32) - 1;
    $count = 你喜歡多少就多少;
    while ($count > 0) {
        $arr = array();
        for ($i = 0; $i < 10000; ++$i) {
            $arr[] = mt_rand(0, $max);
        }
        $content = $count > 10000 ? implode(PHP_EOL, $arr) . PHP_EOL : implode(PHP_EOL, $arr);
        file_put_contents('./smalldata.txt', $content, FILE_APPEND);
        $count -= 10000;
        unset($arr);
    }

// 別人高大上的大數(shù)據(jù)，我們這種民間作坊就叫小數(shù)據(jù)

image.png

生成了一個5g多的文件奸鬓，我忘了當(dāng)時寫了多少個數(shù)據(jù)焙畔，大概5E左右個自然數(shù)吧。

image.png

二串远、思路以及方案

A宏多、

既然是一行一個數(shù)字，那就要一行一行的讀取文件（應(yīng)該有一次讀取多行的方法抑淫，不過我暫時沒找到），然后set bit姥闪∈嘉空間確定限制在512MB+了，時間復(fù)雜度也是O(n)沒跑了筐喳，但是一行一行的讀取也確實(shí)比較慢催式，那么就用多線程減少一下時間好了。（實(shí)現(xiàn)多線程有幾個方法避归，我這里用到了實(shí)現(xiàn)runnable接口這一種）

B荣月、

首先給多個線程劃分好讀取文件的區(qū)域，第n行 ~ 第n + m行梳毙，這樣就需要可以任意讀取文件某一個位置的工具哺窄，這里用到了RandomAccessFile，先把文件大小除以線程個數(shù)確定大概范圍，然后遞歸一個一個byte的地讀萌业，遞歸出口是讀取到換行符或者到文件結(jié)尾坷襟。

思路和方案大概就是這樣，代碼在我的gayhub上面生年，拉到最下面就是地址婴程。

C、

其實(shí)靠上面兩條就可以做出來了抱婉，不過這的要這樣子做的話档叔，效率會非常低，因?yàn)樾阅芷款i都在IO流上蒸绩，查了網(wǎng)上優(yōu)化文件讀取的方式衙四，是用MappedByteBuffer。（我開始用了RandomAccessFile侵贵，后面查了發(fā)現(xiàn)它是一個一個byte的讀届搁，慢到爆炸）

D、

最后我開了4個線程去排序窍育，花了差不多700s的時間

image.png

這是我用了差不多兩個月的空余時間才做出來的卡睦，性能上一定還有很多優(yōu)化的空間的，應(yīng)該主要還是在IO流這塊漱抓，不過我所以暫時不去優(yōu)化它了表锻，

代碼的gayhub地址：https://github.com/PHPerKael/BitMap/

看完我的小數(shù)據(jù)，再看看別人家真正的大數(shù)據(jù)處理：

2016年11月10日乞娄，具有計(jì)算奧運(yùn)會之稱的Sort Benchmark全球排序競賽公布2016年最終成績瞬逊，騰訊云大數(shù)據(jù)聯(lián)合團(tuán)隊(duì)用時不到99秒（98.8秒）就完成100TB的數(shù)據(jù)排序，打破了去年329秒的紀(jì)錄仪或。在更早前确镊，百度創(chuàng)造的紀(jì)錄是716秒，Hadoop的紀(jì)錄是4222秒范删。

image.png

最后編輯于：2018.09.05 17:57:08

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末蕾域，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子到旦，更是在濱河造成了極大的恐慌旨巷，老刑警劉巖，帶你破解...
沈念sama閱讀 218,858評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件添忘，死亡現(xiàn)場離奇詭異采呐，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)搁骑，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門斧吐，熙熙樓的掌柜王于貴愁眉苦臉地迎上來又固，“玉大人，你說我怎么就攤上這事会通】谟瑁” “怎么了？”我有些...
開封第一講書人閱讀 165,282評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵涕侈，是天一觀的道長沪停。經(jīng)常有香客問我，道長裳涛，這世上最難降的妖魔是什么木张？我笑而不...
開封第一講書人閱讀 58,842評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮端三，結(jié)果婚禮上舷礼，老公的妹妹穿的比我還像新娘。我一直安慰自己郊闯，他們只是感情好妻献，可當(dāng)我...
茶點(diǎn)故事閱讀 67,857評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著团赁，像睡著了一般育拨。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上欢摄，一...
開封第一講書人閱讀 51,679評論 1贊 305
城市分裂傳說
那天熬丧，我揣著相機(jī)與錄音，去河邊找鬼怀挠。笑死析蝴，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的绿淋。我是一名探鬼主播闷畸，決...
沈念sama閱讀 40,406評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼吞滞！你這毒婦竟也來了佑菩？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,311評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤冯吓，失蹤者是張志新（化名）和其女友劉穎倘待，沒想到半個月后疮跑，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體组贺，經(jīng)...
沈念sama閱讀 45,767評論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年祖娘，在試婚紗的時候發(fā)現(xiàn)自己被綠了失尖。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片啊奄。...
茶點(diǎn)故事閱讀 40,090評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖掀潮，靈堂內(nèi)的尸體忽然破棺而出菇夸，到底是詐尸還是另有隱情，我是刑警寧澤仪吧，帶...
沈念sama閱讀 35,785評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布庄新，位于F島的核電站，受9級特大地震影響薯鼠，放射性物質(zhì)發(fā)生泄漏择诈。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,420評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一出皇、第九天我趴在偏房一處隱蔽的房頂上張望羞芍。院中可真熱鬧，春花似錦郊艘、人聲如沸荷科。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,988評論 0贊 22
一樁弒父案纱注，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽畏浆。三九已至，卻和暖如春奈附，著一層夾襖步出監(jiān)牢的瞬間全度，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,101評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工斥滤，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留将鸵，地道東北人。一個月前我還...
沈念sama閱讀 48,298評論 3贊 372
代替公主和親
正文我出身青樓佑颇，卻偏偏與公主長得像顶掉，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子挑胸，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,033評論 2贊 355

（3）大數(shù)據(jù) -- BitMap應(yīng)用

一迁酸、準(zhǔn)備數(shù)據(jù)

二串远、思路以及方案

A宏多、

B荣月、

C、

D、

推薦閱讀更多精彩內(nèi)容