所謂的大數(shù)據(jù)啦逆,不是指這個(gè)數(shù)據(jù)要有多大才能叫大數(shù)據(jù),而是指數(shù)據(jù)幾乎是全部的數(shù)據(jù)了笛洛,沒有抽樣的處理過程夏志。
在技術(shù)還沒發(fā)達(dá)的以前,不久的以前苛让,人類要采集海量的數(shù)據(jù)很難沟蔑,尤其是信息化還沒普及之前,主要靠一支筆一張紙記錄的時(shí)候蝌诡,要把海量的數(shù)據(jù)采集起來溉贿,需要投入的人力物力財(cái)力太大了,一般的個(gè)人或企業(yè)根本沒這個(gè)條件浦旱。哪怕政府宇色,搞一次大型的數(shù)據(jù)采集,也是夠嗆的颁湖,例如我們國(guó)家的人口普查宣蠕,想想都是很恐怖的一件事。
以我們國(guó)家的人口普查為例甥捺。哪怕就是傾一國(guó)之力抢蚀,爬山越嶺,走村訪戶镰禾,想想我們幅員遼闊的祖國(guó)大好河山吧皿曲,哪怕是投入上百萬的普查員唱逢,整個(gè)過程想想都還是挺酸爽的。
即便這樣屋休,把數(shù)據(jù)采集起來了坞古,面對(duì)堆積如山紛繁復(fù)雜的資料,要整理清楚又是一項(xiàng)浩大的工程劫樟。(不說了痪枫,說多了都是淚)
好了,數(shù)據(jù)好不容易也整理好了叠艳,最后做統(tǒng)計(jì)奶陈,又是一場(chǎng)浩大的工程,然后才知道中國(guó)有多少億人附较。但我還是很遺憾的告訴你吃粒,哪怕就是這樣,這個(gè)數(shù)據(jù)都還是有誤差的翅睛,有誤差的声搁,有誤差的·····
這三大工程下來,不說投入的上百萬人的工資吧捕发,就是打印的表格和填寫表格的筆疏旨,這個(gè)錢就不知該怎么算了。
所以說扎酷,這種要全數(shù)據(jù)的方式檐涝,也只有國(guó)家政府愿意做?
因此法挨,幾百上千年來谁榜,人類還是發(fā)現(xiàn)了動(dòng)不動(dòng)就要采集全部數(shù)據(jù)這個(gè)事不是隨便都能做的,然后慢慢就發(fā)展出了統(tǒng)計(jì)學(xué)的各種理論凡纳,各種模型窃植。目的呢不外乎都是既要有用,又要經(jīng)濟(jì)荐糜。
在林林總總的統(tǒng)計(jì)學(xué)知識(shí)中巷怜,就有這么一個(gè)概念——抽樣,就是在整體中抽一部分暴氏,別搞什么全覆蓋了延塑,那樣太費(fèi)錢。但是答渔,抽樣只是在整體中抽一部分啊关带,可如果我們抽出來的這一部分,不能代表整體的情況怎么辦罢铀骸宋雏?
我也不知道怎么辦芜飘。因?yàn)槟愣紵o法對(duì)整體有一個(gè)精確的把握,你怎么知道抽出來的那一部分就能完全準(zhǔn)確反映整體的情況呢好芭?所以人們?yōu)榱吮M可能避免這個(gè)偏差燃箭,就想各種辦法來讓抽樣盡可能的具有代表性(記住,是盡可能)舍败,讓抽出來的這部分就幾乎等同于全部一個(gè)鳥樣。就像完全一樣的父子一樣的敬拓,希望兒子是父親的縮小版一樣邻薯,這樣就可以通過研究?jī)鹤訕幼觼矸从掣赣H的樣子。雖然要完全做到這樣是很難的乘凸,但盡力而為嘛厕诡。
但是,今時(shí)不同往日了营勤,我們的技術(shù)發(fā)達(dá)了灵嫌,我們不但可以完全實(shí)現(xiàn)信息化數(shù)字化了,我們?cè)O(shè)備還具有強(qiáng)大的計(jì)算能力了葛作。我們所有的業(yè)務(wù)行為都可以通過電子終端形成閉環(huán)了寿羞,而電子終端產(chǎn)生的所有數(shù)據(jù)都在那,再加上牛逼的計(jì)算能力赂蠢,再多的數(shù)據(jù)绪穆,計(jì)算起來都是小菜一碟,不費(fèi)勁虱岂!
我們有全部的數(shù)據(jù)了玖院,我們有牛逼的計(jì)算能力了,我們還需要抽樣嗎第岖?還需要毛線抽樣啊难菌,想怎么計(jì)算就怎么計(jì)算,想計(jì)算什么都全部數(shù)據(jù)一起上蔑滓,就這么任性郊酒!
好了,最后劃重點(diǎn)了烫饼,什么叫大數(shù)據(jù)猎塞?我們不扯高大上故作高深唬人的玩意,就強(qiáng)調(diào)一點(diǎn):不需要抽樣杠纵,全部數(shù)據(jù)一起上的就是大數(shù)據(jù)荠耽。