統(tǒng)計(jì)學(xué)是一門很古老的科學(xué)驶睦,也是很重要的學(xué)科场航。
統(tǒng)計(jì)學(xué)是通過(guò)搜索廉羔、整理、分析蜜另、描述數(shù)據(jù)等手段,以達(dá)到推斷所測(cè)對(duì)象的本質(zhì),甚至預(yù)測(cè)對(duì)象未來(lái)的一門綜合性科學(xué)此迅。
統(tǒng)計(jì)學(xué)的中心問(wèn)題就是如何根據(jù)樣本去探求有關(guān)總體的真實(shí)情況旧巾。在過(guò)去,我們數(shù)據(jù)有限坎怪,算力有限廓握,統(tǒng)計(jì)學(xué)的作用就很重要。
伴隨著信息化隙券,我們獲得的數(shù)據(jù)量越來(lái)越大,我們的計(jì)算能力越來(lái)越強(qiáng)沐飘,統(tǒng)計(jì)學(xué)的歷史使命似乎要達(dá)到終結(jié)牲迫。
大數(shù)據(jù)時(shí)代盹憎,我們可以獲得全樣本,大數(shù)據(jù)時(shí)代蜒滩,我們可以有不同的方法去處理數(shù)據(jù),去了解樣本的方方面面俯艰。相比較統(tǒng)計(jì)學(xué),樣本規(guī)范画株,總量數(shù)據(jù)有限啦辐,觀測(cè)目標(biāo)單一,這種情況下续挟,統(tǒng)計(jì)學(xué)是適用的侥衬。然而,數(shù)據(jù)過(guò)大的情況直颅,比如是網(wǎng)絡(luò)海量數(shù)據(jù)怀樟,你如何取樣,你如何觀測(cè)呢往堡?
大數(shù)據(jù)的特征之一是多樣性投蝉,不同來(lái)源、不同維度的數(shù)據(jù)之間存在一定的關(guān)聯(lián)度瘩缆,可以交叉驗(yàn)證,運(yùn)用大數(shù)據(jù)做決策庸娱,決就能夠從粗放型轉(zhuǎn)向集約型。
這么說(shuō)來(lái)归露,統(tǒng)計(jì)學(xué)似乎就沒(méi)有價(jià)值了斤儿?
大數(shù)據(jù)是全樣本,然而一些數(shù)據(jù)并不是有很大價(jià)值疆液,甚至?xí)霈F(xiàn)錯(cuò)誤導(dǎo)向。
谷歌的創(chuàng)始人拉里.佩奇和謝爾蓋.布林潘飘,在面試的時(shí)候掉缺,會(huì)要應(yīng)聘者大學(xué)的SAT成績(jī)及大學(xué)畢業(yè)時(shí)的平均成績(jī)。
然而艰毒,每次那些40多歲赘来,成就斐然的職業(yè)經(jīng)理人被問(wèn)到成績(jī),就很懵逼。
他們的依據(jù)是:SAT能彰顯天賦冰单,大學(xué)平均成績(jī)則能體現(xiàn)成就诫欠。
工作表現(xiàn)和這些成績(jī)有關(guān)系嗎?沒(méi)關(guān)系荒叼。
這個(gè)數(shù)據(jù)雖然是全數(shù)據(jù)被廓,但仍然具有不確定性。
?
大數(shù)據(jù)告知信息但不解釋信息昆婿,這是大數(shù)據(jù)相關(guān)關(guān)系的特性蜓斧。
就像股票市場(chǎng),即使把所有的數(shù)據(jù)都公布出來(lái)看疙,不懂的人依然不知道數(shù)據(jù)代表的信息。大數(shù)據(jù)時(shí)代能庆,統(tǒng)計(jì)學(xué)依然是數(shù)據(jù)分析的靈魂。正如加州大學(xué)伯克利分校邁克爾·喬丹教授指出的拾积,“沒(méi)有系統(tǒng)的數(shù)據(jù)科學(xué)作為指導(dǎo)的大數(shù)據(jù)研究丰涉,就如同不利用工程科學(xué)的知識(shí)來(lái)建造橋梁,很多橋梁可能會(huì)坍塌肛度,并帶來(lái)嚴(yán)重的后果投慈。”
在大數(shù)據(jù)時(shí)代加袋,我們不能忽視一些新的方法和思想抱既,但是,數(shù)據(jù)分析的很多根本性問(wèn)題和小數(shù)據(jù)時(shí)代并沒(méi)有本質(zhì)區(qū)別蚀之。