說(shuō)到數(shù)據(jù),要分析清楚幾個(gè)概念酝枢。
統(tǒng)計(jì)是一門應(yīng)用學(xué)科男杈,通過(guò)利用高等數(shù)學(xué)和概率論等數(shù)學(xué)背景來(lái)建立理論模型甩挫,將相關(guān)數(shù)據(jù)整理和填補(bǔ),利用各種統(tǒng)計(jì)檢驗(yàn)方法對(duì)其進(jìn)行量化分析吧雹,以求達(dá)到總結(jié)和預(yù)測(cè)的最終作用育叁。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘的關(guān)系并非是包容的诱贿,一般人認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的分支蛛砰,其實(shí)二者是有一定的交集罐栈。對(duì)于現(xiàn)在大數(shù)據(jù)背景下,人們更多強(qiáng)調(diào)數(shù)據(jù)的海量泥畅,卻往往忽略統(tǒng)計(jì)基礎(chǔ)的實(shí)現(xiàn)荠诬。統(tǒng)計(jì)與數(shù)據(jù)挖掘的區(qū)別如下:
1、統(tǒng)計(jì)學(xué)是以數(shù)學(xué)為基礎(chǔ)理論體系的位仁,而數(shù)據(jù)挖掘偏向于計(jì)算機(jī)領(lǐng)域柑贞;
2、統(tǒng)計(jì)學(xué)接觸的是樣本數(shù)據(jù)障癌,即在樣本基礎(chǔ)上估計(jì)總體凌外,而數(shù)據(jù)挖掘本身在總體范圍里面估計(jì)。
3涛浙、統(tǒng)計(jì)學(xué)更加注重運(yùn)用數(shù)學(xué)上已經(jīng)明確的模型來(lái)研究數(shù)據(jù)康辑,而數(shù)據(jù)挖掘注重機(jī)器學(xué)習(xí)和計(jì)算機(jī)科學(xué)這樣的經(jīng)驗(yàn),即不管模型是否有得解釋轿亮。
4疮薇、統(tǒng)計(jì)學(xué)的本質(zhì)是利用預(yù)期模型得出結(jié)果,而數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預(yù)期但是有價(jià)值的信息我注,確定性是不一致的按咒。
需要具體了解二者關(guān)系的同學(xué)請(qǐng)戳:http://www.36dsj.com/archives/5114