徐子沛《大數(shù)據(jù)》
破繭:數(shù)據(jù)挖掘之只能生命的產(chǎn)生
每天早上一醒來易稠,我就要問自己:怎樣才能讓數(shù)據(jù)流動(dòng)得更好脐帝、管理得更好筋搏、分析得更好仆百?
——羅林·福特,沃爾瑪首席信息官
數(shù)據(jù)挖掘是通過特定的計(jì)算機(jī)算法對(duì)大量的數(shù)據(jù)進(jìn)行自動(dòng)分析奔脐,從而揭示數(shù)據(jù)之間隱藏的關(guān)系俄周、模式和趨勢(shì),為決策者提供新的知識(shí)髓迎。之所以稱之為“挖掘”峦朗,是比喻在海量數(shù)據(jù)中尋找知識(shí),就像開礦掘金一樣困難排龄。
一開始波势,數(shù)據(jù)挖掘曾一度被稱為“基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)”。隨著數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生橄维,“數(shù)據(jù)挖掘”的叫法開始被廣泛接受尺铣。也正是因?yàn)橛辛藬?shù)據(jù)倉(cāng)庫(kù)的依托,數(shù)據(jù)挖掘如虎添翼争舞,如“巧婦”走進(jìn)了“米倉(cāng)”凛忿,在實(shí)業(yè)界不斷創(chuàng)造點(diǎn)“數(shù)”成金的故事。其中竞川,最為經(jīng)典的例子當(dāng)屬啤酒喝尿布店溢。
這是發(fā)生在沃爾瑪?shù)墓适隆Q芯咳藛T發(fā)現(xiàn):跟尿布一起搭配購(gòu)買最多的商品竟然是啤酒委乌。
原因:一些年輕的爸爸經(jīng)常要到超市去購(gòu)買嬰兒尿布床牧,有30%到40%的新爸爸會(huì)順便買點(diǎn)啤酒犒勞自己。
數(shù)據(jù)挖掘的兩個(gè)側(cè)重點(diǎn)
如何把散布在網(wǎng)絡(luò)上的這些資源整合起來遭贸,并從中自動(dòng)挖掘有價(jià)值的信息和知識(shí)戈咳,正是當(dāng)前數(shù)據(jù)挖掘面臨的最大挑戰(zhàn)之一。