?更雜:不是精確性二打,而是混雜性
允許不精確
對“小數(shù)據(jù)”而言,最基本掂榔、最重要的要求就是減少錯誤继效,保證質(zhì)量。因為收集信息的有限意味著細(xì)微的錯誤會被放大装获,甚至有可能影響整個結(jié)果的準(zhǔn)確性瑞信。
在大數(shù)據(jù)時代,在不斷涌現(xiàn)的新情況里饱溢,允許不精確的出現(xiàn)已經(jīng)成為一個新的亮點喧伞,而非缺點。因為放松了容錯的標(biāo)準(zhǔn)绩郎,人們掌握的數(shù)據(jù)也多了起來潘鲫,還可以利用這些數(shù)據(jù)做更多新的事情。
在整合來源不同的各類信息的時候肋杖,因為它們通常不完全一致溉仑,所以也會加大混亂程度∽粗玻混亂還可以指格式的不一致性浊竟,因為要達(dá)到格式的一致怨喘,就需要進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到振定。
雖然我們得到的信息不再那么準(zhǔn)確必怜,但收集到的數(shù)量龐大的信息讓我們放棄嚴(yán)格精確的選擇變得更加劃算。
“大數(shù)據(jù)”通常用概率說話后频,而不是板著“確鑿無疑”的面孔梳庆。整個社會要習(xí)慣這種思維需要很長的時間,其中也會出現(xiàn)一些問題卑惜。但現(xiàn)在膏执,有必要指出的是,當(dāng)我們試圖擴(kuò)大數(shù)據(jù)規(guī)模的時候露久,要學(xué)會擁抱混亂更米。
大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效
彼得·諾維格,谷歌公司人工智能方面的專家毫痕,和他的同事在一篇題為《數(shù)據(jù)的非理性效果》的文章中寫道:“大數(shù)據(jù)基礎(chǔ)上的簡單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效征峦。”他們就指出镇草,混雜是關(guān)鍵眶痰。
紛繁的數(shù)據(jù)越多越好
大數(shù)據(jù)時代要求我們重新審視精確性的優(yōu)劣。執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物梯啤。如今竖伯,我們已經(jīng)生活在信息時代。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益因宇,而不是以高昂的代價消除所有的不確定性七婴。
大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實現(xiàn)精確性察滑。接受數(shù)據(jù)的不精確和不完美打厘,我們反而能夠更好地進(jìn)行預(yù)測,也能夠更好地理解這個世界贺辰。
錯誤不是大數(shù)據(jù)固有的特性户盯,而是一個亟待我們?nèi)ヌ幚淼默F(xiàn)實問題,并且有可能長期存在饲化。
混雜性莽鸭,不是竭力避免,而是標(biāo)準(zhǔn)途徑
清楚的分類被更混亂卻更靈活的機(jī)制所取代了吃靠×蛘#互聯(lián)網(wǎng)上最火的網(wǎng)址都表明,它們欣賞不精確而不會假裝精確巢块。這并不代表系統(tǒng)不知道正確的數(shù)據(jù)是多少礁阁,只是當(dāng)數(shù)量規(guī)模變大的時候巧号,確切的數(shù)量已經(jīng)不那么重要了。
要想獲得大規(guī)模數(shù)據(jù)帶來的好處姥闭,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑丹鸿,而不應(yīng)該是竭力避免的。
新的數(shù)據(jù)庫設(shè)計的誕生
新的數(shù)據(jù)庫設(shè)計打破了關(guān)于記錄和預(yù)設(shè)場域的成規(guī)棚品。近年的大轉(zhuǎn)變就是非關(guān)系型數(shù)據(jù)庫的出現(xiàn)卜高。
傳統(tǒng)數(shù)據(jù)庫的設(shè)計要求在不同的時間提供一致的結(jié)果。但是南片,隨著數(shù)據(jù)數(shù)量的大幅增加以及系統(tǒng)用戶的增加,這種一致性將越來越難保持庭敦。當(dāng)數(shù)據(jù)廣泛地分布在多臺服務(wù)器上而且服務(wù)器每秒鐘都會接受成千上萬搜索指令的時候疼进,同步更新就比較不現(xiàn)實了。因此秧廉,多樣性是一種解決的方法伞广。
據(jù)估計,只有5%的數(shù)字?jǐn)?shù)據(jù)是機(jī)構(gòu)化的且能適用于傳統(tǒng)數(shù)據(jù)庫疼电。如果不接受混亂嚼锄,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用。通過接受不精確性蔽豺,我們打開了一個從未涉足的世界的窗戶区丑。
我們怎么看待使用所有數(shù)據(jù)和使用部分?jǐn)?shù)據(jù)的差別,以及我們怎樣選擇放松要求并取代嚴(yán)格的精確性修陡,將會對我們與世界的溝通產(chǎn)生深刻的影響沧侥。隨著大數(shù)據(jù)技術(shù)成為日常生活中的一個部分,我們應(yīng)該開始從一個比以前更大更全面的角度來理解事物魄鸦,也就是說應(yīng)該將“樣本=總體”植入我們的思維中宴杀。
相比依賴于小數(shù)據(jù)和精確性的時代,大數(shù)據(jù)因為更強(qiáng)調(diào)數(shù)據(jù)的完整性和混雜性拾因,幫助我們進(jìn)一步接近事實的真相旺罢。
大數(shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性绢记。精確性似乎一直是我們生活的支撐扁达。但認(rèn)為每個問題只有一個答案的想法是站不住腳的,不管我們承不承認(rèn)庭惜。一旦我們承認(rèn)了這個事實甚至擁護(hù)這個事實的話罩驻,我們離真相就又近了一步。
(46-66)