該書的第二章主要闡述了大數(shù)據(jù)時代對于數(shù)據(jù)要接受數(shù)據(jù)的混雜性而非準(zhǔn)確性這一觀點河爹。
過去人們收集的數(shù)據(jù)受自身認識的影響璃谨,認為只能處理有限的數(shù)據(jù)沙庐,因此就真的只是停留在處理有限的數(shù)據(jù)這一階段。采樣的過程中有限的數(shù)據(jù)決定著數(shù)據(jù)要盡可能的準(zhǔn)確佳吞,因為數(shù)據(jù)的有限意味著錯誤會很明顯拱雏,甚至影響到最后分析結(jié)果的準(zhǔn)確性。然而事實上在全體數(shù)據(jù)當(dāng)中底扳,結(jié)構(gòu)化的數(shù)據(jù)占5%铸抑,非結(jié)構(gòu)化的數(shù)據(jù)則高達95%,如果我們只局限于利用整齊劃一的結(jié)構(gòu)化的數(shù)據(jù)來進行分析的話衷模,勢必是管中窺豹舍本逐末的鹊汛。
首先我們要在思想上接受這個世界上的數(shù)據(jù)本身就是雜亂無章的,我們只能在小范圍內(nèi)對數(shù)據(jù)進行分類阱冶,排序刁憋,讓它們看起來像圖書館里的藏書那樣整整齊齊。然而世界每時每刻都在發(fā)生變化木蹬,數(shù)據(jù)的數(shù)量也在不停地呈幾何倍數(shù)的增長至耻,我們又該如何去整理這些時刻發(fā)生著變化的數(shù)據(jù)呢?
作者在書中舉了谷歌的機器翻譯與麻省理工的通貨緊縮預(yù)測軟件這兩個例子镊叁。關(guān)于機器翻譯尘颓,2013年4月我曾經(jīng)參與過由百度公司牽頭,幾所高校共同承擔(dān)的基于云計算的機器翻譯的一項國家863項目晦譬,所做的工作就是進行語料庫的對齊疤苹。坦白來說,人工進行對所收集的語料庫對齊效率是比較低的蛔添,而且數(shù)量也是相當(dāng)有限的痰催。如果僅僅是給予這些有限的英漢互譯的語料庫來實現(xiàn)機器翻譯的話,未免重蹈了60年代美國機器翻譯研發(fā)人員覆轍迎瞧;不過既然名稱中包含了“基于云計算”這五個字夸溶,我想多少還是會有大數(shù)據(jù)的思想在里面。谷歌的翻譯盡管時不時會出現(xiàn)一些能充當(dāng)段子的笑話凶硅,但正是由于它的語料庫參考了網(wǎng)絡(luò)上它能捕捉到的翻譯文本缝裁,不在乎質(zhì)量是否良莠不齊,而不是用復(fù)雜的算法去匹配有限的語料庫足绅,谷歌才能做到目前來說最好也最快的機器翻譯捷绑。而麻省理工的通貨緊縮預(yù)測軟件的例子則告訴我們,利用不那么精準(zhǔn)的大數(shù)據(jù)分析能夠快速地得出結(jié)果氢妈,判斷出事物發(fā)展的趨勢粹污,這個時效性的價值而花費大量人力物力而得出的精確數(shù)據(jù)的價值要高的多得多,特別是在預(yù)測天災(zāi)人禍的出現(xiàn)的時候首量。
在大數(shù)據(jù)時代壮吩,我們必須要轉(zhuǎn)變我們的思想,單純?yōu)榱俗非缶珳?zhǔn)而把自己局限在在一個小規(guī)模的數(shù)據(jù)只會讓自己“不知廬山真面目加缘,只緣身在此山中鸭叙。”擁抱錯誤反而能讓我們跳出既定的框架拣宏,去快速把握事物的全貌沈贝,去判斷它的未來發(fā)展趨勢。這樣的思想將會更加高效地指導(dǎo)我們?nèi)ネ瓿蓪τ诰_度要求不那么高的任務(wù)勋乾。