本文不算是嚴(yán)格意義的讀書(shū)筆記,只能算是讀書(shū)摘抄贞铣。所有的內(nèi)容來(lái)自于的[英]維克托·邁爾-舍恩伯格胜蛉、肯尼斯·庫(kù)克耶合著的《大數(shù)據(jù)時(shí)代》挠进。
自從有了人類,就產(chǎn)生了數(shù)據(jù)誊册。那何為大數(shù)據(jù)领突,它同我們?cè)瓉?lái)一直接觸并使用的數(shù)據(jù)有什么不同??jī)H僅就是“大”嗎案怯?作者在書(shū)中提出了君旦,大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的三個(gè)特征。
1.大數(shù)據(jù)即全數(shù)據(jù),樣本=總體
在大數(shù)據(jù)時(shí)代之前人們處理數(shù)據(jù)通常的做法是采取采樣的方法金砍。統(tǒng)計(jì)學(xué)家們證明局蚀,采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅度提升但與樣本數(shù)量增加的關(guān)系不大。據(jù)說(shuō)恕稠,要預(yù)測(cè)美國(guó)大選琅绅,嚴(yán)格依據(jù)統(tǒng)計(jì)學(xué)抽樣調(diào)查,樣本數(shù)量只要5000多人就可以達(dá)到97%以上的準(zhǔn)確性鹅巍。從另外一個(gè)角度來(lái)說(shuō)千扶,抽樣也是原來(lái)人類沒(méi)有能力去收集全面而完整的數(shù)據(jù)并高效精確的進(jìn)行分析,而采取的變通之舉骆捧。
大數(shù)據(jù)時(shí)代澎羞,人類收集數(shù)據(jù)的手段、處理數(shù)據(jù)的能力敛苇,都實(shí)現(xiàn)了天翻地覆的進(jìn)步∽苯剩現(xiàn)在人類完全有能力不再采用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方式接谨。書(shū)中通過(guò)谷歌預(yù)測(cè)流感趨勢(shì)摆碉、發(fā)現(xiàn)相撲比賽中非法操作結(jié)果等案例進(jìn)行了闡釋。
2.大數(shù)據(jù)允許不精確脓豪,更重混雜性
曾幾何時(shí)巷帝,精確是我們對(duì)數(shù)據(jù)質(zhì)量最基本、也是最重要的要求扫夜。在小數(shù)據(jù)時(shí)代楞泼,一個(gè)數(shù)據(jù)不準(zhǔn)確,往往就會(huì)出現(xiàn)失之毫厘差之千里的現(xiàn)象笤闯。所以我們拼命的改進(jìn)測(cè)量技術(shù)堕阔,制造更加精密的儀器,只為讓小數(shù)點(diǎn)后面的位數(shù)越來(lái)越多颗味,讓結(jié)果不受外界因素的干擾超陆。
大數(shù)據(jù)時(shí)代則不然,數(shù)據(jù)規(guī)模的的擴(kuò)大是以精確性的降低為代價(jià)的浦马。而且在大數(shù)據(jù)時(shí)代时呀,高達(dá)95%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),如果我們還執(zhí)著于精確性晶默,這意味著我們要不要花難以承受的成本來(lái)清洗數(shù)據(jù)谨娜,要不就要舍棄掉這些數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)帶來(lái)的一個(gè)最明顯的特征就是紛繁混雜磺陡,但是只要規(guī)模足夠大趴梢、數(shù)據(jù)足夠多漠畜,就越接近我們這個(gè)混沌的世界,最終的結(jié)果也更精確坞靶。書(shū)中舉了谷歌翻譯系統(tǒng)為例憔狞,其數(shù)據(jù)輸入來(lái)源很混亂,會(huì)從各種各樣語(yǔ)言的公司網(wǎng)站上尋找對(duì)譯文檔滩愁,還會(huì)去尋找聯(lián)合國(guó)和歐盟這些國(guó)際組織發(fā)布的官方文件和報(bào)告的譯本躯喇。但是,它的翻譯質(zhì)量確得到了保證硝枉。
3.大數(shù)據(jù)不重因果關(guān)系,而重相關(guān)關(guān)系
我曾寫(xiě)了一篇短文《買書(shū)時(shí)倦微,可別再上當(dāng)了》(請(qǐng)點(diǎn)擊閱讀)妻味,介紹的是亞馬遜的圖書(shū)推薦系統(tǒng),里面說(shuō)的其實(shí)是這個(gè)道理:知道是什么就夠了欣福,沒(méi)必要知道為什么责球。
我們一直被教導(dǎo)的是,要知其然更要知其所以然拓劝。但作者認(rèn)為這是小數(shù)據(jù)世界的思維方式雏逾,在大數(shù)據(jù)時(shí)代可吃不開(kāi)了。作者認(rèn)為郑临,建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)才是大數(shù)據(jù)的核心栖博。
作者在大數(shù)據(jù)時(shí)代書(shū)中舉了不少例子來(lái)作為佐證,如沃爾瑪把蛋撻與颶風(fēng)用品擺在一起厢洞,塔吉特如何預(yù)測(cè)客戶懷孕等仇让,還拉上了這幾年很火的丹尼爾·卡尼曼的研究來(lái)增強(qiáng)說(shuō)服力。但我個(gè)人認(rèn)為這是書(shū)中說(shuō)服力最不強(qiáng)的一個(gè)論點(diǎn)躺翻,因?yàn)槟切┌咐藗円部梢哉J(rèn)為是存在因果關(guān)系丧叽。而整個(gè)論證過(guò)程有點(diǎn)類似于思辨的,并不是很嚴(yán)謹(jǐn)公你,不同的人還是有不同的看法的踊淳。
但無(wú)論如何作者的這個(gè)觀點(diǎn)我還是認(rèn)同的,大多數(shù)情況下陕靠,我們只要相關(guān)分析就夠了迂尝,沒(méi)有必要再花成本和時(shí)間去深究其因果性。本來(lái)這就是我們采用大數(shù)據(jù)的本意懦傍,是不是雹舀?