大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的三個(gè)特征

本文不算是嚴(yán)格意義的讀書(shū)筆記,只能算是讀書(shū)摘抄贞铣。所有的內(nèi)容來(lái)自于的[英]維克托·邁爾-舍恩伯格胜蛉、肯尼斯·庫(kù)克耶合著的《大數(shù)據(jù)時(shí)代》挠进。

圖片發(fā)自簡(jiǎn)書(shū)App

自從有了人類,就產(chǎn)生了數(shù)據(jù)誊册。那何為大數(shù)據(jù)领突,它同我們?cè)瓉?lái)一直接觸并使用的數(shù)據(jù)有什么不同??jī)H僅就是“大”嗎案怯?作者在書(shū)中提出了君旦,大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的三個(gè)特征。

1.大數(shù)據(jù)即全數(shù)據(jù),樣本=總體

在大數(shù)據(jù)時(shí)代之前人們處理數(shù)據(jù)通常的做法是采取采樣的方法金砍。統(tǒng)計(jì)學(xué)家們證明局蚀,采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅度提升但與樣本數(shù)量增加的關(guān)系不大。據(jù)說(shuō)恕稠,要預(yù)測(cè)美國(guó)大選琅绅,嚴(yán)格依據(jù)統(tǒng)計(jì)學(xué)抽樣調(diào)查,樣本數(shù)量只要5000多人就可以達(dá)到97%以上的準(zhǔn)確性鹅巍。從另外一個(gè)角度來(lái)說(shuō)千扶,抽樣也是原來(lái)人類沒(méi)有能力去收集全面而完整的數(shù)據(jù)并高效精確的進(jìn)行分析,而采取的變通之舉骆捧。

大數(shù)據(jù)時(shí)代澎羞,人類收集數(shù)據(jù)的手段、處理數(shù)據(jù)的能力敛苇,都實(shí)現(xiàn)了天翻地覆的進(jìn)步∽苯剩現(xiàn)在人類完全有能力不再采用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方式接谨。書(shū)中通過(guò)谷歌預(yù)測(cè)流感趨勢(shì)摆碉、發(fā)現(xiàn)相撲比賽中非法操作結(jié)果等案例進(jìn)行了闡釋。

2.大數(shù)據(jù)允許不精確脓豪,更重混雜性

曾幾何時(shí)巷帝,精確是我們對(duì)數(shù)據(jù)質(zhì)量最基本、也是最重要的要求扫夜。在小數(shù)據(jù)時(shí)代楞泼,一個(gè)數(shù)據(jù)不準(zhǔn)確,往往就會(huì)出現(xiàn)失之毫厘差之千里的現(xiàn)象笤闯。所以我們拼命的改進(jìn)測(cè)量技術(shù)堕阔,制造更加精密的儀器,只為讓小數(shù)點(diǎn)后面的位數(shù)越來(lái)越多颗味,讓結(jié)果不受外界因素的干擾超陆。

大數(shù)據(jù)時(shí)代則不然,數(shù)據(jù)規(guī)模的的擴(kuò)大是以精確性的降低為代價(jià)的浦马。而且在大數(shù)據(jù)時(shí)代时呀,高達(dá)95%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),如果我們還執(zhí)著于精確性晶默,這意味著我們要不要花難以承受的成本來(lái)清洗數(shù)據(jù)谨娜,要不就要舍棄掉這些數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)帶來(lái)的一個(gè)最明顯的特征就是紛繁混雜磺陡,但是只要規(guī)模足夠大趴梢、數(shù)據(jù)足夠多漠畜,就越接近我們這個(gè)混沌的世界,最終的結(jié)果也更精確坞靶。書(shū)中舉了谷歌翻譯系統(tǒng)為例憔狞,其數(shù)據(jù)輸入來(lái)源很混亂,會(huì)從各種各樣語(yǔ)言的公司網(wǎng)站上尋找對(duì)譯文檔滩愁,還會(huì)去尋找聯(lián)合國(guó)和歐盟這些國(guó)際組織發(fā)布的官方文件和報(bào)告的譯本躯喇。但是,它的翻譯質(zhì)量確得到了保證硝枉。

3.大數(shù)據(jù)不重因果關(guān)系,而重相關(guān)關(guān)系

我曾寫(xiě)了一篇短文《買書(shū)時(shí)倦微,可別再上當(dāng)了》(請(qǐng)點(diǎn)擊閱讀)妻味,介紹的是亞馬遜的圖書(shū)推薦系統(tǒng),里面說(shuō)的其實(shí)是這個(gè)道理:知道是什么就夠了欣福,沒(méi)必要知道為什么责球。

我們一直被教導(dǎo)的是,要知其然更要知其所以然拓劝。但作者認(rèn)為這是小數(shù)據(jù)世界的思維方式雏逾,在大數(shù)據(jù)時(shí)代可吃不開(kāi)了。作者認(rèn)為郑临,建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)才是大數(shù)據(jù)的核心栖博。

作者在大數(shù)據(jù)時(shí)代書(shū)中舉了不少例子來(lái)作為佐證,如沃爾瑪把蛋撻與颶風(fēng)用品擺在一起厢洞,塔吉特如何預(yù)測(cè)客戶懷孕等仇让,還拉上了這幾年很火的丹尼爾·卡尼曼的研究來(lái)增強(qiáng)說(shuō)服力。但我個(gè)人認(rèn)為這是書(shū)中說(shuō)服力最不強(qiáng)的一個(gè)論點(diǎn)躺翻,因?yàn)槟切┌咐藗円部梢哉J(rèn)為是存在因果關(guān)系丧叽。而整個(gè)論證過(guò)程有點(diǎn)類似于思辨的,并不是很嚴(yán)謹(jǐn)公你,不同的人還是有不同的看法的踊淳。

但無(wú)論如何作者的這個(gè)觀點(diǎn)我還是認(rèn)同的,大多數(shù)情況下陕靠,我們只要相關(guān)分析就夠了迂尝,沒(méi)有必要再花成本和時(shí)間去深究其因果性。本來(lái)這就是我們采用大數(shù)據(jù)的本意懦傍,是不是雹舀?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市粗俱,隨后出現(xiàn)的幾起案子说榆,更是在濱河造成了極大的恐慌虚吟,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,406評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件签财,死亡現(xiàn)場(chǎng)離奇詭異串慰,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)唱蒸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門(mén)邦鲫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人神汹,你說(shuō)我怎么就攤上這事庆捺。” “怎么了屁魏?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,815評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵滔以,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我氓拼,道長(zhǎng)你画,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,537評(píng)論 1 296
  • 正文 為了忘掉前任桃漾,我火速辦了婚禮坏匪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘撬统。我一直安慰自己适滓,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,536評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布宪摧。 她就那樣靜靜地躺著粒竖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪几于。 梳的紋絲不亂的頭發(fā)上蕊苗,一...
    開(kāi)封第一講書(shū)人閱讀 52,184評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音沿彭,去河邊找鬼朽砰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛喉刘,可吹牛的內(nèi)容都是我干的瞧柔。 我是一名探鬼主播,決...
    沈念sama閱讀 40,776評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼睦裳,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼造锅!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起廉邑,我...
    開(kāi)封第一講書(shū)人閱讀 39,668評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤哥蔚,失蹤者是張志新(化名)和其女友劉穎倒谷,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體糙箍,經(jīng)...
    沈念sama閱讀 46,212評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡渤愁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,299評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了深夯。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片抖格。...
    茶點(diǎn)故事閱讀 40,438評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖咕晋,靈堂內(nèi)的尸體忽然破棺而出雹拄,到底是詐尸還是另有隱情,我是刑警寧澤掌呜,帶...
    沈念sama閱讀 36,128評(píng)論 5 349
  • 正文 年R本政府宣布办桨,位于F島的核電站,受9級(jí)特大地震影響站辉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜损姜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,807評(píng)論 3 333
  • 文/蒙蒙 一饰剥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧摧阅,春花似錦汰蓉、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,279評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至比规,卻和暖如春若厚,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蜒什。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,395評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工测秸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人灾常。 一個(gè)月前我還...
    沈念sama閱讀 48,827評(píng)論 3 376
  • 正文 我出身青樓霎冯,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親钞瀑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子沈撞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,446評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容