閱讀小結(jié)系列是閱讀完后一本書后的總結(jié)
小結(jié)的目的是總結(jié)原書內(nèi)容蚁阳、主題和思想谈宛,加深自己對這本書的理解
此文為維克托.邁爾-舍恩伯格《大數(shù)據(jù)時(shí)代》的閱讀小結(jié)
書籍信息
書名:《大數(shù)據(jù)時(shí)代》
作者簡介:
- [英] 維克托.邁爾-舍恩伯格(Viktor Mayer-schonberger):被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”次哈,現(xiàn)任牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)研究所治理與監(jiān)管專業(yè)教授吆录。曾任哈弗大學(xué)肯尼迪學(xué)院信息監(jiān)管科研項(xiàng)目負(fù)責(zé)人窑滞,新加坡國立大學(xué)信息政策研究中心主任。
- 肯尼思.庫克耶(Kenneth Cukier)恢筝“溃《經(jīng)濟(jì)學(xué)人》數(shù)據(jù)編輯撬槽,曾任職于《華爾街日報(bào)》和《國際先驅(qū)論壇報(bào)》
大數(shù)據(jù)時(shí)代是我挺早之前就閱讀過的書此改,且讀過不止一次侄柔,最近抽出時(shí)間重翻了一遍,在此做一個(gè)小結(jié)勋拟。
大數(shù)據(jù)時(shí)代這本書所表達(dá)的大多數(shù)理念對于大數(shù)據(jù)日益顯著的今天是顯而易見的。但在 2012 年就系統(tǒng)性提出了關(guān)于大數(shù)據(jù)時(shí)代的洞察敢靡,不得不說是具有前瞻性的。
全書圍繞三個(gè)方面展開:
- 大數(shù)據(jù)時(shí)代下的思維變革
- 大數(shù)據(jù)時(shí)代下的商業(yè)變革
- 大數(shù)據(jù)時(shí)代下的管理變革
其實(shí)全書的重點(diǎn)在第一部分即思維變革啸胧,而商業(yè)變革和管理變革算是思維變革下在不同方面的反映赶站。
大數(shù)據(jù)時(shí)代下的思維變革
思維變革體現(xiàn)在三個(gè)層面。
不是隨機(jī)樣本贝椿,而是全體數(shù)據(jù)
在信息和數(shù)據(jù)匱乏的小數(shù)據(jù)時(shí)代,我們需要用盡可能少的數(shù)據(jù)來證實(shí)盡可能重大的發(fā)現(xiàn)烙博,這正是傳統(tǒng)統(tǒng)計(jì)學(xué)目的和價(jià)值所在,這也是傳統(tǒng)的數(shù)據(jù)處理思維渣窜。
從早期的人口普查到各種各樣的群體調(diào)查統(tǒng)計(jì),小數(shù)據(jù)時(shí)代我們習(xí)慣采用隨機(jī)采樣的方式乔宿,以圖從最少的數(shù)據(jù)獲得最多的信息。然而數(shù)據(jù)采樣極大受限于采樣隨機(jī)性详瑞,導(dǎo)致最終結(jié)果的準(zhǔn)確性總是存在缺陷。
而大數(shù)據(jù)時(shí)代坝橡,則將開啟全數(shù)據(jù)模式,樣本 = 總體驳庭。我們有條件也有能力在全量數(shù)據(jù)的基礎(chǔ)上更細(xì)致研究和洞察數(shù)據(jù)的方方面面。
在大數(shù)據(jù)時(shí)代應(yīng)當(dāng)善于利用全量思維饲常,要充分意識到除了傳統(tǒng)的樣本分析法之外,我們有更好更全面的全量模式贝淤。
不是精確性,而是混雜性
對于 “小數(shù)據(jù)” 而言播聪,由于收集的信息量有限朽基,因此數(shù)據(jù)的質(zhì)量、準(zhǔn)確性具有極高的要求离陶,容錯(cuò)的標(biāo)準(zhǔn)極高稼虎。數(shù)據(jù)的有限性意味著細(xì)微的錯(cuò)誤對最終結(jié)果的精準(zhǔn)性也會有極大的影響。
因此在小數(shù)據(jù)時(shí)代招刨,我們必須關(guān)注數(shù)據(jù)的精確性霎俩,我們要專注于數(shù)據(jù)的 “準(zhǔn)確無誤”,因?yàn)檫@直接影響著我們的結(jié)論。
而大數(shù)據(jù)時(shí)代打却,海量數(shù)據(jù)不可避免的造成數(shù)據(jù)的混雜性杉适,也造成部分?jǐn)?shù)據(jù)的不準(zhǔn)確。然后這并不是一種缺陷柳击,與致力于避免錯(cuò)誤相比猿推,提高對錯(cuò)誤的包容,在海量數(shù)據(jù)的背景下接受適量錯(cuò)誤的存在將帶給我們更多好處捌肴,將更有利于我們接近想要的結(jié)果。
比起數(shù)據(jù)個(gè)例的準(zhǔn)確性,我們應(yīng)當(dāng)更聚焦于數(shù)據(jù)的整體性侈离。
另外大數(shù)據(jù)的簡單算法有時(shí)候比小數(shù)據(jù)的復(fù)雜算法更有效,最為典型的例子就是當(dāng)前的機(jī)器翻譯卦碾。目前基于海量樣本的概率統(tǒng)計(jì)方法要明顯好于在小數(shù)據(jù)思維下的復(fù)雜規(guī)則推理。
機(jī)器翻譯質(zhì)量的跨越并非推演出了更好的算法洲胖,而是有了更完善、更全量的數(shù)據(jù)擒滑,同時(shí)這些數(shù)據(jù)允許適量錯(cuò)誤的存在叉弦。
大數(shù)據(jù)時(shí)代,而不應(yīng)當(dāng)再以高昂的代價(jià)消除所有的不確定性库车,我們要接受數(shù)混亂和數(shù)據(jù)的不確定性,這將使我們從數(shù)據(jù)的紛雜性和完整性上獲益柠衍。
不是因果關(guān)系晶乔,而是相關(guān)關(guān)系
因果關(guān)系可以說是人類科學(xué)文明的基石珍坊,傳統(tǒng)科研思維中因果關(guān)系占據(jù)絕對的地位正罢。從某種角度來講,科研的核心便是在不斷演繹和推理過程中探索因果關(guān)系。
但基于大數(shù)據(jù)誕生的統(tǒng)計(jì)關(guān)聯(lián)分析等方法川无,實(shí)現(xiàn)了數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的挖掘虑乖。我們將有能力讓數(shù)據(jù) ”說話“懦趋,讓數(shù)據(jù)來表達(dá)和呈現(xiàn)客觀事實(shí)疹味,甚至很多事實(shí)在我們了解其內(nèi)在因果關(guān)系之前就已被呈現(xiàn)在我們面前。
探索因果關(guān)系時(shí)需要建立假設(shè)糙捺,然后驗(yàn)證。而假設(shè)的驗(yàn)證受限于假說提出者的認(rèn)知水平洪灯。但如果我們選擇讓數(shù)據(jù)展示其關(guān)聯(lián)關(guān)系,最終呈現(xiàn)”是什么“掏呼,雖然探索”為什么“也非常重要。但在很多場景下憎夷,相關(guān)關(guān)系已經(jīng)能夠幫我們解決足夠多的問題。
在大數(shù)據(jù)時(shí)代拾给,我們應(yīng)當(dāng)提高對相關(guān)關(guān)系的關(guān)注兔沃,但不意味著相關(guān)關(guān)系將取代因果關(guān)系鸣戴,大數(shù)據(jù)也不應(yīng)該叫囂”理論已死“粘拾。但它毫無疑問會改變我們認(rèn)知世界的習(xí)慣和方式。
大數(shù)據(jù)時(shí)代下的商業(yè)變革
1. 數(shù)據(jù)化:一切皆可量化
作者通過各個(gè)案例如莫里的數(shù)據(jù)化導(dǎo)航圖缰雇、谷歌的數(shù)字圖書館、地理定位等械哟,表達(dá)在大數(shù)據(jù)時(shí)代,現(xiàn)實(shí)世界的各類信息將以難以想象的速度進(jìn)行數(shù)據(jù)化锋爪,從某種層面上丙曙,所有的現(xiàn)實(shí)信息均可數(shù)據(jù)化其骄。
實(shí)際上這一點(diǎn)會充分體現(xiàn)在目前的物聯(lián)網(wǎng)上。
2. 價(jià)值:“取之不盡拯爽,用之不竭”的數(shù)據(jù)創(chuàng)新
- 數(shù)據(jù)可重復(fù)使用的特點(diǎn),即數(shù)據(jù)的價(jià)值不會衰減逼肯。
- 數(shù)據(jù)在不同場景可以有不同用途,即數(shù)據(jù)的價(jià)值是多樣的篮幢。
3. 角色定位:數(shù)據(jù)、技術(shù)與思維的三足鼎立
根據(jù)所提供價(jià)值的不同來源三椿,將會出現(xiàn)三種大數(shù)據(jù)公司曲尸。
- 基于數(shù)據(jù)本身的公司赋续。此類公司擁有大量數(shù)據(jù)或者至少可以收集到大量數(shù)據(jù)另患,卻不一定有從數(shù)據(jù)中提取和挖掘價(jià)值的能力蛾绎。
- 基于技能的公司。此類公司具有專業(yè)的數(shù)據(jù)挖掘能力租冠,能從數(shù)據(jù)中挖掘相應(yīng)的信息。但卻不一定擁有擁有數(shù)據(jù)顽爹,也不一定有發(fā)揮數(shù)據(jù)創(chuàng)新用途的才能。
- 基于思維的公司镜粤。此類公司具有將數(shù)據(jù)價(jià)值進(jìn)行創(chuàng)新應(yīng)用的能力,能結(jié)合數(shù)據(jù)挖掘出的信息進(jìn)一步實(shí)現(xiàn)價(jià)值轉(zhuǎn)換公荧。
而這三者中最重要和最值錢的應(yīng)該是數(shù)據(jù)本身,數(shù)據(jù)本身才是真正的黃金循狰。
另外作者還提出了由于數(shù)據(jù)本身的高價(jià)值,所以可能會出現(xiàn)數(shù)據(jù)中間商(或數(shù)據(jù)交易平臺)绪钥。
大數(shù)據(jù)時(shí)代的管理變革
1. 風(fēng)險(xiǎn):讓數(shù)據(jù)主宰一切的隱憂
- 在大數(shù)據(jù)時(shí)代,實(shí)際上無論是告知和許可昧识,模糊化和匿名化,用戶的隱私都是難以得到保障的跪楞。
- 基于大數(shù)據(jù)的預(yù)測能力(如通過你的搜索記錄、聊天記錄預(yù)測你是否有犯罪預(yù)謀)甸祭,以后的懲罰可能會基于你的“將做”,而不是“已做”咏雌。但對預(yù)測到的未來行為判罪將否認(rèn)我們進(jìn)行道德選擇的能力。
- 數(shù)據(jù)可能會成為管理和決策的重要標(biāo)準(zhǔn)赊抖,久而久之導(dǎo)致我們形成對數(shù)據(jù)的執(zhí)迷寨典,賦予數(shù)據(jù)原本不該有的盲目信任和權(quán)力氛雪。
2. 掌控:責(zé)任與自由并舉的信息管理
- 管理變革-個(gè)人隱私保護(hù)耸成。應(yīng)該從個(gè)人許可到讓數(shù)據(jù)使用者為其行為和結(jié)果承擔(dān)責(zé)任。因?yàn)閿?shù)據(jù)的價(jià)值很多部分在二級用途上井氢,而收集數(shù)據(jù)時(shí)并未作相應(yīng)考慮,那么“告知和許可”的作用就很有限花竞。(這一點(diǎn)可以結(jié)合現(xiàn)在 GDPR 來思考)
- 管理變革-大數(shù)據(jù)算法師的崛起。大數(shù)據(jù)預(yù)測零远、運(yùn)算法則等有變?yōu)楹诤凶拥娘L(fēng)險(xiǎn)。而面向這個(gè)黑盒子遍烦,則可能會出現(xiàn)對這些黑盒子進(jìn)行評估和解讀的新角色躺枕,以保證公正和保密服猪,這些角色便是大數(shù)據(jù)算法師。
汪
汪