[英] 維克托.邁爾-舍恩伯格 肯尼思.庫(kù)克耶? 著? 盛楊燕 周濤 譯
浙江人民出版社
最近一直在看大數(shù)據(jù)類的書籍考余,記得很久之前看過(guò)這本書贬芥,感到對(duì)這本書有點(diǎn)陌生了吉挣,于是在書柜了翻出來(lái)再細(xì)細(xì)讀了一遍蜀备,讀完感覺(jué)又和以前的理解不一樣删咱。今年大數(shù)據(jù)一直是比較熱門的話題蚁孔,身邊一直都能感覺(jué)到大數(shù)據(jù)在生活中的無(wú)處不在奶赔。衣食住行這些生活的元素已經(jīng)在不斷的滲入越來(lái)越多的數(shù)據(jù)信息,并這些信息得到收集杠氢,很多數(shù)據(jù)也已經(jīng)產(chǎn)生新的社會(huì)概念站刑,影響著一代的人,所以大數(shù)據(jù)不是未來(lái)鼻百,因?yàn)橐呀?jīng)到來(lái)绞旅。
這本書的結(jié)構(gòu)還是體現(xiàn)著理工男的邏輯思維模式摆尝,按照總分總的標(biāo)準(zhǔn)格式書寫,先提出大數(shù)據(jù)的現(xiàn)狀和整書的概述因悲,然后分開(kāi)三個(gè)方面堕汞,圍繞著大數(shù)據(jù)的思維變革、大數(shù)據(jù)的商業(yè)變革和大數(shù)據(jù)的管理變革來(lái)進(jìn)行分析晃琳,最后對(duì)大數(shù)據(jù)的未來(lái)做出預(yù)測(cè)和評(píng)價(jià)讯检。書內(nèi)例子和個(gè)案很多,也有很多有趣的商業(yè)故事卫旱,行文不乏枯燥人灼。
一、思維變革:在我們達(dá)到目的地之前顾翼,我們有必要了解怎樣才能到達(dá)投放。
要理解大數(shù)據(jù)真的要首先有大數(shù)據(jù)的邏輯思維,因?yàn)榇髷?shù)據(jù)已經(jīng)變成形態(tài)的時(shí)候适贸,她自己內(nèi)部就會(huì)有自己的規(guī)律跪呈。要控制或利用大數(shù)據(jù),首先肯定要先改變以往的思維模式取逾,包括很多統(tǒng)計(jì)學(xué)耗绿,因果關(guān)系等傳統(tǒng)的邏輯關(guān)系,因?yàn)檫@些在大數(shù)據(jù)中有些是不適用的砾隅,甚至是和原來(lái)的推導(dǎo)的結(jié)論完全悖論。下面就是書中所說(shuō)就是三個(gè)最主要的大數(shù)據(jù)思維晴埂。
1究反、不是隨機(jī)樣本,而是全體數(shù)據(jù)
記得以前在學(xué)統(tǒng)計(jì)學(xué)和自己做研究的時(shí)候儒洛,抽樣隨機(jī)對(duì)照就是一種非常經(jīng)典的實(shí)驗(yàn)方法,這是源于人類無(wú)法獲取全部數(shù)據(jù)時(shí)發(fā)明出來(lái)的一種統(tǒng)計(jì)學(xué)方法琅锻。但那時(shí)候我就一直有些疑問(wèn)卦停,比如血紅血胞的正常值就是通過(guò)抽樣統(tǒng)計(jì)出來(lái)的恼蓬,就是在一個(gè)城市里抽取一定量的血液標(biāo)本進(jìn)行檢測(cè)惊完,從而推導(dǎo)正常值的標(biāo)準(zhǔn)处硬。這樣能如何保證抽取的樣本時(shí)均衡的呢小槐?但這是在全體數(shù)據(jù)獲得困難時(shí)所采取的方法荷辕。但大數(shù)據(jù)不一樣凿跳,因?yàn)樗涗浀氖侨康臄?shù)據(jù),無(wú)一漏掉控嗜。
由于能記錄的是全部數(shù)據(jù)苟径,所以我門用的也是全部數(shù)據(jù),也就是說(shuō),我們現(xiàn)在可以更關(guān)注的是整體蟆盐,而不是部分承边。這對(duì)我門建立數(shù)據(jù)分析時(shí)很重要,因?yàn)檫@種整體的數(shù)據(jù)模式將能展示事情的全方面石挂,也要求我們?cè)谠O(shè)計(jì)時(shí)把整體的概念融入實(shí)踐中博助。
2、不是精確性痹愚,而是混雜性
在做研究項(xiàng)目或?qū)懷芯繄?bào)告的時(shí)候富岳,有一項(xiàng)是必須要做就是“排除標(biāo)準(zhǔn)”,就把一些不符合的條件的樣本拯腮,或者達(dá)不到標(biāo)準(zhǔn)的樣本去掉窖式。 但在大數(shù)據(jù)時(shí)代這些將不再需要考慮。這里講的混雜性就是允許數(shù)據(jù)里的缺失或參差动壤,并在大數(shù)據(jù)運(yùn)用中不再關(guān)切道精確的程度萝喘。
這里所說(shuō)的混在性,并不是說(shuō)精確性不重要琼懊,而是大數(shù)據(jù)欣賞的是不精確而不會(huì)假裝精確阁簸。這也并不代表系統(tǒng)不知道正確的數(shù)據(jù)是什么,只是當(dāng)數(shù)量規(guī)模變大的時(shí)候哼丈,確切的數(shù)量已經(jīng)不那么重要了启妹。這就會(huì)使“一個(gè)唯一的真理”的觀念得到徹底的改變。所以隨著大數(shù)據(jù)技術(shù)成為日常生活中的一部分醉旦,我們應(yīng)該開(kāi)始從一個(gè)比以前更大更全面的角度來(lái)理解事物饶米,也就是說(shuō)應(yīng)該把“樣本=總體”植入我們的思維中。
3车胡、不是因果關(guān)系咙崎,而是相關(guān)關(guān)系
我們理解和解釋世界各種現(xiàn)象時(shí)會(huì)使用兩種方法:1、快速虛幻的因果關(guān)系2吨拍、緩慢有條不紊的因果關(guān)系褪猛。這兩種就是所說(shuō)的人類的快慢思維,但都會(huì)有有一個(gè)基礎(chǔ)“因果關(guān)系”羹饰。人類都很習(xí)慣這種因果關(guān)系的思考模型伊滋,但大數(shù)據(jù)會(huì)改變這兩種基本方法在我們認(rèn)識(shí)的世界時(shí)所扮演的角色碳却。
在大數(shù)據(jù)下,我們知道是什么就夠了笑旺,沒(méi)必要知道為什么昼浦。建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心。這個(gè)系統(tǒng)依賴的是相關(guān)關(guān)系筒主,而不是因果關(guān)系关噪,系統(tǒng)只是告訴你會(huì)發(fā)生什么,而不是為什么發(fā)生乌妙。事實(shí)上使兔,通過(guò)去探求“是什么”而不是“為什么”,相關(guān)關(guān)系能幫助我們更好地了解了這個(gè)世界藤韵。但這也并不意味著要否定因果關(guān)系虐沥,因果關(guān)系還是有用的,但是它將不再被看成是意義的來(lái)源基礎(chǔ)泽艘。相關(guān)關(guān)系分析通常情況下能取代因果關(guān)系起作用欲险,即使不可取代的情況下,它也能指導(dǎo)因果關(guān)系起作用匹涮。
二天试、商業(yè)變革:傳統(tǒng)行業(yè)最終都會(huì)轉(zhuǎn)變?yōu)榇髷?shù)據(jù)行業(yè)。
大數(shù)據(jù)能持續(xù)走下去然低,價(jià)值的不斷提升是主要原因秋秤。特別是在商業(yè)中,大數(shù)據(jù)的價(jià)值更是在不斷的發(fā)掘脚翘。而數(shù)據(jù)纏產(chǎn)生價(jià)值的核心是量化灼卢,即所有的變成數(shù)據(jù)。比如把方位量化来农,把文字量化鞋真,把溝通量化,變成數(shù)據(jù)沃于,然后就產(chǎn)生了導(dǎo)航涩咖、電子書、社交平臺(tái)這些 新的商業(yè)行業(yè)和模式繁莹,并產(chǎn)生巨大的互聯(lián)網(wǎng)產(chǎn)業(yè)鏈檩互。這些產(chǎn)業(yè)都是以數(shù)據(jù)作為基礎(chǔ),一切都是圍繞著數(shù)據(jù)進(jìn)行實(shí)施咨演。數(shù)據(jù)的商業(yè)價(jià)值在于創(chuàng)新闸昨,包括:數(shù)據(jù)再利用、重組數(shù)據(jù)、可擴(kuò)展數(shù)據(jù)饵较、數(shù)據(jù)的折舊拍嵌、數(shù)據(jù)的廢氣、開(kāi)放數(shù)據(jù)循诉。
由此横辆,作者根據(jù)大數(shù)據(jù)價(jià)值鏈的3大構(gòu)成,數(shù)據(jù)茄猫、技術(shù)與思維的三足鼎立狈蚤,劃分了三類互聯(lián)網(wǎng)大數(shù)據(jù)公司。1划纽、基于數(shù)據(jù)本身的公司脆侮,如:Twritter阿浓;2蹋绽、基于技能的公司,屬于技術(shù)分析類公司卸耘,如:天睿公司(Teradata);3蚣抗、基于思維的公司侈百,通過(guò)想法獲得價(jià)值翰铡。這三類公司也構(gòu)成了互聯(lián)網(wǎng)商業(yè)的基礎(chǔ)生態(tài)。
至于傳統(tǒng)行業(yè)變成大數(shù)據(jù)行業(yè)锭魔,也許就真的是只剩下時(shí)間的問(wèn)題。
三迷捧、管理變革:不能讓大數(shù)據(jù)的發(fā)展超出我們可以控制的范圍
這個(gè)章節(jié)是自己比較關(guān)心的一部分织咧,大數(shù)據(jù)展示在世界中的時(shí)候漠秋,我們將如把自己的衣服脫得一件不剩展現(xiàn)在世界中,我們的隱私怎么辦庆锦?如果大數(shù)據(jù)走向智能捅位,人類該如何掌控?我們?cè)谙硎艿拇髷?shù)據(jù)的便利的時(shí)候朝群,是否也逐漸陷入大數(shù)據(jù)的威脅當(dāng)中?書中也做了管理控制的論述中符。
1、個(gè)人隱私的保護(hù)
目前我們的每天產(chǎn)生的數(shù)據(jù)是以TB的量級(jí)計(jì)算淀散,而這些數(shù)據(jù)代表著我們每一個(gè)人內(nèi)在和外在的所有信息變化,但這些數(shù)據(jù)是暫時(shí)無(wú)法保護(hù)的档插。特別是大數(shù)據(jù)的二次使用過(guò)程慢蜓,這里面所產(chǎn)生的個(gè)人信息統(tǒng)計(jì)和匯總郭膛,經(jīng)過(guò)數(shù)據(jù)的再次分析和預(yù)測(cè),我們將徹底表露無(wú)遺则剃。在互聯(lián)網(wǎng)時(shí)代,不管是告知于許可棍现,模糊化還是匿名這三大隱私保護(hù)策略都會(huì)失效调煎。如今很多用戶都覺(jué)得自己的隱私已經(jīng)受到威脅己肮,當(dāng)大數(shù)據(jù)變得更為普通的時(shí)候,情況將更加不堪設(shè)想谎僻,但目前確實(shí)是沒(méi)有什么好的方法可以避免。但其中有一個(gè)方向我個(gè)人覺(jué)得是對(duì)的艘绍,從個(gè)人許可到讓數(shù)據(jù)使用著承擔(dān)責(zé)任西土,并設(shè)定使用時(shí)限鞍盗。
2、預(yù)測(cè)分析不能判罪
大數(shù)據(jù)最大的價(jià)值就是預(yù)判般甲,就是綜合樣本數(shù)據(jù)后對(duì)未來(lái)的走向進(jìn)行預(yù)測(cè)。在有些行業(yè)是值得推廣的敷存,但當(dāng)預(yù)測(cè)用于預(yù)測(cè)犯罪時(shí)墓造,判別的性質(zhì)就開(kāi)始改變了。就是說(shuō)觅闽,你未開(kāi)始犯罪,根據(jù)預(yù)測(cè)就可以定罪蛉拙。有一部電影《少數(shù)派報(bào)告》說(shuō)的就是類似的概念尸闸。大數(shù)據(jù)的預(yù)測(cè)給我們帶來(lái)的威脅孕锄,不僅僅局限于司法公正上,還會(huì)威脅到任何大數(shù)據(jù)預(yù)測(cè)對(duì)我們未來(lái)行為進(jìn)行罪責(zé)判定的領(lǐng)域畸肆,比如民事法庭案件中判定過(guò)失以及公司解雇員工的決策。所以絕不能因?yàn)榇髷?shù)據(jù)的分析預(yù)測(cè)它們可能犯罪轴脐,就判定它們有罪调卑。
3大咱、數(shù)據(jù)審計(jì)師
我們看到大數(shù)據(jù)的預(yù)測(cè),運(yùn)算法則和數(shù)據(jù)庫(kù)有變成黑盒子風(fēng)險(xiǎn)徽级,而這個(gè)黑盒子不透明气破、不可解釋餐抢、不可追蹤時(shí),我們會(huì)對(duì)這些數(shù)據(jù)逐漸信心全無(wú)旷痕,也許我們就是需要大數(shù)據(jù)算法師。這是一個(gè)新生的行業(yè)顽冶,這類新型的專業(yè)人們對(duì)數(shù)據(jù)進(jìn)行監(jiān)管服務(wù),他們將幫助社會(huì)大眾增加對(duì)數(shù)據(jù)的信心强重。
4、反對(duì)數(shù)據(jù)壟斷
為了促進(jìn)大數(shù)據(jù)平臺(tái)的良性競(jìng)爭(zhēng)间景,政府必須運(yùn)用反壟斷條例佃声,就像世界上一些大數(shù)據(jù)擁有者那樣倘要,政府也應(yīng)該公布其數(shù)據(jù)。
四、我的看法
大數(shù)據(jù)不是口號(hào)志鹃,是已經(jīng)來(lái)到身邊的未來(lái),盡管還有很多的不完善但從沒(méi)停止前進(jìn)的步伐曹铃。改變和威脅是一直并存的,這將影響一代一代發(fā)展的方向铛只。
沒(méi)有什么是上天注定的埠胖,因?yàn)槲覀兛偰芫褪种械男畔⒅贫ǔ鲰憫?yīng)的對(duì)策淳玩。大數(shù)據(jù)預(yù)測(cè)結(jié)果也并非鐵定,而只是提供了一種可能性蜕着,也就是說(shuō)谋竖,只要我們?cè)敢獬邢唬Y(jié)果可以改寫。
大數(shù)據(jù)提供的不是最終答案韧骗,只是參考答案,為我們提供暫時(shí)的幫助袍暴,以便等待更好的而方法和答案出現(xiàn)些侍。這也是提醒我們?cè)谑褂眠@個(gè)工具的時(shí)候政模,應(yīng)當(dāng)懷有謙恭之心,銘記人性之本淋样。