大數(shù)據(jù)時(shí)代，讓一群腦殘為你選書

（首發(fā)于紐約時(shí)報(bào)中文網(wǎng)）

對“大數(shù)據(jù)”概念還搞不清的人可以松一口氣了，如果你讀過《大數(shù)據(jù)時(shí)代》（Big Data:A Revolution That Will Transform How We Live, Work, and Think），你會發(fā)現(xiàn)舍恩伯格（Viktor Mayer-Sch?nberger）對“大數(shù)據(jù)”的定義如此簡單：所謂大數(shù)據(jù)（Big Data）仅偎，就是大量的數(shù)據(jù)；它的反義詞同樣簡單：小數(shù)據(jù)（Small Data）雳殊，很少很少的數(shù)據(jù)橘沥。

相比于作者所著同樣談?wù)摯髷?shù)據(jù)話題的《刪除：大數(shù)據(jù)取舍之道》一書，《大數(shù)據(jù)時(shí)代》結(jié)構(gòu)緊密夯秃，邏輯清晰座咆，論證過程也更為嚴(yán)謹(jǐn)。本書在何為大數(shù)據(jù)仓洼、大數(shù)據(jù)有何典型特征介陶、大數(shù)據(jù)的實(shí)際應(yīng)用和未來以及大數(shù)據(jù)的隱憂等關(guān)鍵問題上，通過案例和通暢曉白的解釋衬潦，梳理清楚了“大數(shù)據(jù)”這個(gè)看起來高深復(fù)雜但其實(shí)無處不在的概念斤蔓。在舍恩伯格看來植酥，以往我們因受限于工具而采用的抽樣調(diào)查以及精準(zhǔn)采樣數(shù)據(jù)的分析方法需要革新镀岛，大數(shù)據(jù)時(shí)代是改變方法論和思維方式的過程。

大數(shù)據(jù)時(shí)代的到來友驮，與信息數(shù)字化息息相關(guān)漂羊。在2000年的時(shí)候，以數(shù)字化形式存儲的數(shù)據(jù)僅占全球數(shù)據(jù)量的四分之一卸留，而到了2007年時(shí)走越，90%以上數(shù)據(jù)是數(shù)字化數(shù)據(jù)，剩下不到10%是存儲在報(bào)紙耻瑟、CD等介質(zhì)上的模擬數(shù)據(jù)旨指。我們知道，模擬數(shù)據(jù)在復(fù)制和傳播過程中信息會失真喳整、噪音疊加谆构，比如一張紙連續(xù)復(fù)印三次之后，噪點(diǎn)越來越多框都，字跡越來越模糊搬素，一盤音樂磁帶連續(xù)翻錄多次之后，令人厭煩的“嗞嗞”聲越來越大。而二進(jìn)制數(shù)字世界熬尺，是一個(gè)非黑即白的世界摸屠，要么1要么0，即使有噪點(diǎn)粱哼，灰色也會被識別黑色（1）季二，淺白則被計(jì)算機(jī)處理為白（0），沒有中間地帶揭措，也就沒有了噪音的容身之處戒傻。信息在數(shù)字世界得以無損復(fù)制和傳播，再加上不斷廉價(jià)化的存儲能力以及同時(shí)提高的計(jì)算能力蜂筹，大量以前無法處理的數(shù)據(jù)需纳，有了分析、解讀它們的可能艺挪。

在模擬信息的世界不翩，因?yàn)樾畔⑹占⑿畔?fù)制麻裳、信息存儲以及信息分析的工具既不夠好口蝠，成本也極為高昂，我們只能收集極少量的數(shù)據(jù)（也即所謂的“結(jié)構(gòu)化數(shù)據(jù)”）進(jìn)行分析津坑，由于條件所限妙蔗，我們發(fā)明了統(tǒng)計(jì)學(xué)來通過盡可能少的數(shù)據(jù)，去推導(dǎo)疆瑰、去證實(shí)盡可能重大的發(fā)現(xiàn)眉反。當(dāng)我們意識到我們已經(jīng)擁有能夠收集和處理大規(guī)模數(shù)據(jù)（也即所謂更多的“非結(jié)構(gòu)化數(shù)據(jù)”）能力的時(shí)候，我們需要新的理念和工具去重新認(rèn)識這個(gè)世界了穆役。

新的理念運(yùn)用于工具上的體現(xiàn)之一是光場相機(jī)Lytro寸五。與其它數(shù)碼相機(jī)不同的是，Lytro相機(jī)可以在拍攝完照片之后再對焦耿币。因?yàn)樵谂臄z時(shí)梳杏，Lytro可以記錄整個(gè)光場里所有的光，照片具體生成什么樣淹接，拍完之后根據(jù)需要再決定十性。——有沒有發(fā)現(xiàn)這顛覆了我們做事的一貫邏輯塑悼？以往我們因?yàn)槭苤朴诠ぞ呋蚪疱X劲适，需要提前想好我們的目的，再去獲取我們需要的信息拢肆。而大數(shù)據(jù)時(shí)代的思維方式則如Lytro的特性一樣减响，先拍下來再說靖诗，需要什么樣的照片，后期再處理支示。Lytro相機(jī)也算從膠片機(jī)過渡到數(shù)碼相機(jī)交疊時(shí)代思維的延續(xù)舵盈，如果攝影技術(shù)不太好票渠，先拍一堆片子再說酵幕，你總能挑出幾張好的來李根。

對小數(shù)據(jù)而言，最重要的要求是減少錯(cuò)誤嘴纺，保證質(zhì)量败晴。而大數(shù)據(jù)對更糙的信息及冗余信息容忍度更高，也即當(dāng)資源足夠豐富且廉價(jià)的時(shí)候栽渴，可以先大量浪費(fèi)尖坤，再來精準(zhǔn)化。而不是預(yù)設(shè)精準(zhǔn)的目標(biāo)闲擦。亞馬遜早期雇傭了一群書評家為讀者薦書慢味，后來發(fā)現(xiàn)通過算法——一群對圖書質(zhì)量判斷能力遠(yuǎn)不如專業(yè)人士的普通讀者的口味的集合——推薦圖書的轉(zhuǎn)化率更高之后，亞馬遜把書評家們都解雇了墅冷。由于自己多年積累被算法取代的憤怒纯路，在被解雇之后，書評家發(fā)出這樣的抱怨：（通過算法推薦）“那種感覺就像你和一群腦殘?jiān)谝黄鸸鋾昴蕖驰唬！鳖愃频墓适乱舶l(fā)生微軟。微軟機(jī)器翻譯部門的統(tǒng)計(jì)學(xué)家們在茶余飯后閑聊中會說腔彰，每次一有語言學(xué)家離開他們團(tuán)隊(duì)叫编，微軟機(jī)器翻譯質(zhì)量就會變得更好一點(diǎn)。

從對信息質(zhì)量的角度出發(fā)去觀察萍桌，我們會發(fā)現(xiàn)大數(shù)據(jù)時(shí)代的特性的確越來越“腦殘化”：它放棄原始數(shù)據(jù)的精確性宵溅，強(qiáng)調(diào)數(shù)據(jù)量的多和雜；它放棄因果關(guān)系的判斷上炎，強(qiáng)調(diào)相關(guān)關(guān)系；它放棄知其所以然（為什么）雏搂，只需知其然（是什么）就可以了藕施。豆瓣閱讀為什么給你推薦《中國合伙人》？背后的邏輯可能是你的朋友最近點(diǎn)了“想看”或“看過”凸郑。新浪微博為什么推薦李承鵬而不是李開復(fù)給你關(guān)注裳食？背后的邏輯可能是你關(guān)注的人中更多人關(guān)注李承鵬。但為什么因?yàn)榕笥严矚g芙沥，所以機(jī)器就會判定你也會喜歡呢诲祸？不知道浊吏。機(jī)器通過計(jì)算得知，如果你有很多朋友喜歡同一個(gè)事物救氯，那么你喜歡這個(gè)事物的概率會大一些找田。可能對着憨，也可能錯(cuò)墩衙。二者之間強(qiáng)相關(guān)，但不因果甲抖。

大數(shù)據(jù)最大的用途之一是預(yù)測漆改。好的方面，它可以預(yù)測機(jī)票價(jià)格走勢准谚，為自費(fèi)旅游者省錢挫剑；它能預(yù)測交通擁堵情況，幫助人們選擇更好的時(shí)段和路線節(jié)省出行時(shí)間柱衔；它也可以像亞馬遜做的那樣暮顺，為你提供更準(zhǔn)確的書單，幫你遇見更多好書秀存。《麻省理工科技創(chuàng)業(yè)》曾報(bào)道說捶码，英國伯明翰大學(xué)的一個(gè)研究團(tuán)隊(duì)甚至開發(fā)出一種算法，可以精確地預(yù)測你未來將要去哪里或链。大多數(shù)人一般有規(guī)律的行為模式惫恼，但傳統(tǒng)的預(yù)測算法——只通過用戶本身的行為模式來進(jìn)行預(yù)測，解決不了人們臨時(shí)變更路線的情況澳盐，導(dǎo)致預(yù)測人們出行的平均誤差高達(dá)1000米祈纯。伯明翰大學(xué)開發(fā)的算法可以通過追蹤用戶手機(jī)上的個(gè)人過往行為模式數(shù)據(jù)以及用戶手機(jī)里的社交關(guān)系——當(dāng)然，新型算法需要收集和分析大量個(gè)人信息叼耙。最后能預(yù)測用戶在24小時(shí)之內(nèi)會去什么地點(diǎn)腕窥，而平均誤差減少到僅20米。

如此精準(zhǔn)的研究結(jié)果讓人驚喜——細(xì)想過后筛婉，可能給人帶來更多的是驚訝簇爆，或驚恐。沒有人希望自己的正常出行被別人預(yù)測——機(jī)器竟然比我自己還了解自己爽撒，我連三小時(shí)后我會干嘛都不知道呢入蛆！這提醒我們在大數(shù)據(jù)時(shí)代，我們將面臨的隱私問題的嚴(yán)峻硕勿。

在小數(shù)據(jù)時(shí)代哨毁，數(shù)據(jù)采集者需要告知數(shù)據(jù)提供者其采集的數(shù)據(jù)用途為何；但在大數(shù)據(jù)時(shí)代源武，這樣的信息管理方式已經(jīng)失效扼褪。舍恩伯格在書中指出想幻，“大數(shù)據(jù)”將顛覆隱私保護(hù)法當(dāng)下以個(gè)人為中心的思想。比如許多公司采集用戶數(shù)據(jù)時(shí)的目的與最后使用的目的往往不同话浇，而且在未來脏毯，大數(shù)據(jù)的價(jià)值不再單純來自它的基本用途，更多來于它的二次甚至多次利用凳枝。但有時(shí)候即使個(gè)人不同意抄沮，也會為公眾帶來隱私問題。以Google街景項(xiàng)目為例岖瑰，Google采集了街道上的幾乎全部信息叛买，如果有某個(gè)人不同意ta的數(shù)據(jù)顯示在Google街景中，Google會將該信息模糊化處理蹋订。但當(dāng)其他人的信息都完整呈現(xiàn)在街景圖中時(shí)率挣，“馬賽克”（模糊化處理）的部分反倒成了焦點(diǎn)——本想隱藏掉的信息反倒成了此地?zé)o銀三百兩式的焦點(diǎn)。未來的個(gè)人數(shù)據(jù)采集與數(shù)據(jù)授權(quán)露戒，需要替換掉目前的隱私保護(hù)方案椒功。

舍恩伯格在書中舉的更諷刺的案例則是，2007年智什，英國報(bào)紙London Evening Standard一篇報(bào)道稱动漾，在喬治·奧威爾創(chuàng)作《1984》的地方，也就是他在倫敦公寓方圓183米范圍內(nèi)荠锭，有32架攝像機(jī)旱眯。如果奧威爾生活到現(xiàn)在，看到此情此景证九，他會做何感想删豺？

最后編輯于：2017.11.26 17:30:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市愧怜，隨后出現(xiàn)的幾起案子呀页，更是在濱河造成了極大的恐慌，老刑警劉巖拥坛，帶你破解...
沈念sama閱讀 206,311評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蓬蝶，死亡現(xiàn)場離奇詭異，居然都是意外死亡渴逻，警方通過查閱死者的電腦和手機(jī)疾党，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,339評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來惨奕，“玉大人，你說我怎么就攤上這事竭钝±孀玻” “怎么了雹洗？”我有些...
開封第一講書人閱讀 152,671評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長卧波。經(jīng)常有香客問我时肿，道長，這世上最難降的妖魔是什么港粱？我笑而不...
開封第一講書人閱讀 55,252評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任螃成，我火速辦了婚禮，結(jié)果婚禮上查坪，老公的妹妹穿的比我還像新娘寸宏。我一直安慰自己，他們只是感情好偿曙，可當(dāng)我...
茶點(diǎn)故事閱讀 64,253評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布氮凝。她就那樣靜靜地躺著，像睡著了一般望忆。火紅的嫁衣襯著肌膚如雪罩阵。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,031評論 1贊 285
城市分裂傳說
那天启摄，我揣著相機(jī)與錄音稿壁，去河邊找鬼。笑死歉备，一個(gè)胖子當(dāng)著我的面吹牛傅是，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播威创，決...
沈念sama閱讀 38,340評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼落午，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了肚豺？” 一聲冷哼從身側(cè)響起溃斋，我...
開封第一講書人閱讀 36,973評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎吸申，沒想到半個(gè)月后梗劫，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,466評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡截碴，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,937評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年梳侨，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片日丹。...
茶點(diǎn)故事閱讀 38,039評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡走哺，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出哲虾，到底是詐尸還是另有隱情丙躏，我是刑警寧澤择示，帶...
沈念sama閱讀 33,701評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站晒旅，受9級特大地震影響栅盲，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜废恋，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,254評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一谈秫、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧鱼鼓，春花似錦拟烫、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,259評論 0贊 19
一樁弒父案构灸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至岸梨，卻和暖如春喜颁，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背曹阔。一陣腳步聲響...
開封第一講書人閱讀 31,485評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工半开，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人赃份。一個(gè)月前我還...
沈念sama閱讀 45,497評論 2贊 354
代替公主和親
正文我出身青樓寂拆，卻偏偏與公主長得像，于是被迫代替她去往敵國和親抓韩。傳聞我的和親對象是個(gè)殘疾皇子纠永，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,786評論 2贊 345

大數(shù)據(jù)時(shí)代溃蔫，讓一群腦殘為你選書

大數(shù)據(jù)時(shí)代，讓一群腦殘為你選書

推薦閱讀更多精彩內(nèi)容