《大數(shù)據(jù)時(shí)代》的讀書筆記
作 ? ?者:[英]維克托.邁爾-舍恩伯格
出版社:浙江人民出版社
版 ? ?次:2013年1月第1次出版
作者簡介:
維克托.邁爾-舍恩伯格被預(yù)言為大數(shù)據(jù)時(shí)代的預(yù)言家诺舔,現(xiàn)任牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)研究所治理與監(jiān)管專業(yè)教授。曾任哈佛大學(xué)肯尼迪學(xué)院信息監(jiān)管科研項(xiàng)目負(fù)責(zé)人备畦,新加坡國立大學(xué)信息政策研究中心主任低飒。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業(yè)懂盐。他是歐盟互聯(lián)網(wǎng)官方政策背后真正的制定者和參與者褥赊,還先后擔(dān)任新加坡商務(wù)部高層,文萊國防部高層莉恼、科威特商務(wù)部高層拌喉、迪拜及中東政府高層的智囊。
本書的重點(diǎn)內(nèi)容和理解:
引言:一場生活俐银、工作與思維的大變革
1尿背、大數(shù)據(jù),變革公共衛(wèi)生
2009年出現(xiàn)新的流感病毒---甲型H1N1流感病毒捶惜。當(dāng)時(shí)的方式:患者到醫(yī)院田藐,醫(yī)院上報(bào)疾病控制中心吱七,疾病中心匯總數(shù)據(jù)读存。結(jié)果時(shí)間延遲一兩個(gè)星期僻他。谷歌:通過一定的數(shù)學(xué)模型逗扒,他們能判斷出流感是從哪里傳播出來的咙鞍,而且判斷非常及時(shí)----大數(shù)據(jù)挖掘镀脂。大數(shù)據(jù)挖掘能力:以一種前所未有的方式撮执,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù)舷丹,或深刻的洞見抒钱。
感悟:大數(shù)據(jù)時(shí)代的到來,各國的疾病控制中心可以取消了颜凯。
2谋币、大數(shù)據(jù),變革商業(yè)
購買飛機(jī)票:由埃齊奧尼創(chuàng)立了一個(gè)預(yù)測系統(tǒng)---Farecast系統(tǒng)症概,此系統(tǒng)用了將近十萬億條價(jià)格記錄來幫助預(yù)測美國國內(nèi)航班的票價(jià)蕾额。Farecast票價(jià)預(yù)測的準(zhǔn)確度已經(jīng)高達(dá)75%,使用Farecast票價(jià)預(yù)測工具購買機(jī)票的旅客彼城,平均每張機(jī)票可節(jié)省50美元诅蝶。
感悟:Farecast票價(jià)預(yù)測工具是否適合中國航空數(shù)據(jù)庫,是否適合中國航空機(jī)票票價(jià)的預(yù)測募壕。
3调炬、大數(shù)據(jù),變革思維
以前一旦完成了收集數(shù)據(jù)的目的之后舱馅,數(shù)據(jù)就會(huì)被認(rèn)為已經(jīng)沒有用處了缰泡。如今數(shù)據(jù)已經(jīng)成為了一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入习柠,可以創(chuàng)造新的經(jīng)濟(jì)利益匀谣。
感悟:根據(jù)過去的大數(shù)據(jù),預(yù)測未來资溃,指導(dǎo)我們未來的行為武翎。
4、大數(shù)據(jù)溶锭,開啟重大的時(shí)代轉(zhuǎn)型
大數(shù)據(jù)的科學(xué)價(jià)值和社會(huì)價(jià)值正是體現(xiàn)在這里宝恶。一方面,對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的來源趴捅。另一方面拱绑,大數(shù)據(jù)已經(jīng)撼致力了世界的方方面面,從商業(yè)科技到醫(yī)療膀藐、政府额各、教育虾啦、經(jīng)濟(jì)傲醉、人文以及社會(huì)的其他各個(gè)領(lǐng)域需频。
感悟:大數(shù)據(jù)昭殉,開啟重大的時(shí)代轉(zhuǎn)型挪丢。我們準(zhǔn)備好了嗎乾蓬?
5任内、預(yù)測死嗦,大數(shù)據(jù)的核心
大數(shù)據(jù)的核心就是預(yù)測越除。它被視為一種機(jī)器學(xué)習(xí)摘盆。大數(shù)據(jù)是把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性孩擂。大數(shù)據(jù)已經(jīng)成為新發(fā)明和新服務(wù)的源泉类垦,而更多的改變正蓄勢待發(fā)护锤。
感悟:大數(shù)據(jù)挖掘算法是大數(shù)據(jù)研究的一大難題烙懦。但是不是大數(shù)據(jù)研究的核心呢氯析?不是....
6雪情、大數(shù)據(jù)巡通,大挑戰(zhàn)
三大轉(zhuǎn)變:第一宴凉、大數(shù)據(jù)時(shí)代弥锄,我們可以分析更多的數(shù)據(jù)籽暇,有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù)戒悠,而不再依賴隨機(jī)采樣救崔。第二六孵、研究數(shù)據(jù)如此之多劫窒,以至于我們不再熱衷于追求精確度主巍。第三孕索、我們不再熱衷于尋找因果關(guān)系搞旭。
大數(shù)據(jù)時(shí)代開啟了一場尋寶游戲肄渗,而人們對于數(shù)據(jù)的看法以及對于由因果關(guān)系向相關(guān)關(guān)系轉(zhuǎn)化時(shí)釋放出的潛在價(jià)值的態(tài)度翎嫡,正是主宰這場游戲在關(guān)鍵具伍。
感悟:大數(shù)據(jù)不再過時(shí)沿猜。我們可以從不同的維度去提取有價(jià)值的東西碗脊。大數(shù)據(jù)挖掘算法不是大數(shù)據(jù)研究的核心衙伶,而是我們從他人想不到的維度去提取有價(jià)值的東西矢劲。所以大數(shù)據(jù)應(yīng)用比大數(shù)據(jù)挖掘算法更為重要芬沉。
第一部分 大數(shù)據(jù)時(shí)代的思維變革
01 更多......不是隨機(jī)樣本,而是全體數(shù)據(jù)
1剃袍、讓數(shù)據(jù)“發(fā)聲”:大數(shù)據(jù)與喬布斯的癌癥治療:蘋果公司的傳奇總裁喬布斯在與癌癥斗爭的過程中采用了不同的方式憔维,成為世界上第一個(gè)自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此检吆,他支付了高達(dá)幾十萬美元的費(fèi)用咧栗,這是23andme報(bào)價(jià)的幾百倍之多致板。所以斟或,他得到的不是一個(gè)只有一系列標(biāo)記的樣本萝挤,他得到了包括整個(gè)基因密碼的數(shù)據(jù)文檔。對于一個(gè)普通的癌癥患者凤粗,醫(yī)生只能期望她的DNA排列同試驗(yàn)中使用的樣本足夠相似嫌拣。但是喬布斯的醫(yī)生們能夠基于他的特定基因組成捶索,按所需效果用藥腥例。如果癌癥病變導(dǎo)致藥物失效燎竖,醫(yī)生可以及時(shí)更換另一種藥底瓣。喬布斯說:“我要么是第一個(gè)通過這種方式戰(zhàn)勝癌癥的人捐凭,要么就是最后一個(gè)因?yàn)檫@種方式死于癌癥的人”茁肠。雖然他的愿望都沒有實(shí)現(xiàn)匹颤,但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長了好幾年印蓖。
2赦肃、樣本=總體:我們總是習(xí)慣把統(tǒng)計(jì)抽樣看做文明得以建立的牢固基石他宛。但是統(tǒng)計(jì)抽樣其實(shí)只是為了在技術(shù)受限的特定時(shí)期厅各,解決當(dāng)時(shí)存在的一些特定問題而產(chǎn)生的队塘,其歷史不足一百年人灼。在某些特定的情況下,我們依然可以使用樣本分析法适贸,但這不再是我們分析數(shù)據(jù)的主要方式拜姿。慢慢地蕊肥,我們會(huì)完全拋棄樣本分析批狱。
感悟:現(xiàn)在每一個(gè)醫(yī)學(xué)專業(yè)的學(xué)生都會(huì)修一門課本(統(tǒng)計(jì)學(xué))赔硫,也許不久的將來爪膊,這門課會(huì)正式退出醫(yī)學(xué)課程推盛。
02 更雜......不是精確性小槐,而是混雜性
1凿跳、允許不精確:從“小數(shù)據(jù)”到“大數(shù)據(jù)”的一個(gè)重要轉(zhuǎn)變之一控嗜,就是我們允許不精確疆栏”诙ィ“大數(shù)據(jù)”通常用概率說話若专,而不是板著“確鑿無疑”的面孔。整個(gè)社會(huì)要習(xí)慣這種思維需要很長的時(shí)間自阱,其中也會(huì)出現(xiàn)一些問題沛豌。但現(xiàn)在叫确,有必要指出的是启妹,當(dāng)我們試圖擴(kuò)大數(shù)據(jù)規(guī)模的時(shí)候饶米,要學(xué)會(huì)擁抱混亂檬输。
2丧慈、大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效:翻譯軟件有微軟的班科逃默、IBM的Candige软吐、谷歌等三大翻譯系統(tǒng)凹耙。谷歌的翻譯之所以更好并不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制肖抱。和其中兩個(gè)翻譯軟件相比意述,這是因?yàn)楣雀璺g增加了很多各種各樣的數(shù)據(jù)欲险。而且還有一部分?jǐn)?shù)據(jù)來自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。
3然低、紛繁的數(shù)據(jù)越多越好:如今我們已經(jīng)生活在信息時(shí)代带兜。我們掌握的數(shù)據(jù)庫越來越全面刚照,它不再只包括我們手頭現(xiàn)象的一點(diǎn)點(diǎn)可憐的數(shù)據(jù)无畔,而是包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)浑彰。我們不再需要那么擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)整套分析的不利影響郭变。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益诉濒,而不是高昂的代價(jià)消除所有的不確定性未荒∏衙ǎ混雜性划纽,不是竭力避免勇劣,而是標(biāo)準(zhǔn)途徑。
感悟:擁抱大數(shù)據(jù)時(shí)代盆犁,最重要的還是我們心智模式的改變醋奠。要格式化自己過去曾經(jīng)擁有的.....
4、新的數(shù)據(jù)庫設(shè)計(jì)的誕生
大的數(shù)據(jù)庫并不是固定在某個(gè)地方的沛善,它一般分散在多個(gè)硬盤和多臺(tái)電腦上金刁。為了確保其運(yùn)行的穩(wěn)定性和速度尤蛮,一個(gè)記錄可能會(huì)分開存儲(chǔ)在兩三個(gè)地方抵屿。如果一個(gè)地方的記錄更新了,其他地方的記錄則只有同步更新才不會(huì)產(chǎn)生錯(cuò)誤艇搀。傳統(tǒng)的系統(tǒng)會(huì)一直等到所有地方的記錄都更新衷笋,然而當(dāng)數(shù)據(jù)廣泛地分布在多臺(tái)服務(wù)器上而且服務(wù)器每秒種都會(huì)接受成千上萬搜索指令的時(shí)候辟宗,同步更新就比較不現(xiàn)實(shí)了泊脐。因此容客,多樣性是一種解決的方法缩挑。
Hadoop:最能代表這個(gè)轉(zhuǎn)變的供置,就是Hadoop的流行士袄。它非常善于處理超大量的數(shù)據(jù)谎僻。通過把大數(shù)據(jù)變成小模塊然后分配給其他機(jī)器進(jìn)行分析艘绍,它實(shí)現(xiàn)了對超大量數(shù)據(jù)的處理诱鞠。它預(yù)設(shè)硬件可能會(huì)癱瘓蕉朵,所以在建立了數(shù)據(jù)的副本阳掐,它還假定數(shù)據(jù)量之大導(dǎo)致數(shù)據(jù)在處理之前不可能整齊排列缭保。它假定了數(shù)據(jù)量的巨大使得數(shù)據(jù)完全無法移動(dòng)艺骂,所以人們必須在本地進(jìn)行數(shù)據(jù)分析钳恕。Hadoop的輸出結(jié)果沒有關(guān)系型數(shù)據(jù)庫輸出結(jié)果那么精確厘肮,它不能用于衛(wèi)星發(fā)射宙址、開具銀行賬戶明細(xì)這種精確度要求很高的任務(wù)大咱。但是對于不要求極端精確的任務(wù)碴巾,它就比其他系統(tǒng)運(yùn)行得快很多厦瓢,比如說把顧客分群煮仇,然后分別進(jìn)行不同的營銷活動(dòng)浙垫。
感悟:Hadoop是學(xué)習(xí)大數(shù)據(jù)平臺(tái)的第一門語言夹姥,我要準(zhǔn)備好哦......
03 更好......不是因果關(guān)系辙售,而是相關(guān)關(guān)系
1旦部、亞馬遜推薦系統(tǒng):根據(jù)客戶個(gè)人以前的購物喜好夭问,為其推薦具體的書籍曹铃。據(jù)說亞馬遜銷售額的三分之一都是來自于它的個(gè)性推薦系統(tǒng)陕见。亞馬遜的推薦系統(tǒng)梳理出了有趣的相關(guān)關(guān)系评甜,但不知道背后的原因忍坷。
感悟:在大數(shù)據(jù)時(shí)代下佩研,我們只需要知道是什么就夠了晰骑,沒必須知道為什么硕舆。
2、相關(guān)關(guān)系:相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系扬跋。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加刊咳。相反相關(guān)關(guān)系弱就意味著當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值幾乎不會(huì)發(fā)生變化□伟樱現(xiàn)在柴钻,在機(jī)器贴届、發(fā)動(dòng)機(jī)和橋梁等基礎(chǔ)設(shè)施上放置傳感器變得越來越平常了毫蚓,這些傳感器被用來記錄散發(fā)的熱量、振幅翩概、承壓和發(fā)生的聲音等返咱。一個(gè)東西要出故障上沐,不會(huì)是瞬間的参咙,而是慢慢地出問題的。
比如:超市把尿片和啤酒放在一起择同;蛋撻和颶風(fēng)用品放在一起敲才;預(yù)測一個(gè)婦女懷孕。這是我們通過兩個(gè)數(shù)據(jù)的相關(guān)關(guān)系分析出來的阻星。因?yàn)檫@兩者的相關(guān)關(guān)系強(qiáng)。讓我們應(yīng)用大數(shù)據(jù)去尋找更多的相關(guān)關(guān)系.....
3畦幢、大數(shù)據(jù)時(shí)代將要釋放出的巨大價(jià)值使得我們選擇大數(shù)據(jù)的理念和方法不再是一種權(quán)衡缆蝉,而是通往未來的必然改變宇葱。
感悟:在大數(shù)據(jù)時(shí)代下,我能做什么返奉?
04 數(shù)據(jù)化 ? 一切皆可“量化”
1贝搁、數(shù)據(jù),從最不可能的地方提取出來
日本汽車防盜系統(tǒng):當(dāng)一個(gè)人坐著的時(shí)候芽偏,他的身型雷逆、姿勢和重量分布都可以量化和數(shù)據(jù)化。在汽車的座椅下部安裝總共360個(gè)壓力傳感器以測量人對椅子施加壓力的方式污尉。把人體屁股特征轉(zhuǎn)化成了數(shù)據(jù)某宪,并且用從0到256這個(gè)數(shù)值范圍對其進(jìn)行量化衣迷,這樣就會(huì)產(chǎn)生獨(dú)屬于每個(gè)乘坐者的精確數(shù)據(jù)資料。在這個(gè)實(shí)驗(yàn)中陨界,這個(gè)系統(tǒng)能根據(jù)人體對座位的壓力差異識別乘坐者的身份,準(zhǔn)確率高達(dá)98%动猬。有了這個(gè)系統(tǒng)之后免钻,汽車就能識別出駕駛者是不是車主拆魏;如果不是略号,系統(tǒng)就會(huì)要求輸入密碼随闪;如果司機(jī)無法準(zhǔn)確輸入密碼,汽車就會(huì)自動(dòng)熄火。同時(shí),這個(gè)系統(tǒng)不但可以發(fā)現(xiàn)車輛被盜,而且可以通過收集到的數(shù)據(jù)識別出盜賊的身份。
感悟:這個(gè)例子很有意思柒巫。識臉摊趾、指紋系統(tǒng)等都是對抽象的圖象進(jìn)行了數(shù)據(jù)化肛炮。
2秕重、當(dāng)文字變成數(shù)據(jù)
當(dāng)文字變成數(shù)據(jù)百新,它就大顯神通了形庭。人可以用之閱讀验靡,機(jī)器也可用之分析。亞馬遜深諳數(shù)據(jù)化內(nèi)容的意義媚狰,而谷歌觸及了數(shù)據(jù)化內(nèi)容的價(jià)值。
對地理位置的數(shù)據(jù)化需要滿足一些前提條件笔咽。我們需要能精確地測量地球上的每一塊地方枣氧;我們需要一套標(biāo)準(zhǔn)的標(biāo)記體系覆糟;我們需要收集和記錄數(shù)據(jù)的工具挟裂。簡而言之埃篓,就是地理范圍委刘、標(biāo)準(zhǔn)施符、工具或者說量化、標(biāo)準(zhǔn)化肩刃、收集。只有具備了這些焊夸,我們才能把位置信息當(dāng)成數(shù)據(jù)來存儲(chǔ)和分析。
“現(xiàn)實(shí)挖掘”是通過處理大量來自手機(jī)的數(shù)據(jù)倦淀,發(fā)現(xiàn)和預(yù)測人類行為。在一項(xiàng)研究中松邪,他們通過分析每個(gè)人去了哪里羞酗,見了誰,成功地區(qū)分了感染了流感的人群怜奖,而且在感染者還完全不知道自己已經(jīng)患病之前就做了區(qū)分募强。如果出現(xiàn)非常嚴(yán)重的流感疫情汹粤,這可以挽救無數(shù)人的生命,因?yàn)槲覀冎缿?yīng)該隔離誰,而且隨時(shí)都知道去哪里找到他牲阁。
感悟:我們的隱私去哪兒了?
3食侮、當(dāng)溝通變成數(shù)據(jù)
數(shù)據(jù)化不僅將態(tài)度和情緒轉(zhuǎn)變?yōu)橐环N可分析的形式畏妖,也可能轉(zhuǎn)化了人類的行為统阿。facebook將社交關(guān)系變成數(shù)據(jù);Twitter通過創(chuàng)新源譬,讓人們被輕易記錄以及分離他們零散的想法养渴,從而使情緒數(shù)據(jù)化得到實(shí)現(xiàn)/
4、世間萬物的數(shù)據(jù)化。
通過一個(gè)人的體重、站姿和走路方式確認(rèn)他的身份尔苦。ZEO公司則早已制作出了世界上最大的睡眠活動(dòng)數(shù)據(jù)庫,提示了男性和女性睡眠時(shí)快速眼動(dòng)量的差異。Asthmaplis公司將一個(gè)感應(yīng)器綁定到哮喘病人佩戴的呼吸器上庆寺,通過GPS定位,再匯總收集起來的位置數(shù)據(jù)诉字,可以判斷環(huán)境因素對哮喘的影響懦尝。蘋果公司通過音頻耳塞收集關(guān)于血液氧合、心率和體溫的數(shù)據(jù)壤圃。獲取數(shù)據(jù)正變得比以往任何時(shí)候都簡單而不受限制陵霉。
一旦世界被數(shù)據(jù)化,就只有你想不到伍绳,而沒有信息做不到的事情了踊挠。今天,擁有了數(shù)據(jù)分析的工具(統(tǒng)計(jì)學(xué)和算法)以及必需的設(shè)備(信息處理器和存儲(chǔ)器)冲杀,我們就可以在更多領(lǐng)域效床、更快、更大規(guī)模地進(jìn)行數(shù)據(jù)處理了权谁。在大數(shù)據(jù)時(shí)代剩檀,驚喜無處不在。
將世界看作信息旺芽,看作可以理解的數(shù)據(jù)的海洋沪猴,為我們提供了一個(gè)從未有過的審視現(xiàn)實(shí)的視角辐啄。它是一種可以滲透到所有生活領(lǐng)域的世界觀。
05 ?價(jià)值 “取之不盡运嗜,用之不竭”的數(shù)據(jù)創(chuàng)新
1壶辜、數(shù)據(jù)就像一個(gè)神奇的鉆石礦,當(dāng)它的首要價(jià)值被發(fā)掘后仍能不斷給予担租。它的真實(shí)價(jià)值就像漂浮在海洋中的冰山砸民,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下奋救。
在數(shù)字化時(shí)代阱洪,數(shù)據(jù)支持交易的作用被掩蓋,數(shù)據(jù)只是被交易的對象菠镇。交易完成,數(shù)據(jù)也就完成他的使命承璃。而在大數(shù)據(jù)時(shí)代利耍,事情發(fā)生變化。數(shù)據(jù)的價(jià)值從它最基本的用途轉(zhuǎn)變?yōu)槲磥淼臐撛谟猛究狻_@一轉(zhuǎn)變意義重大隘梨,它影響了企業(yè)評估其擁有的數(shù)據(jù)及訪問者的方式,促使甚至是迫使公司改變他們的商業(yè)模式舷嗡,同時(shí)也改變了組織者看待和使用數(shù)據(jù)的方式轴猎。
2、數(shù)據(jù)的價(jià)值并不僅限于特定的用途进萄,它可以為了同一目的而被多次使用捻脖,也可以用于其他目的。要了解大數(shù)據(jù)時(shí)代究竟有多少信息對我們有價(jià)值中鼠,后面這一點(diǎn)尤其重要可婶。
3、數(shù)據(jù)的“潛在價(jià)值
IBM電動(dòng)汽車動(dòng)力與電力供應(yīng)系統(tǒng)優(yōu)化預(yù)測:IBM開發(fā)了一套復(fù)雜的預(yù)測模型援雇。輸入:基于大量的信息輸入矛渴,如汽車的電池電量、汽車的位置惫搏、一天中的時(shí)間以及附近充電站的可用插槽具温,它將這些數(shù)據(jù)與電網(wǎng)的電流水泵以及歷史功率使用模式相結(jié)合。通過分析來自多個(gè)數(shù)據(jù)源的巨大的實(shí)時(shí)數(shù)據(jù)流和歷史數(shù)據(jù)筐赔,能夠確定司機(jī)為汽車電池充電的最佳時(shí)間和地點(diǎn)铣猩,并提示充電站的最佳設(shè)置點(diǎn)。陽后川陆,系統(tǒng)需要考慮附近充電站的價(jià)格差異剂习,即使是天氣預(yù)報(bào)蛮位,也要考慮到。系統(tǒng)采用了為某個(gè)特定目的而生成的數(shù)據(jù)鳞绕,并將其重新用于另一個(gè)目的失仁,換言之,數(shù)據(jù)從其基本用途移動(dòng)到了二級用途们何。這使得它隨著時(shí)間的推移變更更有價(jià)值萄焦。
感嘆:數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角冤竹,而絕大部分都隱藏在表面之下拂封。
4、數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用鹦蠕。亞馬遜冒签,讓數(shù)據(jù)的價(jià)值再大一點(diǎn):未能理解數(shù)據(jù)再利用重要性的公司以慘痛的代價(jià)換來了經(jīng)驗(yàn)教訓(xùn)。例如钟病,亞馬遜早期與AOL達(dá)到了一項(xiàng)協(xié)議萧恕,為AOL電子商務(wù)網(wǎng)站提供了后臺(tái)技術(shù)服務(wù)。在大多數(shù)人眼里肠阱,這只是一個(gè)普通的外包協(xié)議票唆,而亞馬遜真正的用意在于掌握用戶的數(shù)據(jù):他們在看什么、買什么屹徘。這些數(shù)據(jù)可以幫助亞馬遜提高它的推薦引擎性能走趋。可憐的AOL從來沒有意識到這一點(diǎn)噪伊,只看到了銷售這個(gè)基本用途所帶來的利益簿煌;而聰明的亞馬遜去知道如何從二次利用中獲利。
5鉴吹、數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)啦吧。隨著大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)的總和比部分更有價(jià)值拙寡。當(dāng)我們將多個(gè)數(shù)據(jù)集的總和重組在一起時(shí)授滓,重組總和本身的價(jià)值也比單個(gè)總和更大。
6肆糕、數(shù)據(jù)創(chuàng)新3:可擴(kuò)展數(shù)據(jù)般堆。在收集數(shù)據(jù)時(shí)強(qiáng)調(diào)擴(kuò)展性方面,谷歌毫無疑問是做得最好的公司之一诚啃。街景不僅拍攝了房屋和道路的照片淮摔,還同時(shí)采集GPS數(shù)據(jù),檢查地圖的信息始赎,甚至還加入了無線網(wǎng)絡(luò)名稱和橙。這些數(shù)據(jù)之所以具有可擴(kuò)展性仔燕,是因?yàn)楣雀璨粌H將其用于基本用途,而且進(jìn)行了大量的二次使用魔招。
7晰搀、數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值。潛在價(jià)值的概念表明办斑,組織機(jī)構(gòu)應(yīng)收集盡可能多的使用數(shù)據(jù)并保存盡可能長的時(shí)間外恕。同時(shí)也應(yīng)當(dāng)與第三方分享數(shù)據(jù),前提是要保留所謂的"延展性"權(quán)利乡翅。這樣一來鳞疲,由數(shù)據(jù)再利用而產(chǎn)生的任何商業(yè)價(jià)值,原始數(shù)據(jù)擁有者都能從中分到一杯羹蠕蚜。數(shù)據(jù)收集者和擁有無法想像數(shù)據(jù)再利用的所有可能方式尚洽,這一點(diǎn)幾乎是不言自明的。
8靶累、數(shù)據(jù)創(chuàng)新5:數(shù)據(jù)廢氣翎朱。谷歌,從大的“噪音”數(shù)據(jù)中受益尺铣。谷歌敏銳地注意到,人們經(jīng)常搜索某個(gè)詞及其相關(guān)詞争舞,點(diǎn)擊進(jìn)入后卻未能找到想要的信息凛忿,于是又返回到搜索頁面繼續(xù)搜索。它知道人們點(diǎn)擊的是第1頁的第8個(gè)鏈接還是第8頁的第1個(gè)鏈接竞川,或者是干脆放棄了所有搜索點(diǎn)擊店溢。谷歌不是第一個(gè)洞察到這一點(diǎn)的公司,但它利用這一點(diǎn)并取得了非凡的成果委乌。這些信息是非常有價(jià)值的床牧。如果許多用戶都點(diǎn)擊搜索結(jié)果頁底部的鏈接,這表明這個(gè)結(jié)果更加具有相關(guān)性遭贸,谷歌的排名算法就會(huì)自動(dòng)地在隨后的搜索中將它提到頁面中比較靠前的位置戈咳。一位谷歌的員工說:“我們喜歡從大的“噪音”數(shù)據(jù)集中吸取教訓(xùn)”。
9壕吹、數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)著蛙。政府才是大規(guī)模信息的原始采集者,并且還在與私營企業(yè)競爭他們所控制的大量數(shù)據(jù)耳贬。政府與私營企業(yè)數(shù)據(jù)持有人之間的主要區(qū)別就是政府可以強(qiáng)迫人們?yōu)樗麄兲峁┬畔⑻けぃ槐丶右哉f服或支付報(bào)酬。"開放政府?dāng)?shù)據(jù)"成為當(dāng)前的一大難題咒劲。
10顷蟆、給數(shù)據(jù)估值:如何給數(shù)據(jù)估值诫隅?一個(gè)辦法介從數(shù)據(jù)持有人在價(jià)值提取上所采取的不同策略入手,最常見的一種可能性就是將數(shù)據(jù)授權(quán)給第三方帐偎。在大數(shù)據(jù)時(shí)代逐纬,數(shù)據(jù)持有人傾向于從被提取的數(shù)據(jù)價(jià)值中抽取一定比例作為報(bào)酬支付,而不是敲定一個(gè)固定的數(shù)額肮街。這有點(diǎn)類似于出版商從書籍风题、音樂或電影的獲利中抽取一定比例,作為支付給作者和表演者的特許權(quán)使用費(fèi)嫉父。這樣一來沛硅,各方都會(huì)努力使數(shù)據(jù)再利用的價(jià)值達(dá)到最大。
數(shù)據(jù)價(jià)值的關(guān)鍵是看似無限的再利用绕辖,即它的潛在價(jià)值摇肌。收集信息固然至關(guān)重要,但還遠(yuǎn)遠(yuǎn)不夠仪际。因?yàn)榇蟛糠值臄?shù)據(jù)價(jià)值在于它的利用围小,而不是占有本身。
06 角色定位 ? 數(shù)據(jù)树碱、技術(shù)與思維的三足鼎立
1肯适、微軟以1.1億美元的價(jià)格購買了大數(shù)據(jù)公司Farecast,而兩年后谷歌則以7億美元的價(jià)格購買了給Farecast提供數(shù)據(jù)的ITA Software公司成榜。如今框舔,我們正處在大數(shù)據(jù)時(shí)代的早期,思維和技術(shù)是最有價(jià)值的赎婚,但是最終大部分的價(jià)值還是必須從數(shù)據(jù)本身中挖掘刘绣。
2、數(shù)據(jù)科學(xué)家:是統(tǒng)計(jì)學(xué)家挣输、軟件程序員纬凤、圖形設(shè)計(jì)師與作家的結(jié)合體。與通過顯微鏡發(fā)現(xiàn)事物不同撩嚼,數(shù)據(jù)科學(xué)家通過探尋數(shù)據(jù)加來得到新的發(fā)現(xiàn)停士。全球知名咨詢管理公司麥肯錫,就曾極端地預(yù)測數(shù)據(jù)科學(xué)家是當(dāng)今和未來稀缺的資源完丽。
3向瓷、三種大數(shù)據(jù)公司:第一種是基于數(shù)據(jù)本身的公司;第二種是基于技能的公司舰涌;第三種是基于思維的公司猖任。
4、全新的數(shù)據(jù)中間商:三個(gè)角色誰是最核心的瓷耙?
技術(shù)朱躺?隨著大數(shù)據(jù)成為人們生活的一部分刁赖,而大數(shù)據(jù)工具變得更容易和更方便使用,越來越多的人會(huì)掌握這些技能长搀,所以這些技能的價(jià)值就會(huì)相對減少宇弛。所以,數(shù)據(jù)擁有者們也會(huì)真正意識到他們所擁有的財(cái)富源请。因此他們可能會(huì)把他們手中所擁有的數(shù)據(jù)抓得更緊枪芒,也會(huì)以更高的價(jià)格將其出售。
5谁尸、數(shù)據(jù)科學(xué)家的崛起
6舅踪、大數(shù)據(jù),企業(yè)的競爭力
蘋果良蛮,挖出“潛伏”的數(shù)據(jù)價(jià)值:在蘋果推出之前抽碌,移動(dòng)運(yùn)營商從用戶手中收集了大量具有潛在價(jià)值的數(shù)據(jù),但是沒能深入挖掘其價(jià)值决瞳。相反货徙,蘋果公司在與運(yùn)營商簽訂的合約中規(guī)定運(yùn)營商提供給它大部分的有用數(shù)據(jù)。通過來自多個(gè)運(yùn)營商提供的大量數(shù)據(jù)皮胡,蘋果公司所得到關(guān)于用戶體驗(yàn)的數(shù)據(jù)比任何一個(gè)運(yùn)營商都要多痴颊。蘋果公司的規(guī)模效益體現(xiàn)在了數(shù)據(jù)上,而不是固有資產(chǎn)上屡贺。
大數(shù)據(jù)讓處于行業(yè)兩端的公司受益良多蠢棱,而中等規(guī)模的公司要么向兩端轉(zhuǎn)換,要么破產(chǎn)烹笔。傳統(tǒng)行業(yè)最終都會(huì)轉(zhuǎn)變?yōu)榇髷?shù)據(jù)行業(yè),無論是金融服務(wù)業(yè)抛丽、醫(yī)藥行業(yè)還是制造業(yè)谤职。
隨著大數(shù)據(jù)越來越精確地預(yù)測世界的事情以及我們所處的位置,我們可能還沒有準(zhǔn)備好接受它對我們的隱私和決策過程帶來的影響亿鲜。我們的認(rèn)知和制度都還不習(xí)慣這樣一個(gè)數(shù)據(jù)充裕的時(shí)代允蜈。
感悟:在當(dāng)下,大數(shù)據(jù)思維公司比大數(shù)據(jù)技術(shù)公司更有前途蒿柳。
07 風(fēng)險(xiǎn)......讓數(shù)據(jù)主宰一切的隱憂
1饶套、我們時(shí)刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習(xí)慣;谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣垒探;而微博似乎什么都知道妓蛮,不僅竊聽到了我們心中的“TA”,還有我們的社交關(guān)系網(wǎng)圾叼。
2蛤克、預(yù)測與懲罰捺癞,不是因?yàn)椤八觥保且驗(yàn)椤皩⒆觥惫辜罚词顾麄兪聦?shí)上并沒有犯罪髓介。警方可以運(yùn)用大數(shù)據(jù)對犯罪趨勢進(jìn)行預(yù)測。
3筋现、數(shù)據(jù)獨(dú)裁:大數(shù)據(jù)大大地威脅了我們的隱私和自由唐础,這都是大數(shù)據(jù)帶來的新威脅。但是與此同時(shí)矾飞,它也加劇了一個(gè)舊威脅:過于依賴數(shù)據(jù)一膨,而數(shù)據(jù)遠(yuǎn)遠(yuǎn)沒有我們所想的那么可靠。只要得到了合理的利用凰慈,而不單純只是為了數(shù)據(jù)而數(shù)據(jù)汞幢,大數(shù)據(jù)就會(huì)變成強(qiáng)大的武器。
谷歌流感趨勢微谓,大數(shù)據(jù)讓我們知道了流程的地區(qū)森篷,并不是說隔離這個(gè)地區(qū)的所有人。這樣既無必要也太費(fèi)事豺型。所以仲智,我們有了需要隔離的人的數(shù)據(jù),聯(lián)邦特工只需要通過IP地址和移動(dòng)GPS提供的數(shù)據(jù)姻氨,找出該用開始戶并送入隔離中心即可钓辆。
感悟:凡事“中庸”一些,對大數(shù)據(jù)也不例外肴焊。
08 掌控......責(zé)任與自由并舉的信息管理
1前联、當(dāng)世界開始邁向大數(shù)據(jù)時(shí)代時(shí),社會(huì)也將經(jīng)歷類似的地殼運(yùn)動(dòng)娶眷。在改變?nèi)祟惢镜纳钆c思考方式的同時(shí)似嗤,大數(shù)據(jù)早已在推動(dòng)人類信息管理準(zhǔn)則的重新定位。然而届宠,不同于印刷革命烁落,我們沒有幾個(gè)世紀(jì)的時(shí)間去適應(yīng),我們也許只有幾年時(shí)間豌注。
2伤塌、管理變革1:個(gè)人隱私保護(hù),從個(gè)人許可證到讓數(shù)據(jù)使用者承擔(dān)責(zé)任轧铁。對大數(shù)據(jù)使用進(jìn)行正規(guī)評測及正確引導(dǎo)每聪,可以為數(shù)據(jù)使用者帶來切實(shí)的好處:很多情況下,我們無須再取得個(gè)人的明確同意,就可以對個(gè)人數(shù)據(jù)進(jìn)行二次利用熊痴。
為實(shí)現(xiàn)這一平衡他爸,監(jiān)管機(jī)制可以決定不同種類的個(gè)人數(shù)據(jù)必須刪除的時(shí)間。再利用的時(shí)間框架則取決于數(shù)據(jù)內(nèi)在風(fēng)險(xiǎn)和社會(huì)價(jià)值觀的不同果善。
3竖席、管理變革2:個(gè)人動(dòng)因VS預(yù)測分析:在大數(shù)據(jù)時(shí)代浴骂,關(guān)于公正的概念需要重新定義以維護(hù)個(gè)人動(dòng)因的想法:人們選擇自我行為的自由意志檬寂。簡單地說菠剩,就是個(gè)人可以并應(yīng)該為他們的行為而非傾向負(fù)責(zé)。
4鄙煤、管理變革3:擊碎黑盒子晾匠,大數(shù)據(jù)算法師的崛起。大數(shù)據(jù)的動(dòng)作是在一個(gè)超出我們正常理解的范圍之上的梯刚。在這些背景下凉馆,我們能看到的大數(shù)據(jù)預(yù)測,運(yùn)算法則亡资,和數(shù)據(jù)庫有變?yōu)楹诤凶拥娘L(fēng)險(xiǎn)澜共,這個(gè)黑盒子不透明、不可解釋锥腻、不可追蹤嗦董,因而我們對其信息全無。為了防止這些情況的出現(xiàn)瘦黑,大數(shù)據(jù)將需要被監(jiān)測和保持透明度京革。當(dāng)然還有使這兩項(xiàng)得以實(shí)現(xiàn)的新型專業(yè)技術(shù)和機(jī)構(gòu)。如外部算法師和內(nèi)部算法師幸斥。數(shù)據(jù)算法師對大數(shù)據(jù)進(jìn)行深度分析匹摇。如此,因?yàn)榇髷?shù)據(jù)而變得可預(yù)測的世界甲葬,才不會(huì)陷入一個(gè)用一種未知取代一個(gè)未知的困境中廊勃,不會(huì)變成一個(gè)黑匣子。
5演顾、管理變革4:反數(shù)據(jù)壟斷大亨供搀。
結(jié)語......正在發(fā)生的未來
1隅居、大數(shù)據(jù)并不是一個(gè)充斥著算法和機(jī)器的冰冷世界钠至,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案胎源,只是參考答案棉钧。幫助是暫時(shí)的,而更好的方法和答案還在不久的未來涕蚤。
2宪卿、我們“做新的诵、做多、做好佑钾、做快”的能力能釋放出無限價(jià)值西疤,產(chǎn)生新的贏家和輸家。大部分的信息價(jià)值來自二級用途休溶,即潛在價(jià)值代赁,而不是我們所習(xí)慣認(rèn)為的基本用途。結(jié)果對于大多數(shù)據(jù)來說兽掰,盡可能多地收集芭碍、等待信息增值并且讓其他更適合挖掘價(jià)值的人來分析它才是明智之舉
3、大數(shù)據(jù)并不是一個(gè)充斥著運(yùn)算法則和機(jī)器的冰冷世界孽尽,其中仍需要人類扮演重要角色窖壕。人類獨(dú)有的弱點(diǎn)、錯(cuò)覺杉女、錯(cuò)誤都是十分必要的瞻讽。因?yàn)檫@些特性的另一頭牽著的是人類的創(chuàng)造力、直覺和天賦宠纯。偶爾也會(huì)帶來屈辱和固執(zhí)的同樣混亂的大腦運(yùn)作卸夕,也能帶來成功,或在偶然間促成我們的偉大婆瓜。這才能推動(dòng)世界的進(jìn)步快集。
感悟:大數(shù)據(jù)的力量是那么耀眼,我們必須避免被它的光芒誘惑廉白,并善于發(fā)現(xiàn)它固有的瑕疵个初。