衛(wèi)生機構(gòu)使用傳統(tǒng)方法預(yù)測流感的傳播,很多時候存在滯后性夷陋。而作為一家互聯(lián)網(wǎng)公司欠拾,谷歌通過分析用戶在搜索引擎上的搜索記錄來預(yù)測流感傳播胰锌,其準確率比衛(wèi)生機構(gòu)還高,而且預(yù)測輸出時間比機構(gòu)提前了2周藐窄!這就是大數(shù)據(jù)給人類帶來的驚喜资昧。
現(xiàn)在我們經(jīng)常聽到別人在談?wù)摗按髷?shù)據(jù)”,但是當大家在侃侃而談的時候荆忍,究竟有多少人理解“什么是大數(shù)據(jù)”格带?
今天林貓咪結(jié)合《大數(shù)據(jù)時代》這本書的內(nèi)容,跟大家聊聊大數(shù)據(jù)那些事刹枉。
一叽唱、什么是大數(shù)據(jù)?
我的理解的大數(shù)據(jù)是一種狀態(tài)嘶卧。在這種狀態(tài)中尔觉,我們面對的數(shù)據(jù)是海量的。因為現(xiàn)代科技的發(fā)展芥吟,我們有了對海量數(shù)據(jù)存儲和處理的技術(shù)侦铜,而且這些技術(shù)還會不斷發(fā)展完善。更重要的是我們對各種數(shù)據(jù)的處理方法和態(tài)度都發(fā)生了轉(zhuǎn)變钟鸵,我們開始積極地發(fā)掘并利用各種數(shù)據(jù)钉稍。在這個時代,數(shù)據(jù)已經(jīng)成為一種非常重要的資源棺耍。
二贡未、大數(shù)據(jù)時代下的3個思維變革
1、不是隨機樣本蒙袍,而是全體數(shù)據(jù)
以前我們開展研究時俊卤,習(xí)慣采取抽樣調(diào)查的方式。因為之前人類對于數(shù)據(jù)的收集害幅、儲存和處理的能力有限消恍。那時采取隨機抽樣是讓我們最大限度了解真實情況的可行方案。
但是隨著科技的發(fā)展以现,我們已經(jīng)有了解所有樣本的能力狠怨。這時對全部的樣本進行研究,將讓我們輸出接近100%的真相邑遏。
例如:古代人如果要了解全國人均壽命佣赖,可行的方法是:隨機調(diào)查全國幾個城市的部分人員壽命,以此推出全國大概的人均壽命记盒。但是現(xiàn)在我們每一個人從出生到死亡的信息都會被記錄憎蛤。這樣我們就可以從全體數(shù)據(jù)的角度來看問題了。
理解這一點纪吮,并不是要求我們每個研究都選擇全體數(shù)據(jù)俩檬,這只是為我們的研究拓寬一條渠道而已栏豺。畢竟目前我們還需要考慮處理海量數(shù)據(jù)的經(jīng)濟成本。
2豆胸、不是精確性,而是混雜性
大數(shù)據(jù)時代我們要學(xué)會擁抱混雜性巷疼。傳統(tǒng)的語言翻譯系統(tǒng)晚胡,會輸入大量復(fù)雜的算法邏輯,結(jié)合大量例句嚼沿、單詞估盘、短語、和語法習(xí)慣骡尽,來進行翻譯活動遣妥。但這樣的結(jié)果是:翻譯范圍有限、翻譯對象僅限于2種語言之間攀细。
而谷歌拋棄了精確算法這條路子箫踩,選擇大量收集和處理全球能找到的所有翻譯,掌握用不同語言翻譯的谭贪、質(zhì)量參差不齊的數(shù)十億頁文檔境钟,用此來搭配組合出質(zhì)量最好的結(jié)果。這種混雜性下俭识,谷歌的翻譯系統(tǒng)就像一個成長中的孩子慨削,不斷學(xué)習(xí)和積累。即使它會吸收部分錯誤的信息套媚,但這并不會影響它整體的成才缚态。
所以說,大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效堤瘤。
3玫芦、不是因果關(guān)系,而是相關(guān)關(guān)系
經(jīng)濟學(xué)中有一個“啤酒尿布”現(xiàn)象——將尿布和啤酒放在一起宙橱,這兩樣產(chǎn)品的銷量會同時增加姨俩。
對此經(jīng)濟學(xué)家嘗試給出了各種解釋,希望從中找出因果關(guān)系师郑。例如:家庭主婦采購尿布時环葵,看到啤酒就會順便為丈夫準備一點。
而在這本書中宝冕,作者強調(diào):知道“是什么”就夠了张遭,沒必要知道“為什么”。即關(guān)注相關(guān)關(guān)系即可地梨。
現(xiàn)在我們已經(jīng)有了收集和存儲海量數(shù)據(jù)的設(shè)備菊卷,我們也有了進行數(shù)據(jù)挖掘的工具缔恳,那么就只管去尋找數(shù)據(jù)之間的相關(guān)關(guān)系就可以了,至于他們?yōu)槭裁磿羞@個相關(guān)關(guān)系我們可以不管洁闰,只要懂得應(yīng)用就好歉甚。
以上便是《大數(shù)據(jù)時代》的部分內(nèi)容分享,接下來是這本書的整體介紹:
【今日好書】:《大數(shù)據(jù)時代》扑眉,豆瓣評分7.5分纸泄。
【作者】:維克托.邁爾-舍恩伯格(Viktor Mayer-Sch·nberger),被譽為“大數(shù)據(jù)商業(yè)應(yīng)用一人”腰素,擁有在哈佛大學(xué)聘裁、牛津大學(xué)、耶魯大學(xué)和新加坡國立大學(xué)等多個互聯(lián)網(wǎng)研究重鎮(zhèn)任教的經(jīng)歷弓千。
【內(nèi)容簡介】:《大數(shù)據(jù)時代》一書中展示了谷歌衡便、微軟、IBM洋访、蘋果镣陕、facebook、twitter捌显、VISA等大數(shù)據(jù)先鋒們具價值的應(yīng)用案例茁彭,向我們闡述了什么是大數(shù)據(jù)。同時為我們揭示了大數(shù)據(jù)時代下的3種思維變革扶歪、3種商業(yè)變革和2種管理變革理肺。
【簡評】:本書的邏輯結(jié)構(gòu)清晰,可讀性很強善镰,閱讀起來也很流暢妹萨。內(nèi)容方面,通過大量的案例炫欺,讓我們輕松了解哪些表面看來很晦澀的概念乎完。對于想了解大數(shù)據(jù)以及大數(shù)據(jù)在商業(yè)時代如何應(yīng)用的朋友來說,這是一本很不錯的書籍品洛。
如果你已經(jīng)閱讀過此書或者正在閱讀树姨,歡迎在評論去分享你對這本書的看法。