玩轉大數(shù)據(jù),重要的是思維的變革

不知從何時開始莱衩,大數(shù)據(jù)這個詞從初次問世的新奇高逼格爵嗅,變成了現(xiàn)在的爛大街。好像凡是家互聯(lián)網(wǎng)公司笨蚁,就敢言必稱“大數(shù)據(jù)”睹晒。

那么,我們聽了這么久的大數(shù)據(jù)括细,到底什么是大數(shù)據(jù)伪很?既然有大數(shù)據(jù),那么是否就有小數(shù)據(jù)奋单?一個新的概念的提出锉试,必然是對原本概念的一個挑戰(zhàn),那么大數(shù)據(jù)和小數(shù)據(jù)相比又有什么區(qū)別呢辱匿?

我想這兩者的本質區(qū)別并非只是數(shù)據(jù)量大小的差異键痛,更是我們我們思維層面的變革炫彩。

今天,筆者就借舍恩伯格的《大數(shù)據(jù)時代》來和大家聊聊對于大數(shù)據(jù)的一些理解絮短。舍恩伯格在書中提出來3個關于大數(shù)據(jù)時代思維變革的觀點江兢。

一、 更多:不是隨機樣本丁频,而是全體數(shù)據(jù)

我們從中學時候杉允,就開始接觸“抽樣”的概念。而抽樣其實就是小數(shù)據(jù)時代通用的一種方法席里∈辶祝基于當初的數(shù)據(jù)收集和處理的困難,我們無法做到對所有的研究對象進行數(shù)據(jù)分析奖磁,因此就選擇抽樣的方法改基,隨機抽取部分樣本,希望通過對隨機樣本的研究來說明整體的情況咖为。這種方法最重要的就是在樣本的選擇上秕狰,如果選擇樣本的時候不符合“隨機”性,那么其最終的研究結果便很有可能和事實相差甚遠躁染。

而隨著互聯(lián)網(wǎng)時代的到來鸣哀,技術的飛速發(fā)展,我們記錄收集信息的成本越來越低吞彤。從事互聯(lián)網(wǎng)這一行的基本都知道我衬,只要我們在產(chǎn)品內(nèi)進行埋點,便能知道所有我們想知道的用戶在產(chǎn)品上的行為饰恕,而具備強大的數(shù)據(jù)分析能力的計算機挠羔,更是使對所有數(shù)據(jù)進行分析成為了可能。解決了數(shù)據(jù)收集和分析的難題懂盐,使“樣本=全體”得以實現(xiàn)褥赊,而這也是大數(shù)據(jù)時代第一個特點,我們再進行相關研究的時候無需進行抽樣莉恼,對全量的研究是我們的結果更加全面拌喉。

二、更雜:不是精確性俐银,而是混雜性

在以往的小數(shù)據(jù)時代尿背,因為樣本容量的有限性,為了保證最終結果的可信性捶惜,分析人員務必需要保證所選擇樣本數(shù)據(jù)的準確度田藐。因為基于小樣本的數(shù)據(jù)分析,如果其中不幸參雜了一個錯誤的數(shù)據(jù),那很有可能導致最終的結果完全偏離現(xiàn)實汽久。

而到了大數(shù)據(jù)時代鹤竭,我們所收集到的數(shù)據(jù)越來越多,而其中必然會慘雜著為數(shù)不少的錯誤數(shù)據(jù)景醇。但是在如此龐雜的數(shù)據(jù)庫中臀稚。只有5%的數(shù)據(jù)是結構化且能用于傳統(tǒng)數(shù)據(jù)庫的,這也就意味著三痰,如果我們還是如以往一般執(zhí)迷于精確性吧寺,那么剩下95%的的非結構化數(shù)據(jù)都無法被利用,這將是一個多大的損失散劫,我們坐擁寶山而不自知稚机,白白讓這么豐富的數(shù)據(jù)浪費。而如果要使用這些數(shù)據(jù)获搏,我們就必須接受不精確性赖条,接受數(shù)據(jù)的混雜,這樣才能打開一扇從未涉足的世界的窗戶常熙。

當然谋币,我們不再追求精確性,并不是意味著我們放棄準確症概。恰恰相反,接受數(shù)據(jù)的混雜早芭,正是為了能夠通過對更多數(shù)據(jù)的使用彼城,來獲取更有說服力、更加準確的結果退个。雖說混雜的數(shù)據(jù)中會參雜錯誤數(shù)據(jù)募壕,但在龐大的全樣本下,個別錯誤的數(shù)據(jù)對最終結果的影響也將被無限地縮小语盈。

三舱馅、更好:不是因果關系,而是相關關系

今日頭條根據(jù)用戶以往的閱讀數(shù)據(jù)來判定其感興趣的內(nèi)容刀荒,并進行針對性的推薦代嗤,但從不去糾結用戶為什么喜歡這些內(nèi)容;支付寶年度賬單會根據(jù)各個省市的消費情況制作相關的排行榜缠借,但也并不深究是什么導致了各個省市消費情況的差異......

諸如此類干毅,絕大部分的互聯(lián)網(wǎng)公司都是通過數(shù)據(jù)的分析,向我們傳遞著“是什么”的信息泼返,而非“為什么”硝逢。而這也正是大數(shù)據(jù)時代所帶來的第三個思維的變革:我們更多的開始關注相關關系,而不是因果關系。我們不必非得知道現(xiàn)象背后的原因是什么渠鸽,我們更多的是讓數(shù)據(jù)自己“發(fā)聲"叫乌。

當然,這并不意味著因果關系已經(jīng)沒有作用徽缚。在大多數(shù)情況下憨奸。一旦我們完成了對大數(shù)據(jù)的相關關系分析,往往不會僅僅滿足于知道"是什么”猎拨,我們會繼續(xù)像更深層次進行探索膀藐,去研究因果關系,找出背后的“為什么”红省。

我們只是不會再把因果關系作為意義來源的基礎额各。在大數(shù)據(jù)時代,即使很多情況下吧恃,我們依然指望用因果關系來說明我們所發(fā)現(xiàn)的相互聯(lián)系虾啦,但是,因果關系實際上只是一種特殊的相關關系痕寓。相反傲醉,大數(shù)據(jù)推動了相關關系分析,相關關系往往能取代因果關系起作用呻率,即使不可取代的情況下硬毕,它也能指導因果關系起作用。

大數(shù)據(jù)時代的來臨礼仗,是我們測量吐咳、記錄、分析世界的一個契機元践,他能幫助我們更好的認識社會韭脊,認識我們所生存的這個世界。而如果我們有意去抓住這個機遇单旁,就務必需要從思維上去改變沪羔,去適應大數(shù)據(jù)時代的生存法則。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末象浑,一起剝皮案震驚了整個濱河市蔫饰,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌融柬,老刑警劉巖死嗦,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異粒氧,居然都是意外死亡越除,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來摘盆,“玉大人翼雀,你說我怎么就攤上這事『⒗蓿” “怎么了狼渊?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長类垦。 經(jīng)常有香客問我狈邑,道長,這世上最難降的妖魔是什么蚤认? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任米苹,我火速辦了婚禮,結果婚禮上砰琢,老公的妹妹穿的比我還像新娘蘸嘶。我一直安慰自己,他們只是感情好陪汽,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布训唱。 她就那樣靜靜地躺著,像睡著了一般挚冤。 火紅的嫁衣襯著肌膚如雪况增。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天训挡,我揣著相機與錄音巡通,去河邊找鬼。 笑死舍哄,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的誊锭。 我是一名探鬼主播表悬,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼丧靡!你這毒婦竟也來了蟆沫?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤温治,失蹤者是張志新(化名)和其女友劉穎饭庞,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體熬荆,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡舟山,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片累盗。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡寒矿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出若债,到底是詐尸還是另有隱情符相,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布蠢琳,位于F島的核電站啊终,受9級特大地震影響,放射性物質發(fā)生泄漏傲须。R本人自食惡果不足惜蓝牲,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望躏碳。 院中可真熱鬧搞旭,春花似錦、人聲如沸菇绵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咬最。三九已至翎嫡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間永乌,已是汗流浹背惑申。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留翅雏,地道東北人圈驼。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像望几,于是被迫代替她去往敵國和親绩脆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容