12.26讀書筆記《大數(shù)據(jù)時代》

?更好:不是因果關系,而是相關關系

林登與亞馬遜推薦系統(tǒng)

知道“是什么”可以創(chuàng)造點擊率霍转,這種洞察力足以塑造很多行業(yè)荐绝,不僅僅只是電子商務。亞馬遜的推薦系統(tǒng)梳理出了有趣的相關關系避消,但不知道背后的原因低滩。知道是什么就夠了,沒必要知道為什么岩喷。

關聯(lián)物恕沫,預測的關鍵

在大數(shù)據(jù)背景下,通過應用相關關系纱意,我們可以比以前更容易婶溯、更快捷、更清楚地分析事物偷霉。相關關系的核心是量化兩個數(shù)據(jù)值之間的數(shù)理關系迄委。相關關系強是指當一個數(shù)據(jù)值增加時,另一個數(shù)據(jù)值很有可能也會隨之增加类少。相反叙身,相關關系弱就意味著當一個數(shù)據(jù)值增加時,另一個數(shù)據(jù)值幾乎不會發(fā)生變化硫狞。

相關關系通過識別有用的關聯(lián)物來幫助我們分析一個現(xiàn)象信轿,而不是通過揭示其內(nèi)部的運作機制晃痴。相關關系沒有絕對,只有可能性虏两。通過給我們找到一個現(xiàn)象的良好的關聯(lián)物愧旦,相關關系可以幫助我們捕捉現(xiàn)在和預測未來。相關關系時無法預知未來的定罢,它們只能預測可能發(fā)生的事情笤虫。

當數(shù)據(jù)點以數(shù)量級方式增長的時候,我們會觀察到許多似是而非的相關關系祖凫。專家們還會使用一些建立在理論基礎上的假想來指導自己選擇適當?shù)年P聯(lián)物琼蚯。

在大數(shù)據(jù)時代,我們現(xiàn)在擁有如此多的數(shù)據(jù)惠况,這么好的機器計算能力遭庶,因而不再需要人工選擇一個關聯(lián)物或者一小部分相似的數(shù)據(jù)來逐一分析了。大數(shù)據(jù)的相關關系分析法更準確稠屠、更快峦睡,而且不易受偏見的影響。建立在相關關系分析法基礎上的預測是大數(shù)據(jù)的核心权埠。

在社會環(huán)境下尋找關聯(lián)物只是大數(shù)據(jù)分析法采取的一種方式榨了,同樣有用的一種方法是,通過找出新種類數(shù)據(jù)之間的相互聯(lián)系來解決日常需要攘蔽。通過找出一個關聯(lián)物并監(jiān)控它龙屉,我們就能預測未來。

“是什么”满俗,而不是“為什么”

在小數(shù)據(jù)時代转捕,由于計算機能力的不足,大部分相關關系分析僅限于尋求線性關系唆垃。在大數(shù)據(jù)時代五芝,經(jīng)過復雜的分析,我們能夠發(fā)現(xiàn)數(shù)據(jù)的“非線性關系”降盹。

在大數(shù)據(jù)時代与柑,通過去探求“是什么”而不是“為什么”,相關關系幫助我們更好地了解了這個世界蓄坏。

當我們說人類是通過因果關系了解世界時价捧,我們指的是我們在理解和解釋世界各種現(xiàn)象時使用的兩種基本方法:一種是通過快速、虛幻的因果關系涡戳,還有一種就是通過緩慢结蟋、有條不紊的因果關系。大數(shù)據(jù)會改變這兩種基本方法在我們認識世界時所扮演的角色渔彰。

首先嵌屎,我們的直接愿望就是了解因果關系推正。即使無因果關系存在,我們也還會假定其存在宝惰。普林斯頓大學心理學專家植榕,同時也是2002年諾貝爾經(jīng)濟學獎得主丹尼爾·卡尼曼用例子證明了人有兩種思維模式:第一種是不費力的快速思維,通過這種思維方式幾秒鐘就能得出結(jié)果尼夺;另一種是比較費力的慢性思維尊残,對于特定的問題,就是需要思考到位淤堵。

快速思維模式使人們偏向用因果關系來看待周圍的一切寝衫,即使這種關系并不存在。大數(shù)據(jù)之間的相關關系拐邪,將經(jīng)常會用來證明直覺的因果聯(lián)系使錯誤的慰毅。慢性思維,也將因為大數(shù)據(jù)之間的相關關系迎來大的改變扎阶。

相關關系分析本身意義重大汹胃,同時它也為研究因果關系奠定了基礎。相關關系很有用东臀,不僅僅使因為它能為我們提供新的視角统台,而且提供的視角都很清晰。而且我們一旦把因果關系考慮進來啡邑,這些視角就有可能被蒙蔽掉。

在越來越多的情況下井赌,快速清晰的相關關系分析甚至比慢速的因果分析更有用和更有效谤逼。在大多數(shù)情況下,一旦我們完成了對大數(shù)據(jù)的相關關系分析仇穗,而又不再滿足于僅僅知道“是什么”時流部,我們就會繼續(xù)向更深層次研究因果關系,找出背后的“為什么”纹坐。

改變枝冀,從操作方式開始

數(shù)據(jù)正在以新的方式幫助我們解決現(xiàn)實生活中的難題。我們需要改變我們的操作方式耘子,使用我們能收集到的所有數(shù)據(jù)果漾,而不僅僅是使用樣本。我們不能再把精確性當成重心谷誓,我們需要接受混亂和錯誤的存在绒障。另外,我們應該側(cè)重于分析相關關系捍歪,而不再尋求每個預測背后的原因户辱。

大數(shù)據(jù)鸵钝,改變?nèi)祟愄剿魇澜绲姆椒?/b>

“理論的終結(jié)”似乎暗示著,盡管理論扔存在于像物理庐镐、化學這樣的學科里恩商,但大數(shù)據(jù)分析不需要成形的概念。這實在荒謬必逆。大數(shù)據(jù)是在理論的基礎上形成的怠堪。

(68-94)

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市末患,隨后出現(xiàn)的幾起案子研叫,更是在濱河造成了極大的恐慌,老刑警劉巖璧针,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嚷炉,死亡現(xiàn)場離奇詭異,居然都是意外死亡探橱,警方通過查閱死者的電腦和手機申屹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來隧膏,“玉大人哗讥,你說我怎么就攤上這事“恚” “怎么了杆煞?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長腐泻。 經(jīng)常有香客問我决乎,道長,這世上最難降的妖魔是什么派桩? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任构诚,我火速辦了婚禮,結(jié)果婚禮上铆惑,老公的妹妹穿的比我還像新娘范嘱。我一直安慰自己,他們只是感情好员魏,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布丑蛤。 她就那樣靜靜地躺著,像睡著了一般逆趋。 火紅的嫁衣襯著肌膚如雪盏阶。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天闻书,我揣著相機與錄音名斟,去河邊找鬼脑慧。 笑死,一個胖子當著我的面吹牛砰盐,可吹牛的內(nèi)容都是我干的闷袒。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼岩梳,長吁一口氣:“原來是場噩夢啊……” “哼囊骤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起冀值,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤也物,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后列疗,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滑蚯,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年抵栈,在試婚紗的時候發(fā)現(xiàn)自己被綠了告材。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡古劲,死狀恐怖斥赋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情产艾,我是刑警寧澤疤剑,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站闷堡,受9級特大地震影響骚露,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜缚窿,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望焰扳。 院中可真熱鬧倦零,春花似錦、人聲如沸吨悍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽育瓜。三九已至葫隙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間躏仇,已是汗流浹背恋脚。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工腺办, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人糟描。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓怀喉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親船响。 傳聞我的和親對象是個殘疾皇子躬拢,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容