劉麗是個很謹慎的人视卢,這天來了位上門推銷的大姐踱卵,大講產(chǎn)品功效,劉麗正要下逐客令据过,大姐忽然講到劉麗家附近的某某用了產(chǎn)品惋砂。
雖然劉麗并不認識某某,但聽大姐把地址姓名都說得清清楚楚绳锅,就聽了下去西饵,大姐接著說了一串數(shù)字,有多少人用了產(chǎn)品鳞芙,有效率達到多少等等眷柔。
劉麗心動了,掏出腰包買下了這個產(chǎn)品原朝。
俗話說“事實勝于雄辯”驯嘱,而帶上數(shù)字的事實則更容易讓人相信,這大概就是數(shù)字的魔力喳坠。
在如今這個大數(shù)據(jù)時代鞠评,數(shù)字變得更神奇。
我們?yōu)g覽某個購物網(wǎng)站或者網(wǎng)頁后壕鹉,再次點開時剃幌,就看到了“猜你喜歡”之類的提示聋涨,你看看這些推薦的內(nèi)容,感覺簡直比你自己還要懂你负乡,這就是運用大數(shù)據(jù)的結(jié)果牍白。
我們在手機上查路況,查找旅游景點和附近餐館敬鬓,甚至看醫(yī)生等等淹朋,都要用到大數(shù)據(jù),大數(shù)據(jù)已經(jīng)滲入我們生活的各個方面钉答。
最神奇的是運用大數(shù)據(jù)進行預測础芍。微軟紐約研究院的經(jīng)濟學家大衛(wèi)?羅斯柴爾德利用大數(shù)據(jù)“猜”到了2013年第85屆奧斯卡的19個獎項,“猜”中了2014年
獎項24個中的21個数尿。
2012年他還正確預測了美國51個行政區(qū)中50個總統(tǒng)大選結(jié)果仑性。對此,許多人感嘆:大數(shù)據(jù)時代右蹦,驚喜已死诊杆!
但這還是給了我們更多欣喜,尤其對于需要洞察力和精準決策的企業(yè)經(jīng)營何陆、投資晨汹、政府管理等,這實在是為我們描繪了一幅非常美好的藍圖贷盲。
但是淘这,事實并非想象中的這么完美。
劉麗買下產(chǎn)品使用后才發(fā)現(xiàn)根本沒什么用巩剖,價格更是高得離譜铝穷,感覺自己是受騙上當了,后悔不已佳魔。
這本名為《簡單統(tǒng)計學》的書里則向我們講述了許多根據(jù)數(shù)據(jù)得出的怪異結(jié)論:墮胎可以減少犯罪曙聂,凌亂的房間會加劇人們的種族主義傾向,吃肉會使人變得更加自私……
或者似是而非的結(jié)論:生活在輸電線附近的兒童具有更大的患癌風險鞠鲜,每天飲用兩杯咖啡宁脊,會增大患上胰腺癌的風險……
那么,這些錯誤是怎么產(chǎn)生的镊尺,我們又該如何識別和遠離這些一本正經(jīng)的錯誤朦佩?
別急,《簡單統(tǒng)計學——如何輕松識破一本正經(jīng)的胡說八道》這本書講的就是這個庐氮。
作者加里.史密斯是耶魯大學博士语稠,曾在耶魯大學任教7年,他的課程因結(jié)合日常生活實例,深入淺出分析數(shù)據(jù)而廣受歡迎仙畦,火爆異常输涕。
本書就是他在耶魯大學的統(tǒng)計學公開課。
一本正經(jīng)的胡說八道是怎么產(chǎn)生的慨畸?
1
導致錯誤的產(chǎn)生有外在的因素莱坎。
嚴格的實驗是只改變一個因素,其他保持不變寸士,但現(xiàn)實生活往往不可能做到這樣檐什,而是會有許多混雜因素。
如準確預測了2010年8場世界杯比賽的章魚保羅弱卡,并非它智商有多高乃正,實際只是它更喜歡那三個獲勝球隊國家的國旗而已。
而瑞典女性死亡率高于哥斯達黎加婶博,因為瑞典的老年女性較多瓮具,胰腺癌病人飲用咖啡比其他人多是因為其他許多病人存在潰瘍戒除了咖啡。
作者認為凡人,超級暢銷書《從優(yōu)秀到卓越》對成功公司的研究限于對過去的回溯性研究名党,沒有考慮到幸存者偏差問題,因而書中列出的共同特點并不能很好地預測這些公司將來的表現(xiàn)挠轴。
2
但更根本的原因卻是模式的誘惑传睹,即人們內(nèi)心深處對模式的渴望與尋求。
雖然在遠古時代這種特性和技能可能幫助了人類生存和繁衍岸晦,但它并不能很好地適應現(xiàn)代社會蒋歌,因為我們現(xiàn)成面對的數(shù)據(jù)龐大而復雜,并不容易解釋委煤。
然而這種意愿仍頑強地存在于人內(nèi)心。人們急于在數(shù)據(jù)中尋找模式修档,也容易被這種模式所吸引碧绞,然后只關(guān)注支持模式的數(shù)據(jù),忽視不支持的數(shù)據(jù)吱窝。
前些天網(wǎng)上有人議論1993年出生的女生讥邻,都嫁給了娛樂圈或者商圈的大咖,比如奶茶妹妹院峡,昆凌兴使,吳千語,最近的孫怡照激。
我覺得這就是一個尋找模式的典型发魄,在數(shù)據(jù)中尋找共同點,然后進行選擇性報告。
大咖這么多励幼,這幾個例子能說明什么汰寓?其他不是93年出生的大咖妻子呢?有人居然對此進行所謂的命理分析苹粟,更是可笑有滑!
在模式的誘惑下,研究人員開始熱切地追逐統(tǒng)計顯著性嵌削。如今在大數(shù)據(jù)和計算機的幫助下毛好,尋找這種統(tǒng)計顯著性變得很容易。
尋找方法主要有兩種:
一種是選擇性報告苛秕。他們對多種理論進行檢驗肌访,然后只公布其中有統(tǒng)計顯著性的結(jié)果。
要知道想帅,即使對毫無價值的理論進行檢驗场靴,也會有二十分之一的檢驗表現(xiàn)出統(tǒng)計顯著性。
諾貝爾獎獲得者費曼曾請學生計算他走出教室看到的第一輛車子擁有某個特定牌照的概率港准,聰明的學生很快算出概率為1.76億分之一旨剥,但費曼說正確的概率是1,因為他剛才出來就看到了這個牌照浅缸。
這讓我想起多年前看過的一篇文章轨帜,說的也正是這點:小概率事件一旦發(fā)生,它就不再是小概率事件衩椒。
另一種方法就是數(shù)據(jù)搜刮蚌父,他們進行數(shù)百次的檢驗,總會發(fā)現(xiàn)某種有統(tǒng)計顯著性的模式毛萌。
作者指出苟弛,隨機數(shù)據(jù)也會出現(xiàn)令人震驚的數(shù)據(jù)甚至數(shù)據(jù)聚焦現(xiàn)象。
“1000個拋硬幣的人之中阁将,一定會有一些人連續(xù)拋出10次正面”膏秫。
而且運用這種推論,即使只有一次正面做盅,你也可以得出一種理論:你拋出的硬幣一定正面朝上缤削,因為你看到了數(shù)據(jù)與理論相符,顯然這謬誤之極!
作者認為吹榴,因為死于癌癥的孩子生活在輸電線附近亭敢,就認為輸電線的磁場一定是導致癌癥的元兇,其推導方式和上面硬幣理論如出一轍图筹。
就像德克薩斯冒牌神槍手隨機開槍帅刀,再在打中最多區(qū)域繪制靶心,用某種數(shù)據(jù)編造理論,很容易就能發(fā)現(xiàn)這種理論與數(shù)據(jù)相符劝篷。
3
在模式的誘惑下哨鸭,研究人員包括著名的科學家也會有意無意地犯下錯誤。
有些錯誤是無意的娇妓。
如《魔鬼經(jīng)濟學》作者芝加哥經(jīng)濟學家萊維特與人合寫的論文中得出"墮胎減少犯罪"的可笑結(jié)論像鸡,經(jīng)檢驗,他在其中犯了多個錯誤哈恰,他本人也承認了只估。
因為基數(shù)太小,一個被錯誤統(tǒng)計的謀殺案着绷,導致以藝術(shù)家和寧靜著稱的馬薩諸塞州韋爾弗里特小鎮(zhèn)蛔钙,居然成了謀殺率是波士頓兩倍多的謀殺之都。
有些錯誤則是故意的荠医,為了得到自己想要的結(jié)論吁脱。
如英國醫(yī)生安德魯.韋克菲爾德制造的疫苗恐慌,稱兒童接種麻疹彬向、腮腺炎和風疹疫苗后患上自閉癥兼贡,后發(fā)現(xiàn)他的研究背后有利益訴求,同時樣本很小娃胆,且數(shù)據(jù)造假遍希。
房間凌亂加劇種族傾向和吃肉讓人更自私的結(jié)論都出自芬蘭社會心理學家迪德里克.斯塔佩爾,他后來承認對許多數(shù)據(jù)進行了篡改里烦,有的則完全是編造的凿蒜。
4
這本《簡單統(tǒng)計學》在對大量“數(shù)據(jù)謊言”進行分析的過程中,對一些基本的統(tǒng)計學原理進行了深入淺出的闡述胁黑,有兩個問題特別有趣废封。
一是假陽性問題。
作者告訴我們丧蘸,即使針對疾病的檢測準確率很高虱饿,比如高達80%甚至90%以上,得到陽性檢測結(jié)果的許多人仍可能不是患者触趴。
作者舉了個腫瘤檢測的例子,如下圖所示渴肉,檢測為陽性的患者患癌的概率只有7.5%冗懦。
這讓我想起以前有位同事,在縣醫(yī)院檢測為腫瘤仇祭,后去上海卻診斷為只是睡眠不好而已披蕉。當時都只是感嘆縣醫(yī)院醫(yī)療醫(yī)術(shù)水平太低,看來原因不只在此啊。
書中說經(jīng)過調(diào)查表明没讲,很多醫(yī)生對此也有錯誤認識眯娱。
除了沒注意有時大數(shù)中的小比例大于小數(shù)中的大比例外,很多醫(yī)生誤以為病人得到陽性檢查情況下患癌概率與癌癥患者得到陽性檢查的概率大致相等爬凑,這是混淆了兩種條件性陳述徙缴。
一個是均值回歸現(xiàn)象。
某人上次考試分數(shù)很高或者說表現(xiàn)很出色嘁信,這次就差了多于样,有可能并非是他沒努力,而是一種正常的”均值回歸“現(xiàn)象.
分數(shù)最高或者表現(xiàn)最出色的人與分數(shù)最低或表現(xiàn)最差的人之間的實際差距潘靖,也許并沒有我們看到和想像得那么大穿剖。
當然,書中也指出卦溢,許多重要的科學理論確實也是人們?yōu)榱私忉屗麄兯l(fā)現(xiàn)的模式而提出來的糊余,如孟德爾遺傳定律的發(fā)現(xiàn),但數(shù)據(jù)挖掘還是導致了數(shù)千種胡謅理論
那么单寂,我們該如何識破其中的真假贬芥?
如何識破一本正經(jīng)的胡說八道
本書共有19章,各章都有許多生動的案例和深入淺出的分析凄贩,并在每章末尾附有針對各章內(nèi)容的如何輕松識破“騙局”的防以騙指南誓军。
在此基礎上,作者提出了兩種最根本的方法疲扎,用來幫助我們識別正確理論與胡謅之間區(qū)別的方法:
一是用常識和直覺檢驗昵时。
某種聽起來可笑的理論,在看到壓倒性證據(jù)之前椒丧,不要輕信壹甥,即使看到了也要保持懷疑態(tài)度,不同尋常的說法必須要有不同尋常的證據(jù)才行壶熏。
比如對于所謂的特異功能句柠,書中對其中騙局進行了深入的地揭露。
二是要用沒被數(shù)據(jù)污染的新數(shù)據(jù)來對新理論進行檢驗棒假。
一句話就是
”沒有理論的數(shù)據(jù)僅僅是數(shù)據(jù)而已“溯职,
也就是說在數(shù)據(jù)中找出的模式應該得到一個合理的理論的解釋,并需要得到新數(shù)據(jù)的檢驗帽哑。
同時谜酒,《簡單統(tǒng)計學》這本書還指出了
”沒有數(shù)據(jù)的理論僅僅是理論而已“,
也就是說一個理論必須經(jīng)過可靠數(shù)據(jù)的檢驗妻枕,在這之前也只能是一種猜測僻族。
書中指出馬爾薩斯粘驰、福雷斯特等的世界末日式的人口預測被證明是錯誤的,他們的推論中有一些合理述么,但缺乏足夠的數(shù)據(jù)檢驗蝌数。
史密斯在《簡單統(tǒng)計學》這本書中顛覆了我們對模式的迷戀,對數(shù)字的迷信度秘,但他同時強調(diào)了常識顶伞。
他指出現(xiàn)在有些專家完全無視常識,過分追求模式敷钾,追求統(tǒng)計顯著性枝哄,從所謂的數(shù)據(jù)中得出許多違背常識的可笑的模式“理論”。
他說
“在這個年代阻荒,常識是一種稀缺品挠锥,許多誠實的研究人員用嚴肅的語氣提出了一些愚蠢的理論∏壬模”蓖租。
常識正是識破這些一本正經(jīng)胡說八道的有力武器。從這點來說,對于那些顛覆常識的所謂新奇思想觀點,這本《簡單統(tǒng)計學——如何輕松識破一本正經(jīng)的胡說八道》是一種反顛覆篙悯。