啟發(fā):我們需要從數(shù)據(jù)挖掘出背后的真實原因腾啥,單純的數(shù)據(jù)呈現(xiàn)缺虐,就有可能出現(xiàn)得到有偏差的結(jié)論穿香,甚至導(dǎo)致制定錯誤的計劃溃列。
培根曾經(jīng)說過:“如果一個人以種種肯定的立論開始渐苏,他必將終止于各種懷疑拆檬;但如果他愿意抱著懷疑的態(tài)度開始约素,那么他必將獲得肯定的結(jié)論∈亢”我想對數(shù)據(jù)資料的判斷和接收也是如此送悔。
第一章 ?內(nèi)在有偏的樣本
耶魯大學(xué)畢業(yè)生收入:參與調(diào)查的人本身就不能代表全部畢業(yè)生爪模。它也僅僅代表了 1924 級耶魯學(xué)生中可以聯(lián)系到的屋灌,并愿意站出來說出所賺數(shù)目的這個特殊群體声滥。
記住下面這點是有益的:無形的誤差與有形的誤差一樣容易破壞樣本的可信度侦香。也就是說 , 即使你找不到任何破壞性的誤差來源憾赁,但 只要有產(chǎn)生誤差的可能性龙考,你就有必要對結(jié)果保留一定的懷疑矾睦。
隨機樣本的檢驗標(biāo)準(zhǔn)是:總體中的每個名字或事物是否具有相同的幾率被選進(jìn)樣本?
第二章 ?精心挑選的平均數(shù)
眾數(shù)、平均數(shù)缓溅、中位數(shù)
第三章 ?沒有披露的數(shù)據(jù)
牙膏坛怪,小樣本股囊,多次實驗選擇較好的那組
因為他向他們灌輸某些觀念,特別是將許多普遍存在卻未經(jīng)認(rèn)可的性行為稱為正常居灯。實際上穆壕,金西博士只是指出他發(fā)現(xiàn)這種行為很普遍其屏,而這便是正常所指,他并沒有為這些行為貼上許可的標(biāo)記川背,這些行為是否道德也并不屬于他的研究范圍。
農(nóng)村接上電膨更。用詞模糊缴允,并不是用上電。
平均氣溫
第四章 ?毫無意義的工作
記住誤差的加減號(比如比較兩人的智商)
只有當(dāng)差別有意義時才能稱之為差別
第五章 ?驚人的統(tǒng)計圖形
繪圖的手段會給人錯覺矗漾,比如柱狀圖敞贡、陷入截去下面部分
第六章 ?平面圖形
按照長寬比例摄职,面積會是平方關(guān)系,讓人感覺的立體物體是立方關(guān)系蛔垢。
第七章 ?不相匹配的資料
如果你想證明某事啦桌,卻發(fā)現(xiàn)沒有能力辦到及皂,那么試著解釋其他事情并假裝它們是一回事。在統(tǒng)計資料與人類思維沖撞所引起的耀眼光芒中又跛,幾乎沒有人會發(fā)現(xiàn)它們的區(qū)別慨蓝。不相匹配的數(shù)據(jù)是保證你處在有利位置上的武器,而且通常如此弧满。
感冒藥殺菌此熬,存在疑點:進(jìn)入人類就失效,服用前已經(jīng)被稀釋募谎,殺的是什么菌。
數(shù)據(jù)到底能得出怎樣的結(jié)論节槐。
交通事故發(fā)生的背景拐纱、時間段戳玫、天氣,坐飛機币绩、火車發(fā)生的事故府阀。死亡的總?cè)藬?shù)沒有太大意義试浙,要看占總使用人口的比例。
但實際上田巴,公報中的利潤僅是實際利潤的一半或三分之一壹哺,沒有報道的利潤隱藏在貶值、特殊貶值名目下以應(yīng)付將來的緊急情況管宵。
如果我每天早上以 99 美分購進(jìn)一件商品箩朴,并在中午以 1美元賣出,那我只獲得 1%的收益钱床,但是全年我卻獲得了投資額的 365%燕雁。
這是一個有趣的事實鲸拥,在考慮某種疾病的發(fā)病情況時刑赶,使用死亡率或者死亡人數(shù)比發(fā)病人數(shù)更合理__這是因為死亡報道和死亡記錄的質(zhì)量更高懂衩。在此例中,明顯不相匹配的數(shù)據(jù)比表面上完全匹配的數(shù)據(jù)還要好牵敷。
第八章 ?相關(guān)關(guān)系與因果關(guān)系
但這是一個古老的謬誤枷餐,然而它仍頻繁地出現(xiàn)在統(tǒng)計資料中苫亦,并被大量讓人印象深刻的數(shù)據(jù)所偽裝。這個謬誤是:如果 B 緊跟著 A 出現(xiàn)润匙,那么 A 一定導(dǎo)致 B唉匾。在上例中巍膘,當(dāng)抽煙與低分同時出現(xiàn)時,人們得到了一個未經(jīng)證實的假設(shè)峡懈,抽煙導(dǎo)致低分逮诲。難道就不能是相反的解釋嗎?也許低分促使學(xué)生不喝酒而變得愛抽煙梅鹦。這種說法與前一種一樣能得到證據(jù)很好的支撐冗锁。只是它不能夠滿足宣傳人員的要求。
問題的關(guān)鍵在于箍邮,當(dāng)有許多合理的解釋時,你幾乎沒有權(quán)利選擇對口味的解釋并堅持認(rèn)為它是正確的堪澎。但事實是許多人會這么做味滞。
第九章 ?如何進(jìn)行統(tǒng)計操縱
實際上.如果出版一本書的每項成本開支都上升 10%左右,總成本也只爬升了相同的比例昨凡,即 1O%便脊。
另一個困惑出現(xiàn)在百分比與百分點之間哪痰。如果某年的投資回報率為 3%田度,而第二年為 6%,你可以很謙虛地描述:增了 3 個百分點乎莉。同樣奸笤,這樣的描述也是允許的:增長高達(dá) 100%。要了解人們怎樣混淆這兩種說法边灭,請觀察民意選舉的投票者绒瘦。
第十章 ?對統(tǒng)計資料提出的五個問題
首先要尋找的是偏差
然后扣癣,再仔細(xì)尋找無意識偏差
“權(quán)威人士”掩蓋了真實的資料來源。與醫(yī)藥界沾邊的任何東西都可以是“權(quán)威人士”父虑;科學(xué)的實驗室也是“權(quán)威人士”;大專院校悔叽,尤其是大學(xué)以及那些在技術(shù)方面名列前茅的學(xué)校更具有權(quán)威性爵嗅。前幾章中那個試圖證明高等教育將危及女孩成婚幾率的作者操骡,充分地利用了康奈爾大學(xué)這個“權(quán)威機構(gòu)”。但請大家注意岔激,雖然數(shù)據(jù)來自康奈爾大學(xué)是掰,結(jié)論卻完全是作者自己的键痛⌒醵蹋康奈爾大學(xué)的聲望卻讓你留下了一個錯誤的印象,“康奈爾大學(xué)得出結(jié)論??”
注意樣本的有偏.是由于選擇不當(dāng)杉允,還是像這個例子一樣叔磷,由刻意挑選有利的樣本造成的奖磁。問一個我們前幾章曾經(jīng)提過的問題:樣本是否足夠大到能夠保證結(jié)論值得信賴?
有時僅給出百分?jǐn)?shù)卻缺少原始數(shù)據(jù)也能造成欺騙秕狰。
有時文章中遺漏了引起變化的原因封恰,這容易讓讀者認(rèn)為其他的因素才應(yīng)對變化負(fù)責(zé)。某年公布的數(shù)據(jù)試圖用今年 4 月的零售額高于去年來證明經(jīng)濟(jì)處于復(fù)蘇階段备畦。而遺漏的內(nèi)容是去年的復(fù)活節(jié)在 3 月而今年在 4 月低飒。
而且褥赊,如果你關(guān)心死亡總?cè)藬?shù)更甚于死亡率的話拌喉,不要忽略這個事實:現(xiàn)在的人數(shù)已遠(yuǎn)遠(yuǎn)超過了從前尿背。
如果數(shù)據(jù)是建立在人們口頭的回答(即使有一些聽上去十分客觀)基礎(chǔ)之上捶惜,將發(fā)生許多怪事。比如說汽久,普查報告顯示 35 歲的人數(shù)遠(yuǎn)遠(yuǎn)多于 34 或者 36 歲的人數(shù)景醇。這個數(shù)據(jù)來源于家庭某個成員填報的其他成員的歲數(shù)吝岭。對于不確定的年齡,人們往往傾向于取 5 的倍數(shù)酒觅。獲得該數(shù)據(jù)的準(zhǔn)確辦法是:詢問他的出生年月舷丹。
如果你以每月等額分期付款的形式從銀行以 6%的利率借了 1OO 美元颜凯,應(yīng)支付的利息是3 美元症概。但如果是另一種 6%早芭,有時也稱為借 100 美元還 6 美元彼城,你就需要償還前者的 2 倍即 6 美元。大多數(shù)汽車貸款采用后一種方法,實在是狡猾募壕。關(guān)鍵在于分期還款時调炬,100 美元你并沒有用到一年,6 個月過去后舱馅。你已經(jīng)償還了一半的貸款缰泡。如果采用第二種形式計算利息,即借款額的 6%代嗤,你實際承擔(dān)的利率應(yīng)該是 12%棘钞。
幾年前一家大型電器設(shè)備公司以出生率不斷下降為基礎(chǔ)(多年以來,大家都是這么認(rèn)為的)高效地制定出了戰(zhàn)后的生產(chǎn)計劃干毅,并將小容量家電設(shè)備宜猜、公寓式的冰箱確定為生產(chǎn)重點。其中一個計劃者突然發(fā)現(xiàn)了計劃與常識的沖突,他用足夠長的圖表列舉了這樣的事實:他本人垫毙、他的合作伙伴、他的朋友以及他的鄰居甚至以前的同學(xué)都有了孩子,甚至還打算要 3~4 個孩子额各。這樣規(guī)模的家庭不應(yīng)算作小規(guī)模的。這導(dǎo)致了一些開放式的調(diào)查與制圖,不久這家公司快速地將它的生產(chǎn)重點轉(zhuǎn)移到大家庭使用的電器上硬毕。——因為雖然出生率下降了蹂风,但是更多的家庭變成了多子女家庭任内,出生率和每個家庭的子女?dāng)?shù)量沒有因果關(guān)系