統(tǒng)計學防騙手冊——《統(tǒng)計數(shù)據(jù)會說謊》
一本簡單易上手的統(tǒng)計學防上當受騙手冊捡需。作者的本意并不是指責負責數(shù)據(jù)的統(tǒng)計學家坑傅,而是出于對人性的了解呜呐,知道原本中立的數(shù)據(jù)在推銷員战得、公共關(guān)系專家疾层、記者和廣告文案撰寫者的手里,難免會被歪曲夸大或過分簡化贡避,最終的分析結(jié)果與數(shù)據(jù)反映的實際情況相差萬里痛黎。這本書會指導(dǎo)你成為生活里的偵探,一招搓破那些虛張聲勢的謊言刮吧。
一湖饱、樣本偏差
例子:
1936年《文學摘要》(Literary Digest)對當年總統(tǒng)大選預(yù)測失敗的事例。曾經(jīng)精確預(yù)測出1932年大選結(jié)果的一千萬電話用戶和《文學摘要》的訂閱者們令編輯相信蘭登(Landon)將獲得370票杀捻,羅斯福(Roosevelt)只有161票井厌。如此龐大的調(diào)查群體怎么會有偏差呢?然而偏差確實存在致讥。一些大學論文和其他事后調(diào)查發(fā)現(xiàn):在1936年有錢用電話和訂雜志的人并不具有代表性仅仆。從經(jīng)濟角度來看,他們是一類特殊人群垢袱。該樣本之所以帶有偏差是因為事實最后證明墓拜,該樣本對象都是共和黨選民。
應(yīng)用:
調(diào)查的樣本是否足夠大请契,是否隨機分布咳榜,是否存在各種潛在的偏差夏醉,調(diào)查對象是否如實回答了調(diào)查問題。如此嚴格要求的抽樣調(diào)查是很難做到的涌韩。
二畔柔、精挑細選的平均數(shù)
例子:
某房產(chǎn)銷售在賣房時對你說,該小區(qū)住戶的平均年收入是500萬臣樱;當你買房入住后靶擦,又看到他在游說街道辦給該小區(qū)低收入補貼,宣稱小區(qū)戶主的平均年收入只有5萬雇毫。
這兩個數(shù)據(jù)可能都是有真實數(shù)據(jù)支撐的玄捕。平均年收入500萬可能只是因為有一個富豪在該小區(qū)投資了一套房,而其他都是窮人也說不定嘴拢。
應(yīng)用:
關(guān)鍵問題是區(qū)分人們說到“平均”的時候到底指什么桩盲。一般說來有三種:加和平均(或算術(shù)平均)寂纪、中位數(shù)席吴、最多數(shù)。這三者經(jīng)常代表樣本的不同維度捞蛋,在標準正態(tài)分布的時候孝冒,三者趨同,但是小樣本拟杉、非正態(tài)分布時庄涡,是不能互相替代的。
當別人說到“平均”時搬设,最好問清楚是哪種平均穴店,并且,樣本多大拿穴,里面都包含什么泣洞。
三、關(guān)鍵數(shù)據(jù)不全
例子:
某廣告聲稱:使用某牙膏后用戶的蛀牙減少了23%默色!
真的有那么明顯的差別嗎球凰?再看該廣告的小字部分,調(diào)查組只有12個人腿宰。并且呕诉,你不知道廠家做了多少組實驗,才獲得了“蛀牙減少23%”這個顯著的成果吃度。
應(yīng)用:
這種詭計常見的手段是甩挫,給出平均值但不給方差;畫出趨勢線但沒有標明數(shù)據(jù)值(scale)椿每;給出百分比卻沒說樣本大小捶闸。都是通過隱瞞部分數(shù)據(jù)以操作數(shù)據(jù)達到操縱結(jié)論的目的夜畴。
四、誤差——無事瞎忙
例子:
你家兩個小孩同去參加智力測試删壮,結(jié)果兒子智商98贪绘,女兒101。你被告知智力測驗的正常水平為100央碟。這時你是否該擔心税灌,兒子是弱智?
應(yīng)用:
凡是這類測驗亿虽,因人而異菱涤,不應(yīng)該只有一條區(qū)分正常與不正常的線,而是應(yīng)該設(shè)“正常范圍”與“異常范圍”洛勉。比如體檢抽血時粘秆,都是給出正常區(qū)間,只有在正常區(qū)間以外才需要關(guān)注收毫。
五攻走、圖表截取
這部分不上圖很難說明了〈嗽伲基本的原理就是根據(jù)數(shù)據(jù)畫出折線圖后昔搂,截取掉一部分y軸,這樣可以增加折線的斜率输拇,放大曲線的變化趨勢摘符,小幅攀升可以變成陡然增長,造成驚人的效果策吠。
這個對于科研人員算是一項必修課逛裤,本著嚴謹?shù)膽B(tài)度,盡量不要截坐標軸猴抹,如果是兩幅圖進行前后效果比較带族,要采用相同的坐標軸比例。
六洽糟、一維圖形表示數(shù)量
數(shù)據(jù)是一維的炉菲,但是紙上的圖形是二維甚至三維的。當你用圖形來表示數(shù)據(jù)的比例時坤溃,很可能會放大數(shù)據(jù)差異拍霜。比如數(shù)據(jù)增長了一倍,你用三角形表示數(shù)據(jù)大小薪介,把三角形的邊長增長了一倍來代表數(shù)據(jù)增長祠饺,這樣三角形的面積就增長了四倍,若是有空間感汁政,則體積增長了八倍道偷,造成的視覺沖擊與實際情況不符缀旁,會過分夸大事實。
七勺鸦、看似相關(guān)
例子:
1898年“美西戰(zhàn)爭”期間并巍,美國海軍的死亡率是9‰,而同期紐約市市民的死亡率為16‰换途。后來懊渡,海軍征兵部門的人就拿這個數(shù)據(jù)來說明待在部隊更安全。假設(shè)這些數(shù)據(jù)都是精確的军拟,因為它們可能很準確剃执。但稍等一下,看看你能否發(fā)現(xiàn)其中的伎倆懈息,或者說征兵人員根據(jù)它們得出的結(jié)論是否毫無意義肾档。
例子:
我們經(jīng)常可以在雜志和廣告上見到陳述中濫用的前后對照圖表的統(tǒng)計形式辫继。有兩張照片照的是同一間客廳怒见,這是為了證明刷上一層油漆后的顯著不同。但是在兩次照相期間骇两,廣告商會加入新的家具速种,更何況“之前”的照片只是一張光線很差的黑白小照姜盈,而“之后”的照片則是一張色澤鮮明的彩色大照低千。還有個例子:有兩張照片能向你展示一個姑娘使用護發(fā)素前后的明顯不同。天傲笏獭示血!她使用了護發(fā)素后,看起來是多么漂亮熬壤难审!但你若仔細檢驗,會發(fā)現(xiàn)她之所以變美多半是由于她的嫣然一笑以及打在她頭發(fā)上的背光亿絮。因此告喊,這應(yīng)歸功于攝影師而非護發(fā)素。
應(yīng)用:
這一部分需要較為嚴謹?shù)倪壿嫳鎰e:結(jié)論到底是由對方給出的數(shù)據(jù)推理得到派昧,還是對方把一堆相關(guān)事物堆砌而成黔姜。
八、因果顛倒/歸因謬誤
歸因謬誤在人的邏輯系統(tǒng)里很常見蒂萎。比較極端的一個例子是秆吵,因為每天雞叫之后才天亮,因此相信“雞叫”是導(dǎo)致“天亮”的原因五慈。
這種歸因謬誤很常見:人類天性就是喜歡歸因纳寂,守因果律的制約主穗,若遇到因果律難以解釋的事情就會難受。但是人類社會是復(fù)雜系統(tǒng)毙芜,很多事情是相互影響的(如蝴蝶效應(yīng))忽媒,因果律難以給出確定的解釋。在還為充分研究腋粥、實驗就憑感覺得出的歸因猾浦,一般都是片面乃至錯誤的。
本書里用的一個例子是灯抛,在一個原始人部族金赦,普遍相信“虱子使人健康”。原來是因為一般健康的人身上都有虱子对嚼,生病的人身上卻沒有虱子夹抗。其實是因為這個原始部族的人身上都有虱子,但人生病的時候體溫升高纵竖,不適合虱子生存漠烧,虱子暫時離開了。當人快要恢復(fù)健康的時候靡砌,體溫下降已脓,虱子又重新寄生在這個人身上,并不是“虱子帶來了健康”通殃。
書中建議度液,“為了避免陷入這種因果謬誤,從而相信許多似是而非的東西画舌,你需要嚴格檢驗各種與相關(guān)性有關(guān)的說明堕担。”
相關(guān)性往往是通過一些令人信服的精確數(shù)據(jù)來證明兩件事情之間的因果關(guān)系曲聂。但事實上霹购,這種相關(guān)性卻有多種類型。相關(guān)并非因果朋腋。你可以說兩者相關(guān)齐疙,但是在作出因果推定時,一定要慎重旭咽。
如何識別統(tǒng)計騙局
作者在文末建議讀者贞奋,在遇到統(tǒng)計結(jié)論時問以下幾個問題:
- 他怎么知道?
- 漏掉了什么轻专?
- 有人偷換概念嗎忆矛?
- 這是否合乎情理?
不要輕易被數(shù)據(jù)嚇倒,而是要慎重的接受別人拿數(shù)據(jù)堆砌出來的結(jié)論催训。