《統(tǒng)計數(shù)字會撒謊》讀書札記

偶然從圖書館搜得一本書袍祖,作者[美]達萊爾`哈夫底瓣。

作為一本經(jīng)典的統(tǒng)計故事書,易讀性比較強蕉陋,各章都簡單明了的用例子給讀者說明一個統(tǒng)計相關的道理捐凭。零零散散讀完,確實也在平時工作做數(shù)據(jù)分析時有感同身受寺滚,不過串起來柑营,感受整體的思想感情,應該更有裨益吧村视。

1 內(nèi)在有偏的樣本

為確保結(jié)論有價值官套,根據(jù)抽樣得出的結(jié)論一定要采用有代表性的。否則蚁孔,由于采樣而產(chǎn)生的不起眼的誤差奶赔,正將你引導向與真實相反的結(jié)論。

2 精心挑選的平均數(shù)

均值杠氢、中位數(shù)站刑、眾數(shù)等(在文中均稱為平均數(shù)的一類)的意義大不相同。

當你看到平均收入時鼻百,問問是什么的平均绞旅?包括了哪些人?如温艇,包不包含part-time職工收入因悲,因為這將給平均收入帶來很大差異。

3 沒有披露的數(shù)據(jù)

(1)采用嚴重有偏的樣本基本能夠產(chǎn)生任何人需要的任何結(jié)果勺爱,這其中的把戲是不充分的樣本晃琳。

“用戶反映使用多克斯Doakes牌牙膏將使蛀牙減少23%”。——多克斯牙膏公司卫旱,記錄6個月的蛀牙數(shù)人灼,記錄三種結(jié)果:蛀牙增多;蛀牙減少顾翼;蛀牙無顯著變化投放。第一種或第三種結(jié)果編檔保存,藏起來暴构,然后重新實驗跪呈。由于機遇的作用,遲早有一組試驗者將證明出牙膏有很好的效果取逾。

拋10次硬幣耗绿,8次菊花朝上,不能就這樣證明菊花朝上的概率為80%砾隅。只有越多次實驗误阻,才會更接近50%。

所以要多少才可以呢晴埂?書中說究反,這取決與其他的因素,即你采用抽樣方式所研究的總體容量有多大儒洛、變動程度有多大精耐。嗯,還是很抽象琅锻。

從另一個角度引入一個概念卦停,顯著性檢驗。反映檢驗數(shù)據(jù)以多大的可能性代表實際結(jié)論恼蓬,而不是代表由于機遇產(chǎn)生的其它結(jié)論惊完。可以用概率來表示处硬,如普查局以19/20的概率保證他們的是對的小槐,大多數(shù)情況下,5%的顯著性水平已經(jīng)足夠荷辕,意味著95%的概率保證結(jié)果真實凿跳,“在實踐上幾乎是確定的”。

(2)另一類沒有透露的數(shù)據(jù)疮方,即事物的變動范圍以及與給定平均數(shù)的偏離水平拄显。

通常單憑一個平均數(shù)來描述事物過于簡單,起不到作用案站。

舉個例子,建房子時,統(tǒng)計了個數(shù):一個家庭蟆盐,平均有3.6人的家庭承边。3或4個人,意味著需要建造兩個臥室的房子石挂。但是事實是博助,這種規(guī)模的家庭只是少數(shù),僅占全部家庭的45%痹愚,而35%是1人或2人富岳,20%的多于4人。過分依賴平均數(shù)的結(jié)果就是拯腮,建了過多的兩臥室的房子窖式。

“正常的”與“期望的”混為一談時,導致事情變得更糟动壤。如萝喘,有些書給焦慮的父母提供了錯誤的結(jié)論,晚一天或晚一個月學會走路的孩子是低能兒琼懊。典型地阁簸,缺少了對事物的變動范圍和平均數(shù)的偏離水平的理解。

是啊哼丈,世界上有的山高启妹,有的山低,還有盆地醉旦,不都亙古了饶米。

4 毫無意義的工作

可能誤差和標準誤差,定量地衡量你的樣本以多大的精度代表總體髓抑。

智力測試中咙崎,二狗 98分,翠西 101分吨拍,好像二狗子輸了褪猛。如果說智力測試的可能誤差(可能誤差指的是準確度或可信度?)為3%羹饰,二狗智商的全面表達是98±3伊滋,翠西101±3,二狗的智商以相等的機會落在95-101中任何一點队秩,有1/4的可能性二狗智商超過101(1/4哪里來的笑旺?),同于翠西低于98的可能性馍资,所以也有可能二狗的智商高于翠西3分筒主。

5 令人驚奇的圖形

講了一個陰謀,改變坐標軸的比例關系,而將一條平緩上升的直線乌妙,變成了一條y=tan(x)曲線使兔。

6 一維圖形的濫用

講了另一個陰謀,把代表奶牛數(shù)量的柱狀圖中1:2大小比例的兩條柱子藤韵,換成奶牛圖形虐沥,結(jié)果第二張圖的奶牛身高是第一張圖的奶牛身高的2倍≡笏遥看似合理欲险,其實用視覺效果夸大了比例,畢竟奶牛在圖片中是二維的匹涮,隨著身高變成2倍天试,面積變成了4倍。如果畫3D效果的金字塔焕盟,體積就變成了8倍秋秤。

7 不完全匹配的資料

把看上去極像、而完全不同的兩件事混淆在一起脚翘。

去年因飛機失事造成的死亡人數(shù)比1910年多灼卢,是否意味著乘坐現(xiàn)代化的飛機反而更危險?而要知道現(xiàn)在選擇飛機作為交通工具的人比以往增加幾百倍了来农。

所以需要統(tǒng)一比較的口徑鞋真,如比較每100萬乘客里程的遇難人數(shù),才更有意義沃于。

8 相關關系的誤解

兩個事物之間的關聯(lián)關系并不能用于說明其中一個將引起另一個的變化涩咖。即使樣本容量足夠大,經(jīng)認真挑選繁莹,且相關關系十分顯著等檩互。

更大的可能性是萨脑,兩個因素并不互為因果枯夜,而同為第三個因素的產(chǎn)物挡篓。

相關系數(shù)所證明的事物之間的關聯(lián)關系锯茄,有幾種類型:

(1)由于機緣巧合而產(chǎn)生的。

所以任意兩個事物或兩組特性之間肠牲,在利用小樣本后玲销,都能建立顯著的相關關系镐捧。

(2)存在真實的關系遭赂,但無法確定何為因循诉、何為果。有時因果可互換位置撇他,或互為因果茄猫。

如收入和股票狈蚤。

(3)最富戲劇性的是,雖然所有變量相互間沒有任何影響募疮,但的確存在顯著的相關炫惩。

如抽煙者與成績的不好。

(4)超過了推斷關系的數(shù)據(jù)范圍阿浓,而得出的結(jié)論。

正相關到了一定程度后可能急劇轉(zhuǎn)化為負相關蹋绽,如雨越多芭毙,谷物越高,收成越多卸耘;但如果是一季的暴雨退敦,就可能毀滅莊稼。

相關顯示了一種趨勢蚣抗,而這種趨勢通常不是那種一對一的理想關系侈百。

數(shù)據(jù)是真實的,然而不妥的是一句數(shù)據(jù)和事實推斷了一個未經(jīng)證實的結(jié)論翰铡。

——我想知道钝域,如何證明一個因素是另一個的起因?

10 如何反駁統(tǒng)計資料

(1)誰說的锭魔?

有意識的偏差:錯誤的陳數(shù)例证,不易被揭穿的含糊之詞,可以挑選適合的數(shù)據(jù)迷捧。測量標準的該懂织咧,不正確的測量方法。

無意識的偏差:警惕權威漠秋。

(2)他是如何知道的笙蒙?

樣本是否有偏:數(shù)值是否足夠大從而能解釋問題,觀察值是否足夠多從而保證結(jié)論的可靠性庆锦?

(3)遺漏了什么捅位?

可信度(可能誤差、標準誤差)的缺乏

均值與中位數(shù)相差甚遠時肥荔,要注意那些沒有標明類型的平均數(shù)绿渣。

很多數(shù)據(jù)因為沒有比較而變得缺乏意義。

有時僅給出百分數(shù)卻缺少原始數(shù)據(jù)也能造成欺騙燕耿。

為指數(shù)精心挑選一個基期中符,可以扭曲事實。

遺漏了引起變化的原因誉帅,容易讓人認為其它因素才是引發(fā)變化的原因淀散。

(4)是否與人偷換了概念右莱?

如,會計人員往往認為“盈余”是個會引起諸多爭議的次档插,美國會計師協(xié)會跨級程序委員會建議慢蜓,可以使用“留存利潤”或者“固定資產(chǎn)增值”這種描述性的術語。

(5)這個資料有意義嗎郭膛?

外推法在預測趨勢是十分有用晨抡,但不加控制的外推法具有不完善性。因為該方法暗含“其它所有條件都相同”以及”現(xiàn)有趨勢將繼續(xù)下去“的前提则剃。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末耘柱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子棍现,更是在濱河造成了極大的恐慌调煎,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件己肮,死亡現(xiàn)場離奇詭異士袄,居然都是意外死亡,警方通過查閱死者的電腦和手機谎僻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進店門娄柳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人戈稿,你說我怎么就攤上這事西土。” “怎么了鞍盗?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵需了,是天一觀的道長。 經(jīng)常有香客問我般甲,道長肋乍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任敷存,我火速辦了婚禮墓造,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘锚烦。我一直安慰自己觅闽,他們只是感情好,可當我...
    茶點故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布涮俄。 她就那樣靜靜地躺著蛉拙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪彻亲。 梳的紋絲不亂的頭發(fā)上孕锄,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天吮廉,我揣著相機與錄音,去河邊找鬼畸肆。 笑死宦芦,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的轴脐。 我是一名探鬼主播调卑,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼大咱!你這毒婦竟也來了令野?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤徽级,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后聊浅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體餐抢,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年低匙,在試婚紗的時候發(fā)現(xiàn)自己被綠了旷痕。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡顽冶,死狀恐怖欺抗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情强重,我是刑警寧澤绞呈,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站间景,受9級特大地震影響佃声,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜倘要,卻給世界環(huán)境...
    茶點故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一圾亏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧封拧,春花似錦志鹃、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至尝苇,卻和暖如春铛只,著一層夾襖步出監(jiān)牢的瞬間埠胖,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工淳玩, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留直撤,地道東北人。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓蜕着,卻偏偏與公主長得像谋竖,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子承匣,可洞房花燭夜當晚...
    茶點故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 一蓖乘、內(nèi)在有偏的樣本 1、抽樣:只要樣本足夠大韧骗,并且具有代表性嘉抒,多數(shù)情況下,樣本的信息可以很好地代表總體袍暴。但如果條件...
    IvanHung閱讀 1,549評論 0 1
  • 《數(shù)據(jù)分析的統(tǒng)計基礎》的讀書筆記 作 者:經(jīng)管之家些侍、曹正鳳 出版社:電子工業(yè)出版社 版 次:2015年2月第1...
    格式化_001閱讀 9,657評論 1 58
  • 1. 簡述相關分析和回歸分析的區(qū)別和聯(lián)系。 回歸分析和相關分析都是研究兩個或兩個以上變量之間關系的方法政模。 廣義上說...
    安也也閱讀 8,698評論 0 3
  • 5月10日岗宣,讀完了達萊爾·哈夫的《統(tǒng)計數(shù)據(jù)會撒謊》。 之前就知道這是本已出版幾十年的統(tǒng)計數(shù)據(jù)科普經(jīng)典淋样,卻沒想到...
    River小姐姐閱讀 1,439評論 0 3
  • 看見,就是愛趁猴。小孩子原本就是天真可愛的刊咳,只要媽媽不經(jīng)意的一逗就會:“哈哈大笑”,所以說呀躲叼,媽媽是孩子的一面鏡子...
    合肥李風麗閱讀 91評論 0 0