@歡迎閱讀劉海洋的每周一本書文章
關于作者
查爾斯·惠倫,美國達特茅斯大學教授一屋,1997 到 2002 年間擔任《經(jīng)濟學人》雜志駐美國中西部地區(qū)記者。主要從事經(jīng)濟學研究,曾在《芝加哥郵報》《紐約時報》和《華爾街日報》發(fā)表過多篇文章策精,所著《赤裸裸的經(jīng)濟學》是暢銷多年的經(jīng)濟學普及讀物。
關于本書
這是一本關于統(tǒng)計學常識的科普書崇棠,作者從理財投資咽袜、民意調(diào)查、醫(yī)療健康枕稀、刑事判決等生活案例中剝繭抽絲询刹,向我們展示了妙趣橫生的統(tǒng)計學規(guī)律。統(tǒng)計學并沒有想想的這么難萎坷,你也可以通過這本書學習統(tǒng)計學凹联。
核心內(nèi)容
本書作者認為,作為大數(shù)據(jù)時代炙手可熱的學問哆档,統(tǒng)計學可以解決很多實際問題蔽挠。可如果運用不當,統(tǒng)計學也會制造假象瓜浸、造成誤導澳淑。因此,我們很有必要掌握一些統(tǒng)計學中的概念和原理插佛,它們并不艱澀難懂杠巡,卻能幫我們讀懂真相,預測未來雇寇。核心內(nèi)容包含五個部分:
1氢拥、大數(shù)定律蚌铜;
2、中心極限定理兄一;
3厘线、隨機抽樣;
4出革、回歸分析造壮;
5、常犯的概率學錯誤骂束。
一耳璧、大數(shù)定律
相同條件下,當隨機試驗次數(shù)足夠多時展箱,實驗結果的平均值會無限接近 “期望值”旨枯。
1. 我們可以通過研究概率,明智地選擇投資理財方式
【案例】就算是某期彩票爆出大獎掏空了獎池混驰,從長遠看攀隔,發(fā)行彩票也是穩(wěn)賺不賠。根據(jù)“大數(shù)定律”栖榨,發(fā)行機構只要保證彩票的銷售額大于獎金期望值昆汹,就肯定賺錢,所以沉溺于博彩是非常不理智的婴栽。
對于投資門檻高满粗、風險大,但是回報很高的項目愚争,如果把注意力都放在高回報率上很危險映皆。大數(shù)定律成立的前提是“試驗次數(shù)足夠多”,如果你沒有承擔多次投資失敗的資本轰枝,孤注一擲的投資很可能會血本無歸捅彻。
再比如最近區(qū)塊鏈很火,好多新出的數(shù)字貨幣蹭蹭的漲鞍陨,那么你只一味的追漲沟饥,你肯定輸?shù)暮軕K,但如果你資金雄厚多分配幾種湾戳,那么你贏的概率就很大贤旷。
2. 幫助我們理性面對風險
【案例】對小額電子產(chǎn)品推出的付費延保服務,商家肯定穩(wěn)賺不賠砾脑,用戶選擇付費延庇资唬基本上等于浪費錢。但對于那些大額度人身韧衣、財產(chǎn)意外險盅藻,它們更多的是一個規(guī)避風險的理性工具购桑,幫你在遭受一些難以承受的巨大損失時渡過難關。雖然保險公司賺取了巨大的利潤氏淑,這種錢我們還必須得花勃蜘。
巴菲特說過:一個好的投資家首先應該學會的是避險。
二假残、中心極限定理
依據(jù)該定理缭贡,我們對一個基數(shù)龐大的群體做統(tǒng)計調(diào)查時,只要對其中的一部分樣本進行研究辉懒,得出的結論就能反映整個群體的特點阳惹。
1. 如果掌握了某個群體的具體信息,就能推理出從這個群體中正確抽取隨機樣本的情況眶俩。
【案例】一個城市同時在舉辦馬拉松比賽和吃熱狗大賽莹汤,比賽前有一輛載滿外國馬拉松運動員的公交車失蹤了,結果警察找到了一輛載滿大胖子外國人的公交車颠印。由于語言不通纲岭,警察只能根據(jù)經(jīng)驗判斷:即使馬拉松選手里面可能也有一兩個略重的,但是滿車都是胖子不大可能线罕,因此很可能找錯了車荒勇。
2. 如果已知兩個樣本的基本特性,就能推理出這兩個樣本是不是來自同一個群體闻坚。
【案例】上述案例中如果找到兩輛車,乘客各自有胖有瘦兢孝,該怎么判斷窿凤?這時候可以測量乘客體重,計算體重分布的標準差跨蟹。根據(jù)中心極限定理雳殊,馬拉松運動員群體的體重標準差是明顯小于普通群體的,他們的體重分布更加集中于平均值周圍窗轩。由此仍然可以判斷出哪輛車是我們要找的夯秃。
三、隨機抽樣
這是收集數(shù)據(jù)的主要方法痢艺,核心是必須保證每個對象被抽到的概率完全相等仓洼。但大部分調(diào)查的對象是人群,人口組成非常復雜堤舒。如果不能保證等概率抽樣色建,抽樣數(shù)據(jù)就會存在“偏見”,就會得出錯誤結論舌缤。
****1. 選擇性偏見:樣本選擇帶有潛在傾向性時就會出現(xiàn)箕戳。****
【案例】1936年美國總統(tǒng)大選時某残,《文學文摘》雜志面向訂閱者開展的民意測驗,是史上知名度最高的統(tǒng)計錯誤陵吸。雜志編輯沒有意識到玻墅,訂閱這本雜志的人平均來說要比普通美國民眾更富有,他們更傾向于投票給保護富人利益的共和黨壮虫。這樣帶有選擇性偏見的樣本即使容量很大澳厢,也無法正確反映民意。
****2. 幸存者偏見:如果樣本中有數(shù)據(jù)缺失旨指,會導致樣本組成發(fā)生改變赏酥。****
【案例】很多投資基金公司會同時開放20只新基金,經(jīng)過三年的經(jīng)營谆构,總會有2到3只基金連續(xù)三年“跑贏”標準普爾指數(shù)裸扶。公司只要把十幾只失敗的基金悄悄關閉,大肆宣傳這兩三只“幸存者”搬素,就可以把投資者的錢騙進來了呵晨。而實際上,這些“幸存”基金接下來的表現(xiàn)會逐漸回歸平均水平熬尺。
****3. 健康用戶偏見:用來比對的樣本其實選擇在了不同群體當中摸屠。****
【案例】假設衛(wèi)生部門發(fā)現(xiàn),哈佛大學新生中有98%的人在少年時期穿紫色睡衣粱哼,而監(jiān)獄里的犯人中只有3%的人這樣做過季二。因此得出了一個結論:穿紫色睡衣的孩子確實更有可能取得成功。這很顯然是很荒謬的結論揭措,這個問題在于我們用來對比的兩組人根本就是兩類人胯舷。真正對孩子大腦發(fā)育起作用的,是給孩子穿上紫色睡衣的家長绊含,他們更注重對孩子的家庭教育桑嘶。
四、回歸分析
**1. 對那些錯綜復雜的問題躬充,回歸分析可以通過建模計算逃顶,從已知現(xiàn)象中還原未知原因,甚至可以計算每種原因?qū)Y果的貢獻比例充甚。****
【案例】醫(yī)學家發(fā)現(xiàn)以政,級別較低的公務員更容易患上心臟病。 “白廳”研究項目組經(jīng)過長時間縱向數(shù)據(jù)采集伴找,比對了可能導致心臟病的一系列原因妙蔗,包括低階公務員的學歷普遍偏低、煙民比例高疆瑰、醫(yī)療服務差眉反、加班多昙啄、鍛煉少等等。面對這些錯綜復雜的變量寸五,統(tǒng)計學家建立回歸方程梳凛,計算了各個變量和心臟病發(fā)病率的線性關系∈嵝樱回歸分析表明韧拒,造成心臟病高發(fā)的真正原因,是對工作缺乏控制力和話語權十性。而這類存在感較低的崗位叛溢,在低級別職位中更常見。
2. 電腦永遠不能代替人的工作劲适,如果在進行回歸分析時遺漏了變量楷掉,就會得出危險的結論。
【案例】上世紀90年代霞势,哈佛大學醫(yī)學院對12萬名女性開展縱向調(diào)查烹植,經(jīng)回歸分析顯示,定期攝入雌激素可以減少女性心臟病發(fā)病率愕贡,隨后醫(yī)院開始提供雌激素的補充治療草雕。而后來的臨床試驗發(fā)現(xiàn),此舉會導致乳腺癌和血栓病高發(fā)固以,因此死亡的女性患者可能達到上萬人墩虹。
五、常犯的概率學錯誤
- “黑天鵝”事件:忽視小概率事件憨琳,有時會造成嚴重的后果诫钓。
【案例】2008年美國次貸危機爆發(fā)前,整個北美金融行業(yè)都在使用同一個風險價值模型來預測投資風險栽渴。這個模型的強大之處在于它非常精確,可以預測99%的市場風險稳懒。然而闲擦,該模型是根據(jù)過去20年的市場行為建立的,不能對剩余1%的意外情況做出預測场梆∈洌可是,隨著2007年美國商業(yè)銀行房貸業(yè)務的崩潰或油,“黑天鵝”真的出現(xiàn)了寞忿,整個華爾街措手不及,一次全球大范圍的金融危機因此爆發(fā)顶岸。
2. “檢方謬誤”:通過統(tǒng)計數(shù)據(jù)推斷出的結論腔彰,必定存在誤差叫编,不會100%正確。即使誤差再小霹抛,也不能忽視它的存在搓逾。
【案例】假設一名法官被告知:犯罪現(xiàn)場遺留的 DNA 樣本和被告的 DNA 相吻合,除了被告以外杯拐,這個樣本和其他人 DNA 相吻合的概率只有百萬分之一霞篡。如果僅憑這些證據(jù)為被告人定罪,就可能出現(xiàn)冤案端逼。百萬分之一的誤差看似很小朗兵,但警方的 DNA 樣本庫數(shù)量非常龐大,通過樣本比對顶滩,找到兩個 DNA 特征相似的人并非不可能余掖。
大數(shù)據(jù)時代,我們每個人都應該了解一些統(tǒng)計學诲祸,無論你是理科生還是文科生浊吏,也許大多數(shù)人大學學的概率論都還給老師了,通過這本書掌握最核心的點救氯,而且很多案例幫助你理解找田。
我是劉海洋,每周一本書着憨,更好的精進自己墩衙。