讀《赤裸裸的統(tǒng)計學(xué)》

本文是《赤裸裸的統(tǒng)計學(xué)》一書的筆記、總結(jié)和思考缘挑。主要是個人梳理和沉淀知識之用集歇,有興趣的話可以看看原書。


統(tǒng)計學(xué)有什么用

獲得描述性數(shù)據(jù)

我們經(jīng)常要從大量數(shù)據(jù)中提煉出一個描述性數(shù)據(jù)來簡化問題语淘。比如:我們想知道一個球員的好壞诲宇,可以用場均得分?jǐn)?shù)來衡量。相對簡單的場景惶翻,我們可以使用單一的指標(biāo)來評估姑蓝。
對于復(fù)雜的場景,我們可能就要將各種數(shù)據(jù)綜合起來吕粗,比如:學(xué)校要通過衡量學(xué)生的成績纺荧,獎學(xué)金發(fā)給最優(yōu)秀的學(xué)生。每個學(xué)生在大學(xué)中選修的課程都不同溯泣,憑什么來決定把獎學(xué)金給誰呢虐秋?我們需要一個相對客觀和公平的機制來評價每一個學(xué)生的成績。我們把每一科的百分成績折算后乘以對應(yīng)科目的學(xué)分垃沦,累加起來再除以總的學(xué)分客给,計算出來的就是一個學(xué)生的GPA。我們把GPA做一個排名肢簿,排名最靠前的那些學(xué)生自然就是成績最好的那一些靶剑。

用抽樣數(shù)據(jù)解決大問題

我們有時要解決一些大問題,比如:我們想知道一個城市中到底有多少流浪漢池充。我們沒法把整個城市的流浪漢挨個數(shù)一遍桩引,我們只能抽樣。通過計算某個區(qū)域內(nèi)的流浪漢數(shù)量收夸,基于此推測別的區(qū)域內(nèi)的流浪漢數(shù)目坑匠。當(dāng)然,這樣算出來的數(shù)字肯定是不準(zhǔn)確的卧惜,但是只要抽樣和計算的方法正確厘灼,得到的結(jié)果也不會有特別大的偏差夹纫。

評估風(fēng)險

保險行業(yè)都是依靠統(tǒng)計學(xué)來生存的。比如對針對火災(zāi)的保險而言设凹,他們要知道在某個地區(qū)的火災(zāi)發(fā)生的概率舰讹,根據(jù)概率計算出保費和賠付上限。只要按照這個思路闪朱,保險公司虧錢的概率將變得非常低月匣。在車險上,今年出過事故的司機下一年的保費會變得更貴奋姿,這也是因為一個今年出過事故的人明年再次出事故的概率會更高一些锄开,他們可能會有更糟糕的駕駛習(xí)慣,所以保險公司需要向他們收取更高的保費來平衡風(fēng)險称诗。
同理院刁,博彩公司、彩票粪狼、賭場等行業(yè)也都是靠著統(tǒng)計學(xué)來賺錢的,不可能總是有那么多人同時贏錢任岸,他們也許在某天運氣不好會有虧損再榄,但是從長遠來看他們總是能賺到錢。

發(fā)現(xiàn)潛在的問題

我們同樣可以通過分析數(shù)據(jù)發(fā)現(xiàn)問題享潜,比如:一個學(xué)校的平均學(xué)習(xí)成績不大可能突然突飛猛進困鸥;學(xué)生在難題的正確率不會遠遠超過簡單的題;一個城市的失業(yè)率一夜之間大幅提升剑按。這些不符合正常規(guī)律的背后往往可能隱藏著問題疾就,統(tǒng)計學(xué)可以幫助我們更容易的發(fā)現(xiàn)異常的情況。

分析問題相關(guān)性

統(tǒng)計學(xué)可以通過分析問題的相關(guān)性來尋找問題原因艺蝴,比如:體重重的人會不會更容易感冒猬腰。研究人員收集人們的體重和感冒的次數(shù),進行分析后猜敢,我們可以推導(dǎo)出體重和感冒次數(shù)兩個變量之間是不是存在相關(guān)性姑荷,并得出具有統(tǒng)計學(xué)意義的結(jié)論,為進一步的研究打下基礎(chǔ)缩擂。

統(tǒng)計學(xué)的理論和應(yīng)用

平均數(shù)鼠冕、中位數(shù)

這兩個概念都屬于描述性數(shù)字,它們各自有不同的用途胯盯。對于數(shù)據(jù)1懈费、3、5博脑、7憎乙、9票罐、11、10002來說寨闹,平均數(shù)是(1 + 3 + 5 + 7 + 9 + 11 + 10002)/ 6 = 1673胶坠,而中位數(shù)是按照大小排序后在最中間的數(shù)7。在使用它們描述問題時繁堡,需要進行正確的選擇沈善。一般情況下,中位數(shù)受到異常數(shù)據(jù)的影響會更小椭蹄。如果異常數(shù)據(jù)不多闻牡,中位數(shù)跟平均數(shù)應(yīng)該比較接近。

相關(guān)性和相關(guān)系數(shù)

相關(guān)性體現(xiàn)出變量之間互相關(guān)聯(lián)的關(guān)系绳矩。如果一個變量隨著另一個變量增加而增加罩润,則這兩個變量存在正相關(guān)性,比如身高和體重的關(guān)系翼馆,反之亦然割以。相關(guān)系數(shù)代表著變量之間相互影響的劇烈程度,如果相關(guān)系數(shù)為0表示變量之間不存在相關(guān)性应媚,相關(guān)系數(shù)大于0則代表兩個變量為正相關(guān)严沥,相關(guān)系數(shù)越大說明兩個變量的關(guān)聯(lián)性越強。
必須注意的是中姜,相關(guān)性是基于統(tǒng)計數(shù)據(jù)的分析的消玄。真實世界中必然存在個子矮的人比個子高的人要重的情況,我們在討論問題時必須意識到這一點丢胚。另外翩瓜,相關(guān)關(guān)系并不等于因果關(guān)系,這個點會在下面詳細解釋携龟。

概率兔跌、期望和大數(shù)定律

概率是事件發(fā)生的可能性,期望是發(fā)生事件最有可能的結(jié)果骨宠。它們可以共同成為我們做出決策的依據(jù)浮定。
彩票排列3的獎金是1040元,它的中獎期望是1 / (10 * 10 * 10) * 1040 = 1.04元层亿,也就是你花兩塊錢買一注彩票最有可能得到的是一塊多一點桦卒。所以從理性的角度,不要把錢浪費在彩票上匿又。
概率畢竟只是對可能性的研究和預(yù)測方灾,你仍然有可能只買一注兩塊錢的彩票就中了1000塊;你也有可能總是買到將要漲停的股票。如果你覺得自己就是運氣爆棚裕偿,那就試試吧洞慎,祝好運。

大數(shù)定律:隨著實驗次數(shù)的增多嘿棘,結(jié)果的平均值會越來越接近期望值劲腿。也就是說,我們投一個正常的6面骰鸟妙,投的次數(shù)越多焦人,平均值就會越接近3.5。大數(shù)定律可以推廣到更多的領(lǐng)域中:體育明星在登上雜志封面后經(jīng)常會出現(xiàn)狀態(tài)下滑的狀態(tài)重父,這不是雜志的詛咒花椭,而是因為這些明星經(jīng)常會因為超水平發(fā)揮登上雜志封面的,終究他們的表現(xiàn)會回歸自身的平均水平房午。

標(biāo)準(zhǔn)差和中心極限定理

標(biāo)準(zhǔn)差用于衡量數(shù)據(jù)的離散性矿辽。數(shù)據(jù)在平均值周圍分布越密集,其標(biāo)準(zhǔn)差就越小郭厌。
中心極限定理意為袋倔,任意一個群體的樣本平均值都會圍繞著該群體的整體平均值周圍,并且呈正態(tài)分布折柠。即應(yīng)該有百分之68%的數(shù)值位于平均值一個標(biāo)準(zhǔn)差范圍內(nèi)奕污,95%的數(shù)值在平均值兩個標(biāo)準(zhǔn)差的范圍內(nèi)。

因此我們可以按照中心極限定理液走,通過正確的抽樣來確定整體的平均值(民意調(diào)查)。我們也可以通過判斷樣本平均值距離整體平均值的遠近贾陷,推測該樣本是不是從整體中隨機抽取的缘眶。如果樣本平均值距離整體平均值兩個甚至三個標(biāo)準(zhǔn)差以上,就可以推測很可能有別的因素介入影響了樣本髓废。

統(tǒng)計學(xué)的工具

統(tǒng)計推斷

統(tǒng)計推斷是一個讓數(shù)據(jù)說話巷懈,讓有價值的結(jié)論浮出水面的過程。它是依據(jù)基于樣本數(shù)據(jù)和問題模型慌洪,對未知事物做出的以概率為形式的推斷顶燕。上面關(guān)于中心極限定理的運用就是統(tǒng)計推斷的一種思路。

統(tǒng)計推斷過程中的一個常用工具是“假設(shè)檢驗”「缘現(xiàn)假設(shè)一個結(jié)論涌攻,再通過統(tǒng)計分析對其進行支持或者反駁。假設(shè)檢驗的細節(jié)和流程就不在這里展開細說了频伤。

回歸分析

回歸分析可以幫助我們確定兩個變量之間的相關(guān)性恳谎,我們可以用統(tǒng)計學(xué)工具擬合出最佳的線性關(guān)系。

我們可以將一組身高和體重的數(shù)據(jù)擬合為下面這樣一個公式:
體重= -135 + 4.5 / 身高
這說明人的身高越高體重一般會越重。如果我們在數(shù)據(jù)里加上年齡因痛,它就可能會生成如下的方程式:
體重 = -145 + 4.6 / 身高 + 0.1 / 年齡
年齡前的系數(shù)遠小于身高婚苹,意味著平均年齡增長一歲,體重只增加0.1個單位鸵膏,年齡對體重的影響比身高要小得多膊升。我們再在數(shù)據(jù)里加入性別的因素:
體重 = -118 + 4.3 / 身高 + 0.12 / 年齡 - 4.8 * 性別(女性為1,男性為0)

我們可以看到谭企,回歸分析是一個非常強大的統(tǒng)計工具廓译,它可以讓我們看到多個變量各自對結(jié)果會產(chǎn)生什么樣的影響,從而幫助我們分析和解決問題赞咙。

統(tǒng)計的陷阱

正確獲取數(shù)據(jù)

統(tǒng)計學(xué)是基于數(shù)據(jù)的科學(xué)责循。我們無法從一份錯誤的數(shù)據(jù)中推出正確的結(jié)論,所以數(shù)據(jù)的獲取就至關(guān)重要攀操。
先要確定要抽樣的用戶特征院仿,針對他們設(shè)計抽樣方法:如果調(diào)查是針對某個學(xué)校學(xué)生家長,可以通過隨機抽取數(shù)據(jù)庫中手機號的方式對用戶進行電話訪談速和;針對某個新聞網(wǎng)站的用戶歹垫,可以在新聞頁面投放問卷(需要注意的是,必須考慮到投放新聞的類型和形式會不會對目標(biāo)人群造成影響)颠放。
同時測驗的設(shè)計也很重要排惨。用戶在軟件卸載界面做卸載理由調(diào)查時,有可能直接選擇第一個默認(rèn)選項碰凶,讓選項以隨機順序展示可以減少這種情況的干擾暮芭;問題本身不應(yīng)該用戶產(chǎn)生干擾和引導(dǎo)。

相關(guān)性不是因果關(guān)系

必須要注意的是欲低,在分析問題時辕宏,統(tǒng)計學(xué)只能推導(dǎo)出變量之間的相關(guān)性,而無法解釋原因砾莱,所以也可能是背后隱藏的第三個變量產(chǎn)生了影響瑞筐。比如:如果家中的電視機數(shù)量和學(xué)生成績之間成正相關(guān),我們不能直接得出結(jié)論說家庭看電視越多腊瑟,學(xué)生成績會越好聚假。我們必須考慮到電視機更多的家庭往往會更加富裕,這樣的家庭可以給孩子提供更好的學(xué)習(xí)條件闰非,孩子的平均成績自然會更好膘格。

被壓縮的數(shù)據(jù)

從大數(shù)據(jù)中提煉出的描述性數(shù)據(jù)不可能百分百準(zhǔn)確,經(jīng)過壓縮的數(shù)據(jù)必然會忽略某些因素财松,以至于在一些場景下有失公平闯袒。我們必須理解并接受這一點。我們可以通過思考和分析讓我們設(shè)計的數(shù)據(jù)指標(biāo)盡量完善,但是要警惕不應(yīng)該陷入對無懈可擊的指標(biāo)的盲目追求政敢,否則我們只會永遠在停留在如何設(shè)計指標(biāo)這一步其徙,而忘了我們的最終目的是解決問題。

選擇性的使用數(shù)據(jù)

我們可以通過巧妙的選擇數(shù)據(jù)來控制結(jié)論喷户,詳見《赤裸裸的統(tǒng)計學(xué)》第三章《統(tǒng)計數(shù)字會說謊》唾那。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市褪尝,隨后出現(xiàn)的幾起案子闹获,更是在濱河造成了極大的恐慌,老刑警劉巖河哑,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件避诽,死亡現(xiàn)場離奇詭異,居然都是意外死亡璃谨,警方通過查閱死者的電腦和手機沙庐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來佳吞,“玉大人拱雏,你說我怎么就攤上這事〉装猓” “怎么了铸抑?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長衷模。 經(jīng)常有香客問我鹊汛,道長,這世上最難降的妖魔是什么阱冶? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任柒昏,我火速辦了婚禮,結(jié)果婚禮上熙揍,老公的妹妹穿的比我還像新娘。我一直安慰自己氏涩,他們只是感情好届囚,可當(dāng)我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著是尖,像睡著了一般意系。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上饺汹,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天蛔添,我揣著相機與錄音,去河邊找鬼。 笑死迎瞧,一個胖子當(dāng)著我的面吹牛夸溶,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播凶硅,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼缝裁,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了足绅?” 一聲冷哼從身側(cè)響起捷绑,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎氢妈,沒想到半個月后粹污,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡首量,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年壮吩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蕾总。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡粥航,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出生百,到底是詐尸還是另有隱情递雀,我是刑警寧澤,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布蚀浆,位于F島的核電站缀程,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏市俊。R本人自食惡果不足惜杨凑,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望摆昧。 院中可真熱鬧撩满,春花似錦、人聲如沸绅你。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽忌锯。三九已至伪嫁,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間偶垮,已是汗流浹背张咳。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工帝洪, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人脚猾。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓葱峡,卻偏偏與公主長得像,于是被迫代替她去往敵國和親婚陪。 傳聞我的和親對象是個殘疾皇子族沃,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內(nèi)容