本文是《赤裸裸的統(tǒng)計學(xué)》一書的筆記、總結(jié)和思考缘挑。主要是個人梳理和沉淀知識之用集歇,有興趣的話可以看看原書。
統(tǒng)計學(xué)有什么用
獲得描述性數(shù)據(jù)
我們經(jīng)常要從大量數(shù)據(jù)中提煉出一個描述性數(shù)據(jù)來簡化問題语淘。比如:我們想知道一個球員的好壞诲宇,可以用場均得分?jǐn)?shù)來衡量。相對簡單的場景惶翻,我們可以使用單一的指標(biāo)來評估姑蓝。
對于復(fù)雜的場景,我們可能就要將各種數(shù)據(jù)綜合起來吕粗,比如:學(xué)校要通過衡量學(xué)生的成績纺荧,獎學(xué)金發(fā)給最優(yōu)秀的學(xué)生。每個學(xué)生在大學(xué)中選修的課程都不同溯泣,憑什么來決定把獎學(xué)金給誰呢虐秋?我們需要一個相對客觀和公平的機制來評價每一個學(xué)生的成績。我們把每一科的百分成績折算后乘以對應(yīng)科目的學(xué)分垃沦,累加起來再除以總的學(xué)分客给,計算出來的就是一個學(xué)生的GPA。我們把GPA做一個排名肢簿,排名最靠前的那些學(xué)生自然就是成績最好的那一些靶剑。
用抽樣數(shù)據(jù)解決大問題
我們有時要解決一些大問題,比如:我們想知道一個城市中到底有多少流浪漢池充。我們沒法把整個城市的流浪漢挨個數(shù)一遍桩引,我們只能抽樣。通過計算某個區(qū)域內(nèi)的流浪漢數(shù)量收夸,基于此推測別的區(qū)域內(nèi)的流浪漢數(shù)目坑匠。當(dāng)然,這樣算出來的數(shù)字肯定是不準(zhǔn)確的卧惜,但是只要抽樣和計算的方法正確厘灼,得到的結(jié)果也不會有特別大的偏差夹纫。
評估風(fēng)險
保險行業(yè)都是依靠統(tǒng)計學(xué)來生存的。比如對針對火災(zāi)的保險而言设凹,他們要知道在某個地區(qū)的火災(zāi)發(fā)生的概率舰讹,根據(jù)概率計算出保費和賠付上限。只要按照這個思路闪朱,保險公司虧錢的概率將變得非常低月匣。在車險上,今年出過事故的司機下一年的保費會變得更貴奋姿,這也是因為一個今年出過事故的人明年再次出事故的概率會更高一些锄开,他們可能會有更糟糕的駕駛習(xí)慣,所以保險公司需要向他們收取更高的保費來平衡風(fēng)險称诗。
同理院刁,博彩公司、彩票粪狼、賭場等行業(yè)也都是靠著統(tǒng)計學(xué)來賺錢的,不可能總是有那么多人同時贏錢任岸,他們也許在某天運氣不好會有虧損再榄,但是從長遠來看他們總是能賺到錢。
發(fā)現(xiàn)潛在的問題
我們同樣可以通過分析數(shù)據(jù)發(fā)現(xiàn)問題享潜,比如:一個學(xué)校的平均學(xué)習(xí)成績不大可能突然突飛猛進困鸥;學(xué)生在難題的正確率不會遠遠超過簡單的題;一個城市的失業(yè)率一夜之間大幅提升剑按。這些不符合正常規(guī)律的背后往往可能隱藏著問題疾就,統(tǒng)計學(xué)可以幫助我們更容易的發(fā)現(xiàn)異常的情況。
分析問題相關(guān)性
統(tǒng)計學(xué)可以通過分析問題的相關(guān)性來尋找問題原因艺蝴,比如:體重重的人會不會更容易感冒猬腰。研究人員收集人們的體重和感冒的次數(shù),進行分析后猜敢,我們可以推導(dǎo)出體重和感冒次數(shù)兩個變量之間是不是存在相關(guān)性姑荷,并得出具有統(tǒng)計學(xué)意義的結(jié)論,為進一步的研究打下基礎(chǔ)缩擂。
統(tǒng)計學(xué)的理論和應(yīng)用
平均數(shù)鼠冕、中位數(shù)
這兩個概念都屬于描述性數(shù)字,它們各自有不同的用途胯盯。對于數(shù)據(jù)1懈费、3、5博脑、7憎乙、9票罐、11、10002來說寨闹,平均數(shù)是(1 + 3 + 5 + 7 + 9 + 11 + 10002)/ 6 = 1673胶坠,而中位數(shù)是按照大小排序后在最中間的數(shù)7。在使用它們描述問題時繁堡,需要進行正確的選擇沈善。一般情況下,中位數(shù)受到異常數(shù)據(jù)的影響會更小椭蹄。如果異常數(shù)據(jù)不多闻牡,中位數(shù)跟平均數(shù)應(yīng)該比較接近。
相關(guān)性和相關(guān)系數(shù)
相關(guān)性體現(xiàn)出變量之間互相關(guān)聯(lián)的關(guān)系绳矩。如果一個變量隨著另一個變量增加而增加罩润,則這兩個變量存在正相關(guān)性,比如身高和體重的關(guān)系翼馆,反之亦然割以。相關(guān)系數(shù)代表著變量之間相互影響的劇烈程度,如果相關(guān)系數(shù)為0表示變量之間不存在相關(guān)性应媚,相關(guān)系數(shù)大于0則代表兩個變量為正相關(guān)严沥,相關(guān)系數(shù)越大說明兩個變量的關(guān)聯(lián)性越強。
必須注意的是中姜,相關(guān)性是基于統(tǒng)計數(shù)據(jù)的分析的消玄。真實世界中必然存在個子矮的人比個子高的人要重的情況,我們在討論問題時必須意識到這一點丢胚。另外翩瓜,相關(guān)關(guān)系并不等于因果關(guān)系,這個點會在下面詳細解釋携龟。
概率兔跌、期望和大數(shù)定律
概率是事件發(fā)生的可能性,期望是發(fā)生事件最有可能的結(jié)果骨宠。它們可以共同成為我們做出決策的依據(jù)浮定。
彩票排列3的獎金是1040元,它的中獎期望是1 / (10 * 10 * 10) * 1040 = 1.04元层亿,也就是你花兩塊錢買一注彩票最有可能得到的是一塊多一點桦卒。所以從理性的角度,不要把錢浪費在彩票上匿又。
概率畢竟只是對可能性的研究和預(yù)測方灾,你仍然有可能只買一注兩塊錢的彩票就中了1000塊;你也有可能總是買到將要漲停的股票。如果你覺得自己就是運氣爆棚裕偿,那就試試吧洞慎,祝好運。
大數(shù)定律:隨著實驗次數(shù)的增多嘿棘,結(jié)果的平均值會越來越接近期望值劲腿。也就是說,我們投一個正常的6面骰鸟妙,投的次數(shù)越多焦人,平均值就會越接近3.5。大數(shù)定律可以推廣到更多的領(lǐng)域中:體育明星在登上雜志封面后經(jīng)常會出現(xiàn)狀態(tài)下滑的狀態(tài)重父,這不是雜志的詛咒花椭,而是因為這些明星經(jīng)常會因為超水平發(fā)揮登上雜志封面的,終究他們的表現(xiàn)會回歸自身的平均水平房午。
標(biāo)準(zhǔn)差和中心極限定理
標(biāo)準(zhǔn)差用于衡量數(shù)據(jù)的離散性矿辽。數(shù)據(jù)在平均值周圍分布越密集,其標(biāo)準(zhǔn)差就越小郭厌。
中心極限定理意為袋倔,任意一個群體的樣本平均值都會圍繞著該群體的整體平均值周圍,并且呈正態(tài)分布折柠。即應(yīng)該有百分之68%的數(shù)值位于平均值一個標(biāo)準(zhǔn)差范圍內(nèi)奕污,95%的數(shù)值在平均值兩個標(biāo)準(zhǔn)差的范圍內(nèi)。
因此我們可以按照中心極限定理液走,通過正確的抽樣來確定整體的平均值(民意調(diào)查)。我們也可以通過判斷樣本平均值距離整體平均值的遠近贾陷,推測該樣本是不是從整體中隨機抽取的缘眶。如果樣本平均值距離整體平均值兩個甚至三個標(biāo)準(zhǔn)差以上,就可以推測很可能有別的因素介入影響了樣本髓废。
統(tǒng)計學(xué)的工具
統(tǒng)計推斷
統(tǒng)計推斷是一個讓數(shù)據(jù)說話巷懈,讓有價值的結(jié)論浮出水面的過程。它是依據(jù)基于樣本數(shù)據(jù)和問題模型慌洪,對未知事物做出的以概率為形式的推斷顶燕。上面關(guān)于中心極限定理的運用就是統(tǒng)計推斷的一種思路。
統(tǒng)計推斷過程中的一個常用工具是“假設(shè)檢驗”「缘現(xiàn)假設(shè)一個結(jié)論涌攻,再通過統(tǒng)計分析對其進行支持或者反駁。假設(shè)檢驗的細節(jié)和流程就不在這里展開細說了频伤。
回歸分析
回歸分析可以幫助我們確定兩個變量之間的相關(guān)性恳谎,我們可以用統(tǒng)計學(xué)工具擬合出最佳的線性關(guān)系。
我們可以將一組身高和體重的數(shù)據(jù)擬合為下面這樣一個公式:
體重= -135 + 4.5 / 身高
這說明人的身高越高體重一般會越重。如果我們在數(shù)據(jù)里加上年齡因痛,它就可能會生成如下的方程式:
體重 = -145 + 4.6 / 身高 + 0.1 / 年齡
年齡前的系數(shù)遠小于身高婚苹,意味著平均年齡增長一歲,體重只增加0.1個單位鸵膏,年齡對體重的影響比身高要小得多膊升。我們再在數(shù)據(jù)里加入性別的因素:
體重 = -118 + 4.3 / 身高 + 0.12 / 年齡 - 4.8 * 性別(女性為1,男性為0)
我們可以看到谭企,回歸分析是一個非常強大的統(tǒng)計工具廓译,它可以讓我們看到多個變量各自對結(jié)果會產(chǎn)生什么樣的影響,從而幫助我們分析和解決問題赞咙。
統(tǒng)計的陷阱
正確獲取數(shù)據(jù)
統(tǒng)計學(xué)是基于數(shù)據(jù)的科學(xué)责循。我們無法從一份錯誤的數(shù)據(jù)中推出正確的結(jié)論,所以數(shù)據(jù)的獲取就至關(guān)重要攀操。
先要確定要抽樣的用戶特征院仿,針對他們設(shè)計抽樣方法:如果調(diào)查是針對某個學(xué)校學(xué)生家長,可以通過隨機抽取數(shù)據(jù)庫中手機號的方式對用戶進行電話訪談速和;針對某個新聞網(wǎng)站的用戶歹垫,可以在新聞頁面投放問卷(需要注意的是,必須考慮到投放新聞的類型和形式會不會對目標(biāo)人群造成影響)颠放。
同時測驗的設(shè)計也很重要排惨。用戶在軟件卸載界面做卸載理由調(diào)查時,有可能直接選擇第一個默認(rèn)選項碰凶,讓選項以隨機順序展示可以減少這種情況的干擾暮芭;問題本身不應(yīng)該用戶產(chǎn)生干擾和引導(dǎo)。
相關(guān)性不是因果關(guān)系
必須要注意的是欲低,在分析問題時辕宏,統(tǒng)計學(xué)只能推導(dǎo)出變量之間的相關(guān)性,而無法解釋原因砾莱,所以也可能是背后隱藏的第三個變量產(chǎn)生了影響瑞筐。比如:如果家中的電視機數(shù)量和學(xué)生成績之間成正相關(guān),我們不能直接得出結(jié)論說家庭看電視越多腊瑟,學(xué)生成績會越好聚假。我們必須考慮到電視機更多的家庭往往會更加富裕,這樣的家庭可以給孩子提供更好的學(xué)習(xí)條件闰非,孩子的平均成績自然會更好膘格。
被壓縮的數(shù)據(jù)
從大數(shù)據(jù)中提煉出的描述性數(shù)據(jù)不可能百分百準(zhǔn)確,經(jīng)過壓縮的數(shù)據(jù)必然會忽略某些因素财松,以至于在一些場景下有失公平闯袒。我們必須理解并接受這一點。我們可以通過思考和分析讓我們設(shè)計的數(shù)據(jù)指標(biāo)盡量完善,但是要警惕不應(yīng)該陷入對無懈可擊的指標(biāo)的盲目追求政敢,否則我們只會永遠在停留在如何設(shè)計指標(biāo)這一步其徙,而忘了我們的最終目的是解決問題。
選擇性的使用數(shù)據(jù)
我們可以通過巧妙的選擇數(shù)據(jù)來控制結(jié)論喷户,詳見《赤裸裸的統(tǒng)計學(xué)》第三章《統(tǒng)計數(shù)字會說謊》唾那。