第九章? 中心極限定理
? ? ? ? ·一輛坐滿肥胖乘客的客車拋錨在路邊,推斷一下徒坡,它的目的地是馬拉松比賽場(chǎng)地万皿,還是國(guó)際香腸節(jié)摧找?
? ? ? ? ·有時(shí)候統(tǒng)計(jì)學(xué)就像魔術(shù),能夠從少量數(shù)據(jù)中得出不可思議的強(qiáng)大結(jié)論牢硅。例如只需要對(duì)1000個(gè)美國(guó)人進(jìn)行帶電話調(diào)查蹬耘,就能洞悉美國(guó)總統(tǒng)大選的得票數(shù)。此外减余,還有食品沙門氏菌的檢測(cè)综苔。
? ? ? ? ·中心極限定理的核心要義:一個(gè)大型樣本的正確抽樣與其所代表的群體存在相似關(guān)系。相關(guān)推理如下:
? ? ? ? ? ? -1位岔、如果我們掌握了某個(gè)群體的具體信息如筛,就能推理出這個(gè)群體匯總正確抽取的隨機(jī)樣本的情況。
? ? ? ? ? ? -2抒抬、如果掌握了某個(gè)正確抽取的樣本的具體信息(平均值和標(biāo)準(zhǔn)差)杨刨,就能對(duì)其所代表的群體做出令人驚訝的精確推理。
? ? ? ? ? ? -3擦剑、如果我們掌握了某個(gè)樣本的數(shù)據(jù)拭嫁,以及某個(gè)群體的數(shù)據(jù),就能推理出該樣本是否就是該群體的樣本之一抓于。例如做粤,已知馬拉松參賽選手的平均體重,和客車上肥胖乘客的平均體重捉撮,就可以計(jì)算出客車肥胖乘客是不是馬拉松選手了怕品。距離3個(gè)標(biāo)準(zhǔn)差則有99.7%的概率,2個(gè)標(biāo)準(zhǔn)差95%巾遭,1個(gè)標(biāo)準(zhǔn)差68.2%肉康。
? ? ? ? ? ? -4闯估、如果我們已知兩個(gè)樣本的基本特性,就能推理出這兩個(gè)樣本是否取自同一群體吼和。
? ? ? ? ·根據(jù)中心極限定理涨薪,任意一個(gè)群體的樣本平均值都會(huì)圍繞在該群體的整體平均值周圍,并且成正態(tài)分布炫乓;取樣次數(shù)越多刚夺,結(jié)果就越接近正態(tài)分布;樣本數(shù)量越大末捣,分布就越接近正態(tài)分布侠姑。
? ? ? ? ·標(biāo)準(zhǔn)誤差:用來(lái)衡量群體中所有個(gè)體的離散性,但僅僅衡量樣本平均值的離散性箩做。即標(biāo)準(zhǔn)誤差就是所有樣本平均值的標(biāo)準(zhǔn)差莽红。(多個(gè)樣本,一個(gè)樣本有多個(gè)對(duì)象)
? ? ? ? ? ? -標(biāo)準(zhǔn)誤差表達(dá)式:SE = s/邦邦;其中SE是標(biāo)準(zhǔn)誤差安吁,s表示抽樣群體的標(biāo)準(zhǔn)差,n表示樣本的數(shù)量燃辖。例如鬼店,馬拉松運(yùn)動(dòng)員群體有62個(gè)人,體重平均體重是162斤郭赐,標(biāo)準(zhǔn)差是36,則標(biāo)準(zhǔn)誤差是:36/?= 36/7.9 = 4.6确沸“贫В客車肥胖乘客群體的平均體重是194斤,192 - 162 = 32罗捎,32大于4.6的三倍以上观谦,所以可以有超過(guò)99.7%的概率判斷客車乘客不是馬拉松的參賽運(yùn)動(dòng)員。
? ? ? ? ·統(tǒng)計(jì)推斷:
? ? ? ? ? ? -1桨菜、如果你從某個(gè)研究群體中多次隨機(jī)抽取數(shù)量足夠多的樣本豁状,那么這些樣本的平均值會(huì)以整體平均值為中心呈現(xiàn)正態(tài)分布(不論該群體自身的分布情況是怎樣的)。
? ? ? ? ? ? -2倒得、絕大數(shù)的樣本平均值都會(huì)緊緊圍繞在整體平均值的周圍泻红,通過(guò)計(jì)算標(biāo)準(zhǔn)誤差就可以知道這些樣本平均值到底是離得‘近’還是‘遠(yuǎn)’。
? ? ? ? ? ? -3霞掺、通過(guò)中心極限定理谊路,我們便可以知道樣本平均值與整體平均值之間的距離及其概率。樣本平均值離整體平均值兩個(gè)標(biāo)準(zhǔn)誤差的概率相對(duì)較低菩彬,3個(gè)或以上的標(biāo)準(zhǔn)誤差的概率基本上為零缠劝。
? ? ? ? ? ? -4潮梯、如果出現(xiàn)某個(gè)概率比較低的結(jié)果,我們便可以推測(cè)是不是有一些其他因素介入惨恭,而且概率越低秉馏,其他因素介入的可能性就越大。
第十章? 統(tǒng)計(jì)推斷與假設(shè)檢驗(yàn)
? ? ? ? ·垃圾郵件過(guò)濾脱羡、癌癥篩查萝究、恐怖分子追捕,我們最不能容忍哪件事情出錯(cuò)轻黑,又有哪件事情是可以“睜一只眼睛閉一只眼睛”的糊肤?
? ? ? ? ·一個(gè)賭徒連續(xù)擲骰子十次的點(diǎn)數(shù)都是6,那就應(yīng)該檢查一下他的骰子氓鄙,畢竟這是六千萬(wàn)分之一的概率馆揉。另外應(yīng)用還有藥物效果的推斷、雷擊的因素抖拦。
? ? ? ? ·統(tǒng)計(jì)學(xué)的意義并不是進(jìn)行無(wú)數(shù)次高深的數(shù)學(xué)推算升酣,而是在于更好洞察社會(huì)現(xiàn)象背后的成因。
? ? ? ? ·計(jì)算平均值差異的標(biāo)準(zhǔn)誤差平均值比較公式:(x樣本的平均值 - y樣本的平均值)/?态罪。即假如兩個(gè)樣本所在群體的平均值是相等的(即它們?nèi)∽酝蝗后w)噩茄,那么它們的平均值之差小于一個(gè)標(biāo)準(zhǔn)誤差的概率是68.2%,兩個(gè)是95%复颈,三個(gè)99.7%绩聘。
? ? ? ? ·單雙尾檢驗(yàn)假設(shè)。一般來(lái)說(shuō)只有有一種假設(shè)耗啦,但是也有兩種假設(shè)凿菩,例如,一種假設(shè)是籃球員的平均身高比正常人高或低帜讲,另一種假設(shè)是籃球員的平均身高比正常人高衅谷。則,前者要進(jìn)行雙尾假設(shè)檢驗(yàn)似将,后者只需進(jìn)行單尾檢驗(yàn)获黔。比如,我們都知道籃球運(yùn)動(dòng)員的平均身高是高于正常人的在验,所以只需要進(jìn)行單位假設(shè)檢驗(yàn)玷氏,即假如假設(shè)成立,那么平均值差異大于或等于1.64個(gè)標(biāo)準(zhǔn)誤差的概率只有5%腋舌。因此预茄,如果兩組男性的身高之差位于該區(qū)間,那么我們就可以推翻假設(shè),即證明籃球運(yùn)動(dòng)員的身高并不是高于正常人耻陕。
第十一章 民意測(cè)驗(yàn)與誤差幅度
? ? ? ? ·民調(diào)結(jié)果顯示拙徽,有89%的美國(guó)人不相信政府會(huì)做正確的事,有46%的美國(guó)人認(rèn)可奧巴馬的工作表現(xiàn)诗宣。這個(gè)結(jié)果可以代表美國(guó)人的真是想法嗎膘怕?
? ? ? ? ·百分比的標(biāo)準(zhǔn)誤差計(jì)算公式:。例如召庞,對(duì)民意進(jìn)行測(cè)驗(yàn)岛心,是否認(rèn)可奧巴馬的工作表現(xiàn),其中p代表某個(gè)特定觀點(diǎn)的回應(yīng)者比例篮灼,(1-p)代表不同觀點(diǎn)的回應(yīng)者比例忘古,n代表樣本所有回應(yīng)者的數(shù)量。由此可知诅诱,樣本量越大髓堪,標(biāo)準(zhǔn)誤差越小娘荡;p與(1-p)的差距越大干旁,標(biāo)準(zhǔn)誤差也會(huì)越小。比如炮沐,有95%回應(yīng)者表達(dá)某種觀點(diǎn)時(shí)争群,其樣本的標(biāo)準(zhǔn)誤差就會(huì)小于回應(yīng)者觀點(diǎn)只有50%的相同率的樣本的標(biāo)準(zhǔn)誤差。0.05*0.95=0.047大年,0.5*0.5=0.25换薄,分子越小,標(biāo)準(zhǔn)誤差越小翔试。
? ? ? ? ? ? -事例:假如進(jìn)行一次“選舉后測(cè)驗(yàn)”轻要,500選民中有53%投了共和黨(特朗普),45%投給了民主黨(奧巴馬)遏餐,還有2%投給其他人伦腐。那么赢底,以共和黨為參照率p失都,則測(cè)驗(yàn)的標(biāo)準(zhǔn)誤差就是2%(0.02)。由此可知幸冻,約有68%的概率共和黨會(huì)獲得53%2%的支持率粹庞,即(51%~55%支持率)因?yàn)橐粋€(gè)標(biāo)準(zhǔn)誤差內(nèi)是68%。同理洽损,民主黨有68%的概率獲得45%2%的支持率庞溜,即(43%~47%支持率)。而問(wèn)題在于,雖然知道共和黨可能比民主黨的支持率高流码,但是這里只有68%的概率可以肯定又官,明顯距離顯著性為0.05還遠(yuǎn)。
? ? ? ? ? ? -因此漫试,要達(dá)到顯著性為0.05的區(qū)間六敬,要擴(kuò)大兩個(gè)標(biāo)準(zhǔn)差(2*0.02),即95%驾荣。這時(shí)候就有95%認(rèn)為共和黨的支持率是53%4%外构,即49%~57%的支持率,民主黨是45%4%播掷。即41%~49%审编。很明顯這里雖然有95%的準(zhǔn)確性,但是支持率有重合的49%歧匈,所以還是不理想的垒酬。
? ? ? ? ? ? -所以,要達(dá)到95%的準(zhǔn)確率眯亦,得從樣本數(shù)量下手伤溉。前面提到,樣本只有500人妻率,如果我們將樣本提高到2000人乱顾,那么標(biāo)準(zhǔn)誤差就是:?= 0.01,即標(biāo)準(zhǔn)誤差是1%宫静。如果想要置信區(qū)間為95%時(shí)走净,可以擴(kuò)大兩個(gè)標(biāo)準(zhǔn)誤。即有95%的概率可以知道共和黨的支持率是52%2%孤里,即50%~54%伏伯,民主黨的支持率為45%2%,即43%~47%捌袜。這個(gè)結(jié)果就相當(dāng)有說(shuō)服力了说搅。
? ? ? ? ? ? -綜上所述,要結(jié)果概率升高的話虏等,可以從標(biāo)準(zhǔn)誤差和樣本數(shù)量入手弄唧。
? ? ? ? ·但是,進(jìn)行民意測(cè)驗(yàn)或采用別人的調(diào)查成果時(shí)霍衫,應(yīng)該反復(fù)問(wèn)下自己以下幾個(gè)問(wèn)題:
? ? ? ? ? ? -1候引、這個(gè)樣本能正確地反映目標(biāo)群體的真是觀點(diǎn)嗎?這里主要是之前提過(guò)的偏見(jiàn)對(duì)數(shù)據(jù)采集的危害敦跌。
? ? ? ? ? ? -2澄干、采訪過(guò)程中的問(wèn)題設(shè)置能得出對(duì)研究課題有用的信息嗎?例如,調(diào)查民眾是否支持死刑時(shí)麸俘,如果不把無(wú)假釋的犯人加進(jìn)樣本辩稽,那么支持率是挺高的的,如果加進(jìn)去的話从媚,那么支持率就會(huì)變低了搂誉。所以,對(duì)于一個(gè)復(fù)雜的話題静檬,只看一個(gè)問(wèn)題或一次民調(diào)結(jié)果是不可能完全看透公眾的心理的炭懊,此時(shí)更需要有大局觀和聯(lián)想力。
? ? ? ? ? ? -受訪者說(shuō)的一定是真的嗎拂檩?民意測(cè)驗(yàn)就像是網(wǎng)戀侮腹,在對(duì)方所提供的信息里總是有那么一點(diǎn)“言不由衷”的成分。因?yàn)榈纠硕加腥鲋e的次數(shù)父阻,尤其是問(wèn)題比較尷尬或敏感的時(shí)候。受訪者可能會(huì)夸大他們的收入望抽,或在某個(gè)月的做愛(ài)次數(shù)上“修飾一番”等加矛。所以,如果擔(dān)心受訪者會(huì)羞于表達(dá)某個(gè)社會(huì)接受度不高的觀點(diǎn)時(shí)煤篙,可以采用迂回的問(wèn)法斟览,比如,“你身邊有認(rèn)識(shí)的人”持有這種觀點(diǎn)嗎辑奈?
第十二章? 回歸分析與線性關(guān)系
? ? ? ? ·你認(rèn)為什么樣的工作壓力更容易使職場(chǎng)人士猝死苛茂,是“缺乏控制力還是話語(yǔ)權(quán)”的工作權(quán),還是“權(quán)力大鸠窗,責(zé)任也大”的工作妓羊?
? ? ? ? ? ? -研究表明,并不是那些“權(quán)力大稍计,責(zé)任也大”的壓力置你于死地躁绸,而是那種等著上司給你布置任務(wù),但自己有沒(méi)有權(quán)力決定應(yīng)該怎樣完成臣嚣、何時(shí)完成這些任務(wù)的壓力把人壓垮了净刮。
? ? ? ? ·回歸分析:能夠控制其他因素的前提下,對(duì)于某個(gè)變量與某個(gè)特定結(jié)果之間的關(guān)系進(jìn)行量化茧球。例如庭瑰,研究樣本低級(jí)別工作對(duì)樣本人群的傷害時(shí)星持,應(yīng)保證其他條件是相似的抢埋,比如吸煙習(xí)慣。
? ? ? ? ·回歸分析尋找的是兩個(gè)變量之間的最佳擬合線性關(guān)系。例如身高和體重的關(guān)系揪垄,雖然不是絕對(duì)穷吮,但是一般來(lái)說(shuō),身高越高饥努,體重越重捡鱼。當(dāng)運(yùn)用回歸分析去擬合多數(shù)據(jù)的樣本時(shí),常用方法是最小二乘法(OLS)酷愧。
? ? ? ? ·當(dāng)有超過(guò)一個(gè)自變量(也可成解釋變量)的時(shí)候驾诈,通常稱其為多元線性回歸分析或多變量復(fù)回歸分析。例如溶浴,解釋體重這個(gè)因變量時(shí)乍迄,就有多個(gè)自變量(年齡、性別士败、飲食闯两、運(yùn)動(dòng)等)。所以谅将,要證明多自變量對(duì)因變量的影響時(shí)漾狼,可以擬合為一個(gè)系數(shù)來(lái)描述,當(dāng)然饥臂,自變量不是越多越好逊躁。