《赤裸裸的統(tǒng)計(jì)學(xué)》回顧--(9至12章)

第九章? 中心極限定理

? ? ? ? ·一輛坐滿肥胖乘客的客車拋錨在路邊,推斷一下徒坡,它的目的地是馬拉松比賽場(chǎng)地万皿,還是國(guó)際香腸節(jié)摧找?

? ? ? ? ·有時(shí)候統(tǒng)計(jì)學(xué)就像魔術(shù),能夠從少量數(shù)據(jù)中得出不可思議的強(qiáng)大結(jié)論牢硅。例如只需要對(duì)1000個(gè)美國(guó)人進(jìn)行帶電話調(diào)查蹬耘,就能洞悉美國(guó)總統(tǒng)大選的得票數(shù)。此外减余,還有食品沙門氏菌的檢測(cè)综苔。

? ? ? ? ·中心極限定理的核心要義:一個(gè)大型樣本的正確抽樣與其所代表的群體存在相似關(guān)系。相關(guān)推理如下:

? ? ? ? ? ? -1位岔、如果我們掌握了某個(gè)群體的具體信息如筛,就能推理出這個(gè)群體匯總正確抽取的隨機(jī)樣本的情況。

? ? ? ? ? ? -2抒抬、如果掌握了某個(gè)正確抽取的樣本的具體信息(平均值和標(biāo)準(zhǔn)差)杨刨,就能對(duì)其所代表的群體做出令人驚訝的精確推理。

? ? ? ? ? ? -3擦剑、如果我們掌握了某個(gè)樣本的數(shù)據(jù)拭嫁,以及某個(gè)群體的數(shù)據(jù),就能推理出該樣本是否就是該群體的樣本之一抓于。例如做粤,已知馬拉松參賽選手的平均體重,和客車上肥胖乘客的平均體重捉撮,就可以計(jì)算出客車肥胖乘客是不是馬拉松選手了怕品。距離3個(gè)標(biāo)準(zhǔn)差則有99.7%的概率,2個(gè)標(biāo)準(zhǔn)差95%巾遭,1個(gè)標(biāo)準(zhǔn)差68.2%肉康。

? ? ? ? ? ? -4闯估、如果我們已知兩個(gè)樣本的基本特性,就能推理出這兩個(gè)樣本是否取自同一群體吼和。

? ? ? ? ·根據(jù)中心極限定理涨薪,任意一個(gè)群體的樣本平均值都會(huì)圍繞在該群體的整體平均值周圍,并且成正態(tài)分布炫乓;取樣次數(shù)越多刚夺,結(jié)果就越接近正態(tài)分布;樣本數(shù)量越大末捣,分布就越接近正態(tài)分布侠姑。

? ? ? ? ·標(biāo)準(zhǔn)誤差:用來(lái)衡量群體中所有個(gè)體的離散性,但僅僅衡量樣本平均值的離散性箩做。即標(biāo)準(zhǔn)誤差就是所有樣本平均值的標(biāo)準(zhǔn)差莽红。(多個(gè)樣本,一個(gè)樣本有多個(gè)對(duì)象)

? ? ? ? ? ? -標(biāo)準(zhǔn)誤差表達(dá)式SE = s/\sqrt{n} 邦邦;其中SE是標(biāo)準(zhǔn)誤差安吁,s表示抽樣群體的標(biāo)準(zhǔn)差,n表示樣本的數(shù)量燃辖。例如鬼店,馬拉松運(yùn)動(dòng)員群體有62個(gè)人,體重平均體重是162斤郭赐,標(biāo)準(zhǔn)差是36,則標(biāo)準(zhǔn)誤差是:36/\sqrt{62} ?= 36/7.9 = 4.6确沸“贫В客車肥胖乘客群體的平均體重是194斤,192 - 162 = 32罗捎,32大于4.6的三倍以上观谦,所以可以有超過(guò)99.7%的概率判斷客車乘客不是馬拉松的參賽運(yùn)動(dòng)員。

? ? ? ? ·統(tǒng)計(jì)推斷

? ? ? ? ? ? -1桨菜、如果你從某個(gè)研究群體中多次隨機(jī)抽取數(shù)量足夠多的樣本豁状,那么這些樣本的平均值會(huì)以整體平均值為中心呈現(xiàn)正態(tài)分布(不論該群體自身的分布情況是怎樣的)。

? ? ? ? ? ? -2倒得、絕大數(shù)的樣本平均值都會(huì)緊緊圍繞在整體平均值的周圍泻红,通過(guò)計(jì)算標(biāo)準(zhǔn)誤差就可以知道這些樣本平均值到底是離得‘近’還是‘遠(yuǎn)’。

? ? ? ? ? ? -3霞掺、通過(guò)中心極限定理谊路,我們便可以知道樣本平均值與整體平均值之間的距離及其概率。樣本平均值離整體平均值兩個(gè)標(biāo)準(zhǔn)誤差的概率相對(duì)較低菩彬,3個(gè)或以上的標(biāo)準(zhǔn)誤差的概率基本上為零缠劝。

? ? ? ? ? ? -4潮梯、如果出現(xiàn)某個(gè)概率比較低的結(jié)果,我們便可以推測(cè)是不是有一些其他因素介入惨恭,而且概率越低秉馏,其他因素介入的可能性就越大。

第十章? 統(tǒng)計(jì)推斷與假設(shè)檢驗(yàn)

? ? ? ? ·垃圾郵件過(guò)濾脱羡、癌癥篩查萝究、恐怖分子追捕,我們最不能容忍哪件事情出錯(cuò)轻黑,又有哪件事情是可以“睜一只眼睛閉一只眼睛”的糊肤?

? ? ? ? ·一個(gè)賭徒連續(xù)擲骰子十次的點(diǎn)數(shù)都是6,那就應(yīng)該檢查一下他的骰子氓鄙,畢竟這是六千萬(wàn)分之一的概率馆揉。另外應(yīng)用還有藥物效果的推斷、雷擊的因素抖拦。

? ? ? ? ·統(tǒng)計(jì)學(xué)的意義并不是進(jìn)行無(wú)數(shù)次高深的數(shù)學(xué)推算升酣,而是在于更好洞察社會(huì)現(xiàn)象背后的成因

? ? ? ? ·計(jì)算平均值差異的標(biāo)準(zhǔn)誤差平均值比較公式:(x樣本的平均值 - y樣本的平均值)/?\sqrt{x標(biāo)準(zhǔn)差的平方/n   +  y標(biāo)準(zhǔn)差的平方/n} 态罪。即假如兩個(gè)樣本所在群體的平均值是相等的(即它們?nèi)∽酝蝗后w)噩茄,那么它們的平均值之差小于一個(gè)標(biāo)準(zhǔn)誤差的概率是68.2%,兩個(gè)是95%复颈,三個(gè)99.7%绩聘。

? ? ? ? ·單雙尾檢驗(yàn)假設(shè)。一般來(lái)說(shuō)只有有一種假設(shè)耗啦,但是也有兩種假設(shè)凿菩,例如,一種假設(shè)是籃球員的平均身高比正常人高或低帜讲,另一種假設(shè)是籃球員的平均身高比正常人高衅谷。則,前者要進(jìn)行雙尾假設(shè)檢驗(yàn)似将,后者只需進(jìn)行單尾檢驗(yàn)获黔。比如,我們都知道籃球運(yùn)動(dòng)員的平均身高是高于正常人的在验,所以只需要進(jìn)行單位假設(shè)檢驗(yàn)玷氏,即假如假設(shè)成立,那么平均值差異大于或等于1.64個(gè)標(biāo)準(zhǔn)誤差的概率只有5%腋舌。因此预茄,如果兩組男性的身高之差位于該區(qū)間,那么我們就可以推翻假設(shè),即證明籃球運(yùn)動(dòng)員的身高并不是高于正常人耻陕。

第十一章 民意測(cè)驗(yàn)與誤差幅度

? ? ? ? ·民調(diào)結(jié)果顯示拙徽,有89%的美國(guó)人不相信政府會(huì)做正確的事,有46%的美國(guó)人認(rèn)可奧巴馬的工作表現(xiàn)诗宣。這個(gè)結(jié)果可以代表美國(guó)人的真是想法嗎膘怕?

? ? ? ? ·百分比的標(biāo)準(zhǔn)誤差計(jì)算公式\sqrt{p(1 -p)/n} 。例如召庞,對(duì)民意進(jìn)行測(cè)驗(yàn)岛心,是否認(rèn)可奧巴馬的工作表現(xiàn),其中p代表某個(gè)特定觀點(diǎn)的回應(yīng)者比例篮灼,(1-p)代表不同觀點(diǎn)的回應(yīng)者比例忘古,n代表樣本所有回應(yīng)者的數(shù)量。由此可知诅诱,樣本量越大髓堪,標(biāo)準(zhǔn)誤差越小娘荡;p與(1-p)的差距越大干旁,標(biāo)準(zhǔn)誤差也會(huì)越小。比如炮沐,有95%回應(yīng)者表達(dá)某種觀點(diǎn)時(shí)争群,其樣本的標(biāo)準(zhǔn)誤差就會(huì)小于回應(yīng)者觀點(diǎn)只有50%的相同率的樣本的標(biāo)準(zhǔn)誤差。0.05*0.95=0.047大年,0.5*0.5=0.25换薄,分子越小,標(biāo)準(zhǔn)誤差越小翔试。

? ? ? ? ? ? -事例:假如進(jìn)行一次“選舉后測(cè)驗(yàn)”轻要,500選民中有53%投了共和黨(特朗普),45%投給了民主黨(奧巴馬)遏餐,還有2%投給其他人伦腐。那么赢底,以共和黨為參照率p失都,則測(cè)驗(yàn)的標(biāo)準(zhǔn)誤差就是2%(0.02)。由此可知幸冻,約有68%的概率共和黨會(huì)獲得53%\pm 2%的支持率粹庞,即(51%~55%支持率)因?yàn)橐粋€(gè)標(biāo)準(zhǔn)誤差內(nèi)是68%。同理洽损,民主黨有68%的概率獲得45%\pm 2%的支持率庞溜,即(43%~47%支持率)。而問(wèn)題在于,雖然知道共和黨可能比民主黨的支持率高流码,但是這里只有68%的概率可以肯定又官,明顯距離顯著性為0.05還遠(yuǎn)。

? ? ? ? ? ? -因此漫试,要達(dá)到顯著性為0.05的區(qū)間六敬,要擴(kuò)大兩個(gè)標(biāo)準(zhǔn)差(2*0.02),即95%驾荣。這時(shí)候就有95%認(rèn)為共和黨的支持率是53%\pm 4%外构,即49%~57%的支持率,民主黨是45%\pm 4%播掷。即41%~49%审编。很明顯這里雖然有95%的準(zhǔn)確性,但是支持率有重合的49%歧匈,所以還是不理想的垒酬。

? ? ? ? ? ? -所以,要達(dá)到95%的準(zhǔn)確率眯亦,得從樣本數(shù)量下手伤溉。前面提到,樣本只有500人妻率,如果我們將樣本提高到2000人乱顾,那么標(biāo)準(zhǔn)誤差就是:\sqrt{0.52*0.45/2000} ?= 0.01,即標(biāo)準(zhǔn)誤差是1%宫静。如果想要置信區(qū)間為95%時(shí)走净,可以擴(kuò)大兩個(gè)標(biāo)準(zhǔn)誤。即有95%的概率可以知道共和黨的支持率是52%\pm 2%孤里,即50%~54%伏伯,民主黨的支持率為45%\pm 2%,即43%~47%捌袜。這個(gè)結(jié)果就相當(dāng)有說(shuō)服力了说搅。

? ? ? ? ? ? -綜上所述,要結(jié)果概率升高的話虏等,可以從標(biāo)準(zhǔn)誤差和樣本數(shù)量入手弄唧。

? ? ? ? ·但是,進(jìn)行民意測(cè)驗(yàn)或采用別人的調(diào)查成果時(shí)霍衫,應(yīng)該反復(fù)問(wèn)下自己以下幾個(gè)問(wèn)題:

? ? ? ? ? ? -1候引、這個(gè)樣本能正確地反映目標(biāo)群體的真是觀點(diǎn)嗎?這里主要是之前提過(guò)的偏見(jiàn)對(duì)數(shù)據(jù)采集的危害敦跌。

? ? ? ? ? ? -2澄干、采訪過(guò)程中的問(wèn)題設(shè)置能得出對(duì)研究課題有用的信息嗎?例如,調(diào)查民眾是否支持死刑時(shí)麸俘,如果不把無(wú)假釋的犯人加進(jìn)樣本辩稽,那么支持率是挺高的的,如果加進(jìn)去的話从媚,那么支持率就會(huì)變低了搂誉。所以,對(duì)于一個(gè)復(fù)雜的話題静檬,只看一個(gè)問(wèn)題或一次民調(diào)結(jié)果是不可能完全看透公眾的心理的炭懊,此時(shí)更需要有大局觀和聯(lián)想力。

? ? ? ? ? ? -受訪者說(shuō)的一定是真的嗎拂檩?民意測(cè)驗(yàn)就像是網(wǎng)戀侮腹,在對(duì)方所提供的信息里總是有那么一點(diǎn)“言不由衷”的成分。因?yàn)榈纠硕加腥鲋e的次數(shù)父阻,尤其是問(wèn)題比較尷尬或敏感的時(shí)候。受訪者可能會(huì)夸大他們的收入望抽,或在某個(gè)月的做愛(ài)次數(shù)上“修飾一番”等加矛。所以,如果擔(dān)心受訪者會(huì)羞于表達(dá)某個(gè)社會(huì)接受度不高的觀點(diǎn)時(shí)煤篙,可以采用迂回的問(wèn)法斟览,比如,“你身邊有認(rèn)識(shí)的人”持有這種觀點(diǎn)嗎辑奈?

第十二章? 回歸分析與線性關(guān)系

? ? ? ? ·你認(rèn)為什么樣的工作壓力更容易使職場(chǎng)人士猝死苛茂,是“缺乏控制力還是話語(yǔ)權(quán)”的工作權(quán),還是“權(quán)力大鸠窗,責(zé)任也大”的工作妓羊?

? ? ? ? ? ? -研究表明,并不是那些“權(quán)力大稍计,責(zé)任也大”的壓力置你于死地躁绸,而是那種等著上司給你布置任務(wù),但自己有沒(méi)有權(quán)力決定應(yīng)該怎樣完成臣嚣、何時(shí)完成這些任務(wù)的壓力把人壓垮了净刮。

? ? ? ? ·回歸分析:能夠控制其他因素的前提下,對(duì)于某個(gè)變量與某個(gè)特定結(jié)果之間的關(guān)系進(jìn)行量化茧球。例如庭瑰,研究樣本低級(jí)別工作對(duì)樣本人群的傷害時(shí)星持,應(yīng)保證其他條件是相似的抢埋,比如吸煙習(xí)慣。

? ? ? ? ·回歸分析尋找的是兩個(gè)變量之間的最佳擬合線性關(guān)系。例如身高和體重的關(guān)系揪垄,雖然不是絕對(duì)穷吮,但是一般來(lái)說(shuō),身高越高饥努,體重越重捡鱼。當(dāng)運(yùn)用回歸分析去擬合多數(shù)據(jù)的樣本時(shí),常用方法是最小二乘法(OLS)酷愧。

? ? ? ? ·當(dāng)有超過(guò)一個(gè)自變量(也可成解釋變量)的時(shí)候驾诈,通常稱其為多元線性回歸分析或多變量復(fù)回歸分析。例如溶浴,解釋體重這個(gè)因變量時(shí)乍迄,就有多個(gè)自變量(年齡、性別士败、飲食闯两、運(yùn)動(dòng)等)。所以谅将,要證明多自變量對(duì)因變量的影響時(shí)漾狼,可以擬合為一個(gè)系數(shù)來(lái)描述,當(dāng)然饥臂,自變量不是越多越好逊躁。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市隅熙,隨后出現(xiàn)的幾起案子志衣,更是在濱河造成了極大的恐慌,老刑警劉巖猛们,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件念脯,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡弯淘,警方通過(guò)查閱死者的電腦和手機(jī)绿店,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)庐橙,“玉大人假勿,你說(shuō)我怎么就攤上這事√睿” “怎么了转培?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)浆竭。 經(jīng)常有香客問(wèn)我浸须,道長(zhǎng)惨寿,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任删窒,我火速辦了婚禮裂垦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘肌索。我一直安慰自己蕉拢,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布诚亚。 她就那樣靜靜地躺著晕换,像睡著了一般。 火紅的嫁衣襯著肌膚如雪站宗。 梳的紋絲不亂的頭發(fā)上届巩,一...
    開(kāi)封第一講書(shū)人閱讀 49,950評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音份乒,去河邊找鬼恕汇。 笑死,一個(gè)胖子當(dāng)著我的面吹牛或辖,可吹牛的內(nèi)容都是我干的瘾英。 我是一名探鬼主播,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼颂暇,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼缺谴!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起耳鸯,我...
    開(kāi)封第一講書(shū)人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤湿蛔,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后县爬,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體阳啥,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年财喳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了察迟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡耳高,死狀恐怖扎瓶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情泌枪,我是刑警寧澤概荷,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站碌燕,受9級(jí)特大地震影響误证,放射性物質(zhì)發(fā)生泄漏继薛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一雷厂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧叠殷,春花似錦改鲫、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至壶冒,卻和暖如春缕题,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背胖腾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工烟零, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人咸作。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓锨阿,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親记罚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子墅诡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容