一拆内、置信區(qū)間與置信水平
在做實(shí)驗(yàn)時(shí)旋圆,即使實(shí)驗(yàn)條件再準(zhǔn)確,也無法避免隨機(jī)干擾的影響麸恍,所以誤差永遠(yuǎn)存在灵巧,無可避免。做科學(xué)實(shí)驗(yàn)時(shí)要測量多次抹沪,采取取平均值的方法刻肄。在科學(xué)實(shí)驗(yàn)的測量結(jié)果上,總是會加上一個測量范圍融欧。
統(tǒng)計(jì)學(xué)核心思想:用樣本信息來估計(jì)總體信息
之前我們用樣本給出一個精確值來估計(jì)總體敏弃,這個點(diǎn)估計(jì)值是有價(jià)值的,但可能存在誤差噪馏,因?yàn)橛泄烙?jì)就會有誤差麦到,誤差不可避免但是可以減少。
點(diǎn)(精確值)誤差 > 區(qū)間(范圍)誤差
點(diǎn)估計(jì)
[圖片上傳失敗...(image-491647-1618377925287)]
圖中橫軸是不同樣本的平均值從小到大逝薪,紅色虛線表示要求的總體平均值隅要,假設(shè)將抽樣的過程重復(fù)5次,那么就有了5個樣本董济,可以算出5個樣本平均值的點(diǎn)估計(jì)步清,也就是藍(lán)色的點(diǎn)代表總體樣本。
[圖片上傳失敗...(image-2e6bd9-1618377925287)]
如果圖中有許多藍(lán)色的點(diǎn)虏肾,每一個藍(lán)色的點(diǎn)都是對總體平均值的一次點(diǎn)估計(jì)廓啊,這么多點(diǎn)估計(jì),我們是分辨不出那個點(diǎn)估計(jì)更好的封豪,也就是說谴轮,我們無法知道估計(jì)的準(zhǔn)確程度是多少,反過來說吹埠,我們是不知道誤差范圍的第步,為了解決點(diǎn)估計(jì)存在的問題,需要運(yùn)用區(qū)間估計(jì)缘琅。
假如想要知道全國男性的平均身高粘都,這只能通過抽樣的方法,用樣本信息估計(jì)出總體信息刷袍,從全國成年男性中隨機(jī)抽取一個樣本翩隧,這個樣本的平均值就是對總體平均值的一次點(diǎn)估計(jì),當(dāng)有多個樣本時(shí)具有多個點(diǎn)估計(jì)呻纹,由于無法判別那個點(diǎn)估計(jì)對總體估計(jì)的誤差范圍更小堆生,所以要用區(qū)間估計(jì)來解決這個問題专缠。
比如說,全國成年男性的平均身高在165cm~175cm這個區(qū)間[165, 175]淑仆,那么這個區(qū)間就叫做置信區(qū)間涝婉。
置信區(qū)間是統(tǒng)計(jì)中一種區(qū)間估計(jì)的方法。用[a , b]表示樣本估計(jì)總體平均值誤差范圍的區(qū)間糯景,由于a和b的確切數(shù)值取決于我們希望自己對于這個區(qū)間包含總體平均值這一結(jié)果具有的可信程度嘁圈,因此這個區(qū)間叫做置信區(qū)間。
[圖片上傳失敗...(image-d127cf-1618377925287)]
有五個樣本蟀淮,樣本的總體平均值是上圖中的藍(lán)色點(diǎn),對樣本的總體平均值使用某種方法钞澳,構(gòu)造一個置信區(qū)間怠惶,則5個樣本的平均值就有五個置信區(qū)間,也就是圖中黃色和紅色的橫線轧粟,哪一根橫線更好呢策治,我們?nèi)稳徊恢溃呛忘c(diǎn)估計(jì)相比兰吟,因?yàn)檫@次是按照95%的置信水平構(gòu)造出的區(qū)間估計(jì)通惫,那么我們可以相信,圖中除了紅色那根線混蔼,沒有包含總體平均值之外履腋,其他線都包含了總體平均值。這個結(jié)論的相信程度有多大呢惭嚣?也就是說遵湖,如果有100個樣本,可以構(gòu)造出100個這樣的區(qū)間晚吞,其中大約有95個區(qū)間會包含總體平均值延旧。這也解釋了什么是置信水平。
置信水平是指包含總體平均值的概率是多大槽地,例如:95%的置信水平表示迁沫,如果有100個樣本,可以構(gòu)造出100個這樣的區(qū)間捌蚊,有95%的可能性包含總體平均值集畅。所以說,如果只做一次抽樣逢勾,那么這個樣本包含總體平均值的概率也是95%牡整。
二、大樣本計(jì)算置信區(qū)間的四個步驟
1. 確定要求解的問題
用樣本信息估計(jì)總體信息
2. 求樣本的平均值和標(biāo)準(zhǔn)誤差
當(dāng)樣本大小大于30時(shí)抽樣分布符合中心極限定理溺拱,也就是抽樣分布是正態(tài)分布的
總體標(biāo)準(zhǔn)差不知道逃贝,但可以用樣本標(biāo)準(zhǔn)差來估計(jì)總體標(biāo)準(zhǔn)差谣辞,標(biāo)準(zhǔn)誤差其實(shí)也是標(biāo)準(zhǔn)差,只不過標(biāo)準(zhǔn)誤差的計(jì)算對象是所有的“樣本平均值”沐扳,標(biāo)準(zhǔn)誤差是用來衡量所有的“樣本平均值”的波動大小
3. 確定置信水平
置信水平取多大泥从,完全取決于具體情況,以及對區(qū)間中包含總體平均值這一說法有多大信心沪摄。
置信水平越高躯嫉,區(qū)間越寬,置信區(qū)間包含總體平均值的概率也就越大杨拐。常用的置信水平為95%祈餐。
[圖片上傳失敗...(image-55c4ad-1618377925287)]
根據(jù)中心極限定理,不管總體服從什么分布哄陶,任意一個樣本的平均值都會圍繞在總體平均值周圍呈現(xiàn)正態(tài)分布帆阳,所以圖中中間位置的紅色豎線就是總體平均值,根據(jù)正態(tài)分布的經(jīng)驗(yàn)法則屋吨,有95%的樣本平均值會落在兩個標(biāo)準(zhǔn)誤差之內(nèi)蜒谤。
4. 求置信區(qū)間上下限的值
上圖中上下限ba是根據(jù)總體平均值對稱分布的,可以根據(jù)求a從而來求b至扰,上圖的距離平均值的幾個標(biāo)準(zhǔn)誤差就是幾個標(biāo)準(zhǔn)分鳍徽,只要求出a對應(yīng)的標(biāo)準(zhǔn)分是多少就可以了,用z來表示標(biāo)準(zhǔn)分敢课,那么如何求z的值呢阶祭?
下圖是求z的值的方法
根據(jù)中心極限定理,樣本平均值約等于總體平均值翎猛。根據(jù)上圖就可以求出ab了
置信區(qū)間公式中的z是指其絕對值|z| ,公式修正如下:
a=總體平均值- |z|* 標(biāo)準(zhǔn)誤差
b=總體平均值+ |z|* 標(biāo)準(zhǔn)誤差
大樣本計(jì)算置信區(qū)間的總結(jié)
置信區(qū)間公式中的z是指其絕對值|z| ,公式修正如下:
a=總體平均值- |z|* 標(biāo)準(zhǔn)誤差
b=總體平均值+ |z|* 標(biāo)準(zhǔn)誤差
三胖翰、小樣本計(jì)算置信區(qū)間的四個步驟
當(dāng)樣本大小小于30時(shí),抽樣分布符合t分布切厘,t分布很像正態(tài)分布萨咳,曲線較為扁平,有兩條突出的尾巴
[圖片上傳失敗...(image-89cbb1-1618377925287)]
上圖中的n指的是樣本大小疫稿,df指的是自由度
小樣本的置信區(qū)間與大樣本的置信區(qū)間只有一點(diǎn)不同培他,也就是第三步所查詢的表格不同
置信區(qū)間公式中的t是指其絕對值|t| ,公式修正如下:
a=總體平均值- |t|* 標(biāo)準(zhǔn)誤差
b=總體平均值+ |t|* 標(biāo)準(zhǔn)誤差
自由度是指,可選的樣本大小中遗座,減去最后一次沒有選擇可選的只剩下1個樣本的數(shù)量多少舀凛。
如:有四種水果,每天選擇吃完一種途蒋,到第四天時(shí)猛遍,只有唯一的一種水果可吃了,此時(shí)沒有其他選擇了,這時(shí)自由度為3懊烤。