應(yīng)用統(tǒng)計(jì)學(xué)與R語言實(shí)現(xiàn)學(xué)習(xí)筆記（五）——參數(shù)估計(jì)

Chapter 5 Estimation

本篇是第五章，內(nèi)容是參數(shù)估計(jì)蟆融。

1.參數(shù)估計(jì)的一般問題

正如前面介紹的守呜，統(tǒng)計(jì)學(xué)的兩大分支，分別是描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)查乒。所以今天來談?wù)勍茢嘟y(tǒng)計(jì)的第一大問題——參數(shù)估計(jì)。當(dāng)然一般叫統(tǒng)計(jì)推斷的會更多些玛迄，二者是一樣的。
統(tǒng)計(jì)推斷(Statistical Inference)——主要包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)虏杰，實(shí)質(zhì)就是通過樣本的均值、標(biāo)準(zhǔn)差纺阔、方差等去估計(jì)總體的均值、標(biāo)準(zhǔn)差笛钝、方差或者判斷總體的分布形式和分布參數(shù)。

參數(shù)估計(jì)：根據(jù)從總體中抽得的樣本所提供的信息结榄，對總體分布中包含的未知參數(shù)作出數(shù)值上的估計(jì)。
點(diǎn)估計(jì)：用樣本的某一函數(shù)值來估計(jì)總體分布中的未知參數(shù);
區(qū)間估計(jì)：按照一定的可靠度估計(jì)出參數(shù)的一個范圍潭陪，即確定一個區(qū)間最蕾，使這一個區(qū)間內(nèi)包含參數(shù)真值的概率達(dá)到預(yù)先所要求的程度。

假設(shè)檢驗(yàn)：需要對總體的分布形式或分布參數(shù)事先作出某種假設(shè)瘟则，然后根據(jù)樣本觀測值枝秤，運(yùn)用統(tǒng)計(jì)分析的方法來檢驗(yàn)這一假設(shè)是否正確。

上一篇提到的淀弹，獲取樣本之后，我們需要去猜總體薇溃，參數(shù)估計(jì)就是猜總體的參數(shù)（分布中所含的未知參數(shù)；分布特征：均值琉用、方差等；事件的概率等）或者參數(shù)空間(參數(shù)的可能取值范圍)邑时。
假設(shè)檢驗(yàn)是下一章內(nèi)容，這里就不細(xì)述了晶丘。
首先明確兩個概念：估計(jì)量（estimator）與估計(jì)值(estimated value)唐含。

估計(jì)量：用于估計(jì)總體參數(shù)的隨機(jī)變量滤钱，一般為樣本統(tǒng)計(jì)量（如樣本均值脑题、樣本比例、樣本方差等叔遂；例如：樣本均值就是總體均值μ 的一個估計(jì)量）。

估計(jì)值：估計(jì)參數(shù)時計(jì)算出來的統(tǒng)計(jì)量的具體值,如果樣本均值=80痊末，則80就是總體均值的估計(jì)值。

既然是估計(jì)量忱详，就必須有評價估計(jì)量的標(biāo)準(zhǔn)。一般包括以下幾點(diǎn)：

無偏性：估計(jì)量的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù)，樣本的隨機(jī)性導(dǎo)致估計(jì)偏差舱禽，偏差平均值為0，無系統(tǒng)誤差（所以在這里又提出了漸進(jìn)無偏估計(jì)：估計(jì)隨著樣本量的增加而逐漸趨近于真值誊稚。漸進(jìn)無偏估計(jì)指系統(tǒng)偏差會隨著樣本量的增加而逐漸減小，趨于0里伯，在大樣本時可近似當(dāng)無偏估計(jì)使用）。

有效性：對同一總體參數(shù)的兩個無偏點(diǎn)估計(jì)量脖镀，有更小標(biāo)準(zhǔn)差的估計(jì)量更有效。

一致性：隨著樣本容量的增大认然，估計(jì)量的值越來越接近被估計(jì)的總體參數(shù)。

由于無偏性是最普遍的標(biāo)準(zhǔn)卷员。這里再介紹部分無偏性的幾個要點(diǎn)：

*　樣本均值是總體期望的無偏估計(jì)腾务。

諸觀測值對樣本均值的偏差可正可負(fù)，其和恒為0（n個偏差中只有n-1個是獨(dú)立的）。

自由度：獨(dú)立偏差個數(shù)窿撬。

偏差平方和（樣本量相等情況下，偏差平方和的大小反映樣本散布的大小叙凡，樣本量大，偏差平方和大趨近于平均偏差平方和跛璧，偏差平方和的期望小于方差，有偏估計(jì)追城，漸進(jìn)無偏估計(jì)。

點(diǎn)估計(jì)（point estimate）

用樣本估計(jì)量的某個取值直接作為總體參數(shù)的估計(jì)值（例如：用樣本均值直接作為總體均值的估計(jì)座柱；用兩個樣本均值之差直接作為總體均值之差的估計(jì)）物舒。

無法給出估計(jì)值接近總體參數(shù)程度的信息（雖然在重復(fù)抽樣條件下，點(diǎn)估計(jì)的均值可望接近總體真值茶鉴，但由于樣本是隨機(jī)的，抽出一個具體的樣本得到的估計(jì)值等同于總體真值的可能性很小涵叮，特別是在連續(xù)分布時割粮，該概率幾乎為0，一個點(diǎn)估計(jì)量的可靠性是由它的抽樣標(biāo)準(zhǔn)誤差來衡量的舀瓢，這表明一個具體的點(diǎn)估計(jì)值無法給出估計(jì)的可靠性的度量）耗美。

2.區(qū)間估計(jì) Confidence Intervals

正如前面提到的點(diǎn)估計(jì)可靠性較低，因此在點(diǎn)估計(jì)的基礎(chǔ)上又提出了區(qū)間估計(jì)(interval estimate)商架，它能解決的問題包括：

為解決參數(shù)估計(jì)的精確度和可靠性問題，在點(diǎn)估計(jì)的基礎(chǔ)上給出總體參數(shù)估計(jì)的一個區(qū)間范圍（該區(qū)間一般由樣本統(tǒng)計(jì)量加減抽樣誤差而得到）蛇摸，使這一個區(qū)間內(nèi)包含參數(shù)真值的概率大到預(yù)先所要求的程度。

它不具體指出總體參數(shù)等于什么揽涮，但能指出總體的未知參數(shù)落入某一區(qū)間的概率有多大。

二者的區(qū)別在于：點(diǎn)估計(jì)是一個數(shù)蒋困，區(qū)間估計(jì)給出一個區(qū)間，提供更多關(guān)于變異性的信息雪标。通俗的解釋，你女朋友買了件衣服门粪，讓你猜價格，你猜中準(zhǔn)確價格很難玄妈，但是你猜一個范圍還是準(zhǔn)確度比較高的。

所以區(qū)間估計(jì)(interval estimate)的概念是——根據(jù)樣本統(tǒng)計(jì)量的抽樣分布能夠?qū)颖窘y(tǒng)計(jì)量與總體參數(shù)的接近程度給出一個概率度量拟蜻。
由概率度量則引出了置信區(qū)間（Confidence Intervals）的概念枯饿。

置信區(qū)間實(shí)質(zhì)上是由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間。在某種程度上確信這個區(qū)間包含真正的總體參數(shù)（用一個具體的樣本所構(gòu)造的區(qū)間是一個特定的區(qū)間搔扁，我們無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總
體參數(shù)的真值，我們只能是希望這個區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個稿蹲，但它也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個）。置信區(qū)間表明了區(qū)間估計(jì)的精確性苛聘，區(qū)間越小越精確忠聚，區(qū)間越大越不精確。
置信水平——將構(gòu)造置信區(qū)間的步驟重復(fù)很多次两蟀，置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平（置信度）。置信水平表明了區(qū)間估計(jì)的可靠性垫竞，表示為 (1 - α) (α是總體參數(shù)未在區(qū)間內(nèi)的比例蛀序，區(qū)間估計(jì)不可靠的概率為α活烙，如α=0.05，表明結(jié)論犯錯誤的概率為0.05),常用的置信水平值有99%, 95%, 90%啸盏。
那么什么樣的置信區(qū)間是好的置信區(qū)間呢？也就是區(qū)間估計(jì)的評價標(biāo)準(zhǔn)是什么呢回懦？一般包括如下兩點(diǎn)：

置信度（置信系數(shù)）越大越好——概率越大越放心气笙，但不能一味求大怯晕。

隨機(jī)區(qū)間平均長度越短越好——估計(jì)精度越高。

但是在某些實(shí)際問題中谭期，我們可能更關(guān)心置信上限或置信下限(合金鋼強(qiáng)度，越大越好（望大特性）隧出，平均強(qiáng)度下限是個重要指標(biāo),藥物毒性，越小越好（望小特性）胀瞪，平均毒性上限是個重要指標(biāo))饲鄙。這就是單側(cè)置信限問題。
談完了這么多理論傍妒，接下來進(jìn)入實(shí)踐，如何做一個總體參數(shù)的區(qū)間估計(jì)颤练？
按照前一章驱负，我們還是討論三個重要的總體參數(shù)：均值、比例宇挫、方差。也是先談一個總體參數(shù)的區(qū)間估計(jì)器瘪。
首先規(guī)定好符號對應(yīng)統(tǒng)計(jì)量和參數(shù)翠储。
總體均值——μ援所，總體比例——p，總體方差——σ2;
樣本均值——x^-住拭，樣本比例——p^-，樣本方差——s2滔岳。
一個總體均值的置信區(qū)間估計(jì)方法總結(jié)起來就是：

正態(tài)分布挽牢，且總體方差σ已知，用Z值刘离；

正態(tài)分布，且總體方差σ未知，用t值；

非正態(tài)分布但是大樣本，無論總體方差σ是否已知灰追，用Z值努咐。

一個總體比例的置信區(qū)間估計(jì)方法如下：
假定條件np≥5, n(1-p)≥5, n≥30团滥。

一個正態(tài)總體方差的置信區(qū)間估計(jì)方法如下：

接下來談?wù)剝蓚€總體參數(shù)的置信區(qū)間的估計(jì)方法。
估計(jì)的一般包括均值差夯膀、比例差俺猿、方差比，主要包括兩種抽樣方法——獨(dú)立樣本和配對樣本。
兩個正態(tài)總體均值之差的置信區(qū)間（獨(dú)立樣本）：

兩個總體均值之差的區(qū)間估計(jì)(獨(dú)立大樣本)
兩個總體均值之差的估計(jì)：

兩個總體均值之差的區(qū)間估計(jì)(匹配樣本)

兩個總體比例之差區(qū)間的估計(jì)
假定條件——兩個總體服從二項(xiàng)分布宽闲，可以用正態(tài)分布來近似，兩個樣本是獨(dú)立的矫俺。

兩個正態(tài)總體方差比的置信區(qū)間
實(shí)際應(yīng)用如兩種不同方法生產(chǎn)的產(chǎn)品性能的穩(wěn)定性或兩種不同測量工具的精度，需要我們?nèi)ケ容^兩個總體方差。

兩個正態(tài)總體方差比的估計(jì)

總的來說流礁，參數(shù)估計(jì)的東西很多，根據(jù)具體研究情況神帅，我們可以根據(jù)自己需求選擇不同的參數(shù)估計(jì)。當(dāng)然據(jù)筆者所知找御，R語言在參數(shù)估計(jì)上，現(xiàn)成函數(shù)（指默認(rèn)的基礎(chǔ)包）比較少霎桅，一般需要自編函數(shù)或者有額外的包。這里先給出一個樣例函數(shù)（14章中會涉及到一部分滔驶，這里不詳述）。

conf.int=function(x,sigma,alpha) {
    mean=mean(x)
    n=length(x)
    z=qnorm(1-alpha/2,mean=0,sd=1,lower.tail = T)
    c(mean-sigma*z/sqrt(n),mean+sigma*z/sqrt(n))
    }

3.樣本容量的確定

前一章我們提到統(tǒng)計(jì)學(xué)聞名于世的規(guī)定瓜浸，樣本容量一般必須＞30。但是這種規(guī)定插佛，并不是萬能的。所以樣本容量的確定就成了一個問題氢拥。n過大費(fèi)用高、時間長嫩海、人力多；n過小誤差增大叁怪。
事實(shí)上n的確定依賴于多大置信度（可靠性），什么樣的精度（多寬的區(qū)間）奕谭。
所以樣本容量的確定需要根據(jù)置信區(qū)間的性質(zhì)來決定涣觉。
置信區(qū)間的性質(zhì)——以正態(tài)總體小樣本容量為例血柳。首先置信區(qū)間的寬度:

，

因此很容易發(fā)現(xiàn)影響區(qū)間寬度的因素包括了：

樣本容量：大樣本容量——小區(qū)間膝宁。

總體數(shù)據(jù)的離散程度：小方差——小區(qū)間。

置信水平：高置信度——大t值——大區(qū)間员淫。

邊際誤差（margin error)——置信區(qū)間上下限與點(diǎn)估計(jì)之間的距離。

給定邊際誤差E和置信水平1-α满粗，可以找到所需要的樣本容量愚争。

估計(jì)總體均值時樣本容量的確定(σ已知)：

樣本容量n與總體方差σ、邊際誤差E轰枝、置信水平1-α之間的關(guān)系為：

隨總體方差增大而增大。

隨邊際誤差減小而增大鞍陨。

隨1-α增大而增大，隨α減小而增大诚撵。

σ未知，如有近期樣本可用寿烟，用其樣本標(biāo)準(zhǔn)差代替σ，用t分布分位數(shù)代替標(biāo)準(zhǔn)正態(tài)分布分位數(shù)筛武，自由度為近期樣本容量-1。否則徘六，可以用一個至少比σ大的數(shù)來替代σ，抽一個樣本待锈，用s代替σ——Stein 兩步法。

估計(jì)總體比例時樣本容量的確定：
根據(jù)比例區(qū)間估計(jì)公式可得樣本容量n為

E的取值一般小于0.1，p 未知時阳惹，可用之前樣本比率估計(jì)，或保守的取最大值0.5。

估計(jì)兩個總體均值之差時樣本容量的確定：

估計(jì)兩個總體比例之差時樣本容量的確定：
設(shè)n₁和n₂為來自兩個總體的樣本快鱼，并假定n1=n₂。根據(jù)比例之差的區(qū)間估計(jì)公式可得兩個樣本的容量n為：

總的來說抹竹，樣本容量的確定也是根據(jù)具體需要以及顯著性水平計(jì)算得到的。

最后編輯于：2017.12.07 03:15:57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末钞楼，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子询件，更是在濱河造成了極大的恐慌，老刑警劉巖宛琅，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異嘿辟，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)红伦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門淀衣，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人舌缤，你說我怎么就攤上這事」欤” “怎么了？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵介牙，是天一觀的道長。經(jīng)常有香客問我，道長囚似，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任饶唤，我火速辦了婚禮，結(jié)果婚禮上募狂，老公的妹妹穿的比我還像新娘。我一直安慰自己祸穷，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布雷滚。她就那樣靜靜地躺著，像睡著了一般祈远。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上绊含，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音躬充，去河邊找鬼。笑死充甚，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的伴找。我是一名探鬼主播，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼技矮，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了衰倦？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤樊零，失蹤者是張志新（化名）和其女友劉穎孽文，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體芋哭，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡郁副，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了霞势。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡愕贡，死狀恐怖巷屿，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情嘱巾，我是刑警寧澤，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布旬昭，位于F島的核電站，受9級特大地震影響问拘，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜骤坐，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望纽绍。院中可真熱鬧，春花似錦拌夏、人聲如沸僧著。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽卷谈。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間朗兵，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工余掖，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人礁鲁。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像仅醇，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子析二，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評論 2贊 345

應(yīng)用統(tǒng)計(jì)學(xué)與R語言實(shí)現(xiàn)學(xué)習(xí)筆記（五）——參數(shù)估計(jì)

Chapter 5 Estimation

1.參數(shù)估計(jì)的一般問題

2.區(qū)間估計(jì) Confidence Intervals

3.樣本容量的確定

推薦閱讀更多精彩內(nèi)容