【數(shù)學(xué)建模算法】(30)數(shù)據(jù)的統(tǒng)計(jì)描述和分析(下)

2.參數(shù)估計(jì)

利用樣本對總體進(jìn)行統(tǒng)計(jì)推斷的一類問題是參數(shù)估計(jì)苫昌,即假定已知總體的分布,通常是X \sim N\left(\mu, \sigma^{2}\right)躏嚎,估計(jì)有關(guān)的參數(shù),如\mu, \sigma^{2}菩貌。參數(shù)估計(jì)分點(diǎn)估計(jì)和區(qū)間估計(jì)兩種卢佣。

2.1.點(diǎn)估計(jì)

點(diǎn)估計(jì)是用樣本統(tǒng)計(jì)量確定總體參數(shù)的一個數(shù)值。評價估計(jì)優(yōu)劣的標(biāo)準(zhǔn)有無偏性箭阶、最小方差性虚茶、有效性等,估計(jì)的方法有矩法仇参、極大似然法等嘹叫。

最常用的是對總體均值\mu和方差\sigma^{2}(或標(biāo)準(zhǔn)差\sigma)做點(diǎn)估計(jì)。如果拋開一切數(shù)學(xué)觀點(diǎn)冈敛,從純直接的角度看待笑,一組自然、合理的點(diǎn)估計(jì)顯然是(在字母上加\hat{ }表示它的估計(jì)值)

\hat{\mu}=\overline{x}, \hat{\sigma}^{2}=s^{2}, \hat{\sigma}=s

2.2.區(qū)間估計(jì)

點(diǎn)估計(jì)雖然給出了待估參數(shù)的一個數(shù)值抓谴,卻沒有告訴我們這個估計(jì)值的精度和可信程度暮蹂。一般地寞缝,總體的待估參數(shù)記作\theta(如\mu, \sigma^{2}),由樣本算出的\theta 的估計(jì)量記作\hat{\theta}仰泻,人們常希望給出一個區(qū)間\left[\hat{\theta}_{1}, \hat{\theta}_{2}\right]荆陆,使\theta 以一定的概率落在此區(qū)間內(nèi)。若有:
P\left\{\hat{\theta}_{1}<\theta<\hat{\theta}_{2}\right\}=1-\alpha, 0<\alpha<1
\left[\hat{\theta}_{1}, \hat{\theta}_{2}\right]稱為\theta的置信區(qū)間集侯,\hat{\theta}_{1}, \hat{\theta}_{2}分別稱為置信下限和置信上限被啼,1-\alpha稱為置信概率或置信水平,\alpha 稱為顯著性水平棠枉。

給出的置信水平為1-\alpha的置信區(qū)間\left[\hat{\theta}_{1}, \hat{\theta}_{2}\right]浓体,稱為\theta 的區(qū)間估計(jì)。置信區(qū)間越小辈讶,估計(jì)的精度越高命浴;置信水平越大,估計(jì)的可信程度越高贱除。但是這兩個指標(biāo)顯然是矛盾的生闲,通常是在一定的置信水平下使置信區(qū)間盡量小。通俗地說月幌,區(qū)間估計(jì)給出了點(diǎn)估計(jì)的誤差范圍碍讯。

2.3.參數(shù)估計(jì)的Matlab實(shí)現(xiàn)

Matlab 統(tǒng)計(jì)工具箱中,有專門計(jì)算總體均值扯躺、標(biāo)準(zhǔn)差的點(diǎn)估計(jì)和區(qū)間估計(jì)的函數(shù)捉兴。對于正態(tài)總體,命令是:

[mu,sigma,muci,sigmaci]=normfit(x,alpha)

其中 x 為樣本(數(shù)組或矩陣)缅帘,alpha 為顯著性水平\alpha (alpha 缺省時設(shè)定為 0.05)轴术,返回總體均值\mu和標(biāo)準(zhǔn)差\sigma 的點(diǎn)估計(jì) mu 和 sigma难衰,及總體均值\mu和標(biāo)準(zhǔn)差\sigma 的區(qū)間估計(jì)muci 和 sigmaci钦无。當(dāng) x 為矩陣時,x 的每一列作為一個樣本盖袭。

Matlab 統(tǒng)計(jì)工具箱中還提供了一些具有特定分布總體的區(qū)間估計(jì)的命令失暂,如expfit,poissfit鳄虱,gamfit弟塞,你可以從這些字頭猜出它們用于哪個分布,具體用法參見幫助系統(tǒng)拙已。

3.假設(shè)檢驗(yàn)

統(tǒng)計(jì)推斷的另一類重要問題是假設(shè)檢驗(yàn)問題决记。在總體的分布函數(shù)完全未知或只知其形式但不知其參數(shù)的情況,為了推斷總體的某些性質(zhì)倍踪,提出某些關(guān)于總體的假設(shè)系宫。例如索昂,提出總體服從泊松分布的假設(shè),又如對于正態(tài)總體提出數(shù)學(xué)期望等于\mu_{0}的假設(shè)等扩借。假設(shè)檢驗(yàn)就是根據(jù)樣本對所提出的假設(shè)做出判斷:是接受還是拒絕椒惨。這就是所謂的假設(shè)檢驗(yàn)問題。

3.1.單個總體N\left(\mu, \sigma^{2}\right)均值\mu的檢驗(yàn)

假設(shè)檢驗(yàn)的種類:
雙邊檢驗(yàn):H_{0} : \mu=\mu_{0}, \quad H_{1} : \mu \neq \mu_{0}
右邊檢驗(yàn):H_{0} : \mu \leq \mu_{0}, \quad H_{1} : \mu>\mu_{0}
左邊檢驗(yàn):H_{0} : \mu \geq \mu_{0}, \quad H_{1} : \mu<\mu_{0}

3.1.1.\sigma^{2}已知潮罪,關(guān)于\mu 的檢驗(yàn)( Z 檢驗(yàn))

在 Matlab 中 Z 檢驗(yàn)法由函數(shù) ztest 來實(shí)現(xiàn)康谆,命令為:

[h,p,ci]=ztest(x,mu,sigma,alpha,tail)

其中輸入?yún)?shù) x 是樣本,mu 是H_{0}中的\mu_{0}嫉到,sigma是總體標(biāo)準(zhǔn)差sigma沃暗, alpha 是顯著性水平\alpha (alpha 缺省時設(shè)定為 0.05),tail 是對備選假設(shè)H_{1}的選擇:H_{1}\mu \neq \mu_{0}時用tail=0(可缺屎味瘛)描睦;H_{1}\mu>\mu_{0}時用tail=1;H_{1}\mu<\mu_{0}時用tail=-1导而。輸出參數(shù)h=0表示接受H_{0}忱叭,h=1表示拒絕H_{0},p表示在假設(shè)H_{0}下樣本均值出現(xiàn)的概率今艺,p越小H_{0}越值得懷疑韵丑,ci是\mu_{0}的置信區(qū)間。

例3 某車間用一臺包裝機(jī)包裝糖果虚缎。包得的袋裝糖重是一個隨機(jī)變量撵彻,它服從正態(tài)分布。當(dāng)機(jī)器正常時实牡,其均值為 0.5 公斤陌僵,標(biāo)準(zhǔn)差為 0.015 公斤。某日開工后為檢驗(yàn)包裝機(jī)是否正常创坞,隨機(jī)地抽取它所包裝的糖 9 袋碗短,稱得凈重為(公斤):
0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512
問機(jī)器是否正常?

解:總體\sigma已知题涨,x \sim N\left(\mu, 0.015^{2}\right)偎谁,\mu未知。于是提出假設(shè)H_{0} : \mu=\mu_{0}=0.5H_{1} : \mu \neq 0.5
Matlab實(shí)現(xiàn)如下:

x=[0.497 0.506 0.518 0.524 0.498...
0.511 0.520 0.515 0.512];
[h,p,ci]=ztest(x,0.5,0.015)

求得h=1, \quad p=0.0248纲堵,說明在 0.05 的水平下巡雨,可拒絕原假設(shè),即認(rèn)為這天包裝機(jī)工作不正常席函。

3.1.2.\sigma^{2}未知铐望,關(guān)于\mu 的檢驗(yàn)(t檢驗(yàn))

在 Matlab 中 t 檢驗(yàn)法由函數(shù) ttest 來實(shí)現(xiàn),命令為:

[h,p,ci]=ttest(x,mu,alpha,tail)

例4 某種電子元件的壽命x(以小時計(jì))服從正態(tài)分布,\mu, \sigma^{2}均未知.現(xiàn)得 16 只元件的壽命如下:
159 280 101 212 224 379 179 264
222 362 168 250 149 260 485 170
問是否有理由認(rèn)為元件的平均壽命大于225(小時)?

解:按題意需檢驗(yàn)
H_{0} : \mu \leq \mu_{0}=225, \quad H_{1} : \mu>225
\alpha=0.05正蛙。Matlab 實(shí)現(xiàn)如下:

x=[159 280 101 212 224 379 179 264 ...
222 362 168 250 149 260 485 170];
[h,p,ci]=ttest(x,225,0.05,1)

求得\mathrm{h}=0, \quad \mathrm{p}=0.2570炕舵,說明在顯著水平為 0.05 的情況下,不能拒絕原假設(shè)跟畅,認(rèn)為元件的平均壽命不大于 225 小時咽筋。

3.2.兩個正態(tài)總體均值差的檢驗(yàn)(t檢驗(yàn))

還可以用 t 檢驗(yàn)法檢驗(yàn)具有相同方差的 2 個正態(tài)總體均值差的假設(shè)。在 Matlab 中由函數(shù) ttest2 實(shí)現(xiàn)徊件,命令為:

[h,p,ci]=ttest2(x,y,alpha,tail)

與上面的 ttest 相比奸攻,不同處只在于輸入的是兩個樣本 x,y(長度不一定相同),而不是一個樣本和它的總體均值虱痕;tail 的用法與 ttest 相似睹耐,可參看幫助系統(tǒng)。

例5 在平爐上進(jìn)行一項(xiàng)試驗(yàn)以確定改變操作方法的建議是否會增加鋼的得率,試驗(yàn)是在同一平爐上進(jìn)行的部翘。每煉一爐鋼時除操作方法外,其它條件都可能做到相同硝训。先用標(biāo)準(zhǔn)方法煉一爐,然后用建議的新方法煉一爐,以后交換進(jìn)行,各煉了 10 爐,其得率分別為:

標(biāo)準(zhǔn)方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3
新方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1

設(shè)這兩個樣本相互獨(dú)立且分別來自正態(tài)總體N\left(\mu_{1}, \sigma^{2}\right)N\left(\mu_{2}, \sigma^{2}\right)\mu_{1}, \mu_{2}, \sigma^{2}均未知新思,問建議的新方法能否提高得率?(取\alpha=0.05窖梁。)
(1)需要假設(shè)檢驗(yàn)
H_{0} : \mu_{1}-\mu_{2} \geq 0, \quad H_{1} : \mu_{1}-\mu_{2}<0
(2)Matlab實(shí)現(xiàn)

x=[78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3];
y=[79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1];
[h,p,ci]=ttest2(x,y,0.05,-1)

求得:
h=1, p=2.2126 \times 10^{-4}。表明在\alpha=0.05的顯著水平下夹囚,可以拒絕原假設(shè)纵刘,即認(rèn)為建議的新操作方法較原方法優(yōu)。
注:ttest2 既可以做方差相等的荸哟,又可以做方差不相等的假設(shè)檢驗(yàn)假哎,使用格式為:

h = ttest2(x,y,alpha,tail, 'unequal' )

3.3.分布擬合檢驗(yàn)——\chi^{2}檢驗(yàn)法

假設(shè)為:

H_{0}:總體 x 的分布函數(shù)為F(x)
H_{1}:總體x的分布函數(shù)不是F(x)鞍历。

在用下述\chi^{2}檢驗(yàn)法檢驗(yàn)假設(shè)H_{0}時舵抹,若在假設(shè)H_{0}F(x)的形式已知,但其參數(shù)值未知劣砍,這時需要先用極大似然估計(jì)法估計(jì)參數(shù)惧蛹,然后作檢驗(yàn)。
\chi^{2}檢驗(yàn)法的基本思想如下:將隨機(jī)試驗(yàn)可能結(jié)果的全體\Omega分為k個互不相容的事件:
A_{1}, A_{2}, A_{3}, \ldots, A_{k} \quad\left(\sum_{i=1}^{k} A_{k}=\Omega, A_{i} A_{j}=\Phi, i \neq j, i, j=1,2, \cdots, k\right)秆剪。于是在假設(shè)H_{0}下赊淑,我們可以計(jì)算p_{i}=P\left(A_{i}\right)(或\hat{p}_{i}=\hat{P}\left(A_{i}\right)),i=1,2, \cdots, k仅讽。在n次實(shí)驗(yàn)中,事件A_{i}出現(xiàn)的頻率f_{i} / np_{i}\left(\hat{p}_{i}\right)往往有差異,但一般來說,若H_{0}為真,且試驗(yàn)的次數(shù)又甚多時,則這種差異不應(yīng)該很大钾挟〗嗔椋基于這種想法,皮爾遜使用:
\chi^{2}=\sum_{i=1}^{k} \frac{\left(f_{i}-n p_{i}\right)^{2}}{n p_{i}}\chi^{2}=\sum_{i=1}^{k} \frac{\left(f_{i}-n \hat{p}_{i}\right)^{2}}{n \hat{p}_{i}}
作為假設(shè)檢驗(yàn)H_{0}的統(tǒng)計(jì)量。并證明了以下定理:

定理:若n充分大徽千,則當(dāng)H_{0}為真時(不論H_{0}中的分布屬什么分布),上述統(tǒng)計(jì)量總是服從于自由度為k-r-1\chi^{2}分布苫费,其中r是被估計(jì)的參數(shù)的個數(shù)。

于是双抽,若在假設(shè)H_{0}下算得\chi^{2}統(tǒng)計(jì)量有:
\chi^{2} \geq \chi_{a}^{2}(k-r-1)
則在顯著性水平\alpha下拒絕H_{0}百框,否則就接受。

注意:使用\chi^{2}檢驗(yàn)法時牍汹,要求樣本容量n不小于50铐维,以及每個n p_{i}都不小于 5,而且n p_{i}最好是在 5 以上慎菲。否則應(yīng)適當(dāng)?shù)睾喜?img class="math-inline" src="https://math.jianshu.com/math?formula=A_%7Bi%7D" alt="A_{i}" mathimg="1">嫁蛇,以滿足這個要求。

例6 下面列出了84 個伊特拉斯坎人男子的頭顱的最大寬度(mm)露该,試檢驗(yàn)這些數(shù)據(jù)是否來自正態(tài)總體(取\alpha=0.1)睬棚。
141 148 132 138 154 142 150 146 155 158
150 140 147 148 144 150 149 145 149 158
143 141 144 144 126 140 144 142 141 140
145 135 147 146 141 136 140 146 142 137
148 154 137 139 143 140 131 143 141 149
148 135 148 152 143 144 141 143 147 146
150 132 142 142 143 153 149 146 149 138
142 149 142 137 134 144 146 147 140 142
140 137 152 145

編寫Matlab程序:

clc
x=[141 148 132 138 154 142 150 146 155 158 ...
150 140 147 148 144 150 149 145 149 158 ...
143 141 144 144 126 140 144 142 141 140 ...
145 135 147 146 141 136 140 146 142 137 ...
148 154 137 139 143 140 131 143 141 149 ...
148 135 148 152 143 144 141 143 147 146 ...
150 132 142 142 143 153 149 146 149 138 ...
142 149 142 137 134 144 146 147 140 142 ...
140 137 152 145];
mm=minmax(x) %求數(shù)據(jù)中的最小數(shù)和最大數(shù)
hist(x,8) %畫直方圖
fi=[length(find(x<135)),...
    length(find(x>=135&x<138)),...
    length(find(x>=138&x<142)),...
    length(find(x>=142&x<146)),...
    length(find(x>=146&x<150)),...
    length(find(x>=150&x<154)),...
    length(find(x>=154))] %各區(qū)間上出現(xiàn)的頻數(shù)
mu=mean(x),sigma=std(x) %均值和標(biāo)準(zhǔn)差
fendian=[135,138,142,146,150,154] %區(qū)間的分點(diǎn)
p0=normcdf(fendian,mu,sigma) %分點(diǎn)處分布函數(shù)的值
p1=diff(p0) %中間各區(qū)間的概率
p=[p0(1),p1,1-p0(6)] %所有區(qū)間的概率
chi=(fi-84*p).^2./(84*p)
chisum=sum(chi) %皮爾遜統(tǒng)計(jì)量的值
x_a=chi2inv(0.9,4) %chi2分布的0.9分位數(shù)

得皮爾遜統(tǒng)計(jì)量chisum=2.2654,\chi_{0.1}^{2}(7-2-1)=\chi_{0.1}^{2}(4)=7.7794故在水平0.1下接受H_{0}解幼,抑党,即認(rèn)為數(shù)據(jù)來自正態(tài)分布總體。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末撵摆,一起剝皮案震驚了整個濱河市新荤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌台汇,老刑警劉巖苛骨,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異苟呐,居然都是意外死亡痒芝,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門牵素,熙熙樓的掌柜王于貴愁眉苦臉地迎上來严衬,“玉大人,你說我怎么就攤上這事笆呆∏肓眨” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵赠幕,是天一觀的道長俄精。 經(jīng)常有香客問我,道長榕堰,這世上最難降的妖魔是什么竖慧? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任嫌套,我火速辦了婚禮,結(jié)果婚禮上圾旨,老公的妹妹穿的比我還像新娘踱讨。我一直安慰自己,他們只是感情好砍的,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布痹筛。 她就那樣靜靜地躺著,像睡著了一般廓鞠。 火紅的嫁衣襯著肌膚如雪帚稠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天诫惭,我揣著相機(jī)與錄音翁锡,去河邊找鬼。 笑死夕土,一個胖子當(dāng)著我的面吹牛馆衔,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播怨绣,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼角溃,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了篮撑?” 一聲冷哼從身側(cè)響起减细,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎赢笨,沒想到半個月后未蝌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡茧妒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年萧吠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片桐筏。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡纸型,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出梅忌,到底是詐尸還是另有隱情狰腌,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布牧氮,位于F島的核電站琼腔,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蹋笼。R本人自食惡果不足惜展姐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一躁垛、第九天 我趴在偏房一處隱蔽的房頂上張望剖毯。 院中可真熱鬧圾笨,春花似錦、人聲如沸逊谋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽胶滋。三九已至板鬓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間究恤,已是汗流浹背俭令。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留部宿,地道東北人抄腔。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像理张,于是被迫代替她去往敵國和親赫蛇。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容