1、 t 檢驗(yàn)的思路:
啤酒,主要原料是大麥处铛,啤酒廠肯定是希望盡力提高畝產(chǎn)。比如拐揭,健力士公司有下面兩塊麥田:
左邊的麥田采用傳統(tǒng)A工藝進(jìn)行種植撤蟆,平均每株大麥可以結(jié)100粒穗子。而右邊的麥田采用改進(jìn)過(guò)的B工藝種植堂污,健力士公司想知道“B工藝是否提高了產(chǎn)量”家肯。為了節(jié)約成本、減小損耗盟猖,摳門(mén)的健力士公司從B工藝的麥田中采樣了5株大麥讨衣,樣本均值為120粒穗子。然后把難題拋給了戈斯特式镐。似乎直觀看來(lái)產(chǎn)量提高了反镇,畢竟均值增加了20%,可是戈斯特想得更多一些娘汞。
2愿险、戈斯特的分析:
戈斯特提出一個(gè)假設(shè)檢驗(yàn):
假設(shè):B工藝沒(méi)有提高產(chǎn)量,即AB下的麥穗都是同一個(gè)分布
檢驗(yàn):看看在此假設(shè)下价说,
發(fā)生的概率高不高
已知的數(shù)據(jù)是辆亏,A工藝下的單株麥穗的個(gè)數(shù)服從,標(biāo)準(zhǔn)差
未知的正態(tài)分布:
而B(niǎo)工藝下的麥田的樣本均值 ,樣本數(shù)為5株,早在學(xué)習(xí)概率論知識(shí)時(shí)我們就知道鳖目,不同的標(biāo)準(zhǔn)差對(duì)應(yīng)的正態(tài)分布的圖像是不同的:
標(biāo)準(zhǔn)差越大扮叨,說(shuō)明數(shù)據(jù)越分散,那么曲線的跨度就越大领迈,曲線顯得更加‘矮胖’彻磁;反之標(biāo)準(zhǔn)差越小碍沐,說(shuō)明數(shù)據(jù)越集中,跨度越小衷蜓,曲線顯得更加‘高瘦’累提。
X如果服從正態(tài)分布,這里
,跨度不大,采樣5個(gè)點(diǎn)使其
磁浇,圖像如下:
由此可見(jiàn)斋陪,的概率非常低,即AB下的麥穗是同一個(gè)分布的可能性不大置吓,我們有很大把握可以認(rèn)為B工藝真正提高了產(chǎn)量无虚。
而如果X服從的是跨度更大的正態(tài)分布,采樣五個(gè)點(diǎn)使其的圖像如下(為了演示衍锚,正態(tài)分布的參數(shù)選的不是很?chē)?yán)謹(jǐn)):
這樣的正態(tài)分布下友题,的概率并不低,即AB下的麥穗還是可能為同一個(gè)分布的戴质,我們沒(méi)十足的把握認(rèn)為B工藝提高了產(chǎn)量度宦。因此,看起來(lái)不能單純依靠
告匠,或許除以樣本標(biāo)準(zhǔn)差 s可以消除跨度的影響:
因?yàn)锳工藝的 我們不清楚戈抄,但是我們假設(shè)AB同分布,所以直接使用了樣本標(biāo)準(zhǔn)差 s凫海。當(dāng)然呛凶,樣本數(shù) n 也會(huì)影響結(jié)果男娄。比如說(shuō)行贪,在 n =1000 下,得到
模闲,那么根據(jù)大數(shù)定理建瘫,我們不用算了,基本上可以認(rèn)為“B工藝提高了產(chǎn)量”尸折。
所以啰脚,戈斯特認(rèn)為應(yīng)該綜合考慮樣本均值、樣本方差 s 和樣本數(shù) n 实夹,給出了一個(gè)統(tǒng)計(jì)量t值:
該統(tǒng)計(jì)量越大說(shuō)明AB工藝導(dǎo)致的差別越大橄浓,越有可能說(shuō)明“B工藝提高了產(chǎn)量”。
3亮航、t分布
對(duì)于t值:荸实,對(duì)應(yīng)的概率密度函數(shù),也就是t分布為:
其中缴淋,也叫做自由度准给。而
為伽馬函數(shù)泄朴。
接近于正態(tài)分布 N(0,1)(灰色曲線表示正態(tài)分布N(0,1),下面是
的t分布
而t值露氮,實(shí)際上對(duì)應(yīng)的就是橫坐標(biāo)的值祖灰,比如說(shuō)t值等于4:
t=4之后的曲線下面積其實(shí)就是P值:
所以,我們知道t值之后畔规,就可以根據(jù) 以及要求的P值局扶,查出當(dāng)前的t值是否會(huì)拒絕我們的假設(shè)。
舉個(gè)例子油讯,比如本文中的AB工藝下的數(shù)據(jù)為:
計(jì)算出來(lái):
服從的t分布:
如果我們要求 5% 的顯著水平的話(下兩篇講解P值和置信區(qū)間)详民,那么就可以拒絕“B工藝沒(méi)有提高產(chǎn)量”這個(gè)假設(shè)了,也就是說(shuō)陌兑,B工藝使得產(chǎn)量提高了沈跨。
轉(zhuǎn)載:https://blog.csdn.net/Tonywu2018/article/details/83897806