通常在研究中,我們會(huì)對(duì)已有的一些結(jié)論或者主張抱有合理的質(zhì)疑 reasonable doubt泽裳,此時(shí)該如何通過(guò)概率統(tǒng)計(jì)的方式定量的證實(shí)這個(gè)結(jié)論的正確與否桩蓉,就需要用到假設(shè)檢驗(yàn)。這個(gè)已有的結(jié)論或主張?jiān)诟怕实恼Z(yǔ)境中稱為“假設(shè)” Hypothesis抒蚜,對(duì)應(yīng)的對(duì)這個(gè)主張的求證的過(guò)程掘鄙,稱為“檢驗(yàn)” Test。假設(shè)檢驗(yàn)的基本過(guò)程是首先假設(shè)樣本某方面的參數(shù)是否符合某個(gè)假設(shè)而建立兩個(gè)互斥的判斷條件:
零假設(shè) Null hypothesis:H0
備選假設(shè) Alternative hypothesis:Ha
之后通過(guò)從總體中進(jìn)行抽樣嗡髓,對(duì)目標(biāo)參數(shù)進(jìn)行統(tǒng)計(jì)操漠,然后根據(jù)樣本統(tǒng)計(jì)數(shù)據(jù)來(lái)定量的推斷總體的參數(shù)符合哪一個(gè)假設(shè)。在實(shí)際應(yīng)用中饿这,將哪個(gè)假設(shè)設(shè)置為零假設(shè)以及備選假設(shè)不一定是一目了然的浊伙,需要結(jié)合研究的對(duì)象具體判斷。
將備選假設(shè)設(shè)置為研究假設(shè) Research hypothesis 的情形
在很多應(yīng)用中都涉及到要通過(guò)搜集證據(jù)來(lái)支持引入某些新方法或新功能會(huì)對(duì)現(xiàn)狀有所改善的研究假設(shè)长捧,此時(shí)可能將備選假設(shè)設(shè)置為研究者期望得到的結(jié)果嚣鄙。更具體地,假設(shè)工程師希望測(cè)試一個(gè)新開(kāi)發(fā)的引擎能否實(shí)現(xiàn)燃油效率超過(guò) 24 英里/加侖串结,那么此時(shí)可以將兩個(gè)假設(shè)設(shè)置為:
零假設(shè) Null hypothesis:H0: μ ≤ 24
備選假設(shè) Alternative hypothesis:Ha: μ > 24
如果通過(guò)抽樣得到的燃油效率的均值 ≤ 24哑子,那么此時(shí)就將無(wú)法拒絕零假設(shè)舅列,也即新的設(shè)計(jì)并未改善燃油效率。反之卧蜓,如果抽樣得到的燃油效率的均值 > 24帐要,那么此時(shí)可以拒絕零假設(shè)而選擇支持備選假設(shè)。
零假設(shè)作為需要被挑戰(zhàn)的假定
在很多其他的應(yīng)用中烦却,需要研究的對(duì)象是對(duì)總體的某個(gè)特征或參數(shù)的一個(gè)假定宠叼,此時(shí),一般將這個(gè)假定設(shè)置為零假設(shè)其爵。通過(guò)假設(shè)檢驗(yàn)需要實(shí)現(xiàn)的是對(duì)于這個(gè)假定進(jìn)行挑戰(zhàn)冒冬,進(jìn)而確認(rèn)是否能夠拒絕零假設(shè)而支持備選假設(shè)。更具體地摩渺,假設(shè)某個(gè)飲料的容量標(biāo)示為 300 ml简烤,此時(shí)假定其標(biāo)示是正確的,即:
零假設(shè) Null hypothesis:H0: μ ≥ 300
備選假設(shè) Alternative hypothesis:Ha: μ < 300
如果經(jīng)過(guò)抽樣得出的結(jié)論支持零假設(shè)摇幻,則證明無(wú)需采取任何行動(dòng)横侦。否則,消費(fèi)者可能會(huì)考慮起訴飲料公司绰姻。
而從公司經(jīng)營(yíng)的角度枉侧,如果飲料持續(xù)超標(biāo)準(zhǔn)容量罐裝,則會(huì)產(chǎn)生額外的生產(chǎn)成本狂芋,因此榨馁,如果公司需要針對(duì)罐裝容量做調(diào)查,則會(huì)希望罐裝的均值保持在 300ml左右小范圍波動(dòng)帜矾,即此時(shí)的假設(shè)設(shè)定為:
零假設(shè) Null hypothesis:H0 = 300
備選假設(shè) Alternative hypothesis:Ha ≠ 300
從這個(gè)例子中可以看出翼虫,即便針對(duì)同一個(gè)研究對(duì)象,不同的出發(fā)點(diǎn)也會(huì)導(dǎo)致不同的假設(shè)形式屡萤,因此針對(duì)具體情景的假設(shè)設(shè)定就顯得非常重要了珍剑。
零假設(shè)和備選假設(shè)的一般形式
更一般地,如果令 μ0 來(lái)代表事先主張的某個(gè)值死陆,根據(jù)不同的假設(shè)設(shè)定招拙,零假設(shè)和備選假設(shè)共有三種形式:
H0: μ ≥ μ0,HA: μ < μ0
H0: μ ≤ μ0措译,HA: μ > μ0
H0: μ = μ0迫像,HA: μ ≠ μ0
值得注意的是,三種形式下相等的部分都發(fā)生在零假設(shè)下瞳遍,且后續(xù)會(huì)知道前兩種形式稱為單尾檢驗(yàn) one-tailed test闻妓,最后一種為雙尾檢驗(yàn) two-tailed test。
I 類(lèi)錯(cuò)誤與 II 類(lèi)錯(cuò)誤
理想情況下無(wú)論支持或否定零假設(shè)都是基于統(tǒng)計(jì)事實(shí)的正確決策掠械,但實(shí)際情況是由于樣本選取的不同由缆,或者說(shuō)由于抽樣誤差的存在注祖,我們可能在零假設(shè)本身是正確的情況下選擇了拒絕零假設(shè),轉(zhuǎn)而支持備選假設(shè)均唉,當(dāng)然也存在零假設(shè)原本應(yīng)該被拒絕的情況下錯(cuò)誤的選擇了支持零假設(shè)是晨,這兩類(lèi)錯(cuò)誤分別稱為 Type I 錯(cuò)誤和 Type II 錯(cuò)誤。I 類(lèi)錯(cuò)誤意味著錯(cuò)誤的拒絕零假設(shè) Type I error of rejecting H0舔箭,II 類(lèi)錯(cuò)誤意味著錯(cuò)誤的接受零假設(shè) Type II error of accepting H0罩缴。
顯著水平 Level of significance
在假設(shè)檢驗(yàn)中由于我們知道檢驗(yàn)的結(jié)果可能是錯(cuò)誤的,為了確定一個(gè)可接受的在零假設(shè)正確的前提下根據(jù)抽樣統(tǒng)計(jì)值錯(cuò)誤的拒絕零假設(shè)的概率层扶,也即可接受的犯 I 類(lèi)錯(cuò)誤的概率箫章,將這個(gè)概率定義為顯著水平,并用 α 表示镜会,一般選擇 α = 0.05 或 α = 0.01檬寂。在零假設(shè)正確的情況下,如果拒絕零假設(shè)的代價(jià)非常高戳表,則應(yīng)該選擇小的 α 值桶至,反之則可以選擇較大的 α 值。對(duì)于僅控制 I 類(lèi)錯(cuò)誤的假設(shè)檢驗(yàn)稱為顯著性檢驗(yàn) significance tests匾旭,而由于此時(shí)我們?cè)诮邮?H0 時(shí)無(wú)法排除犯 II 類(lèi)錯(cuò)誤的可能镣屹,因此聰明的統(tǒng)計(jì)學(xué)家們?cè)陲@著性檢驗(yàn)中結(jié)論中只采用拒絕零假設(shè)和不拒絕零假設(shè)兩種。
The level of significance is the probability of making a Type I error by rejecting H0 when the null hypothesis is true as an equality.
總體標(biāo)準(zhǔn)差 σ 已知的總體均值的假設(shè)檢驗(yàn)
再一次地价涝,如果被研究對(duì)象的總體服從正態(tài)分布女蜈,那么以下假設(shè)檢驗(yàn)的討論計(jì)算結(jié)果都適用,而當(dāng)總體不服從正態(tài)分布時(shí)飒泻,如果樣本量足夠大的情況下也同樣適用鞭光。
單尾檢驗(yàn) One-tailed test
單尾檢驗(yàn)又分為以下兩種形式:左尾檢驗(yàn) Lower tail test 和右尾檢驗(yàn) Upper tail test吏廉,后續(xù)我們會(huì)看到泞遗,之所以稱左尾檢驗(yàn)是在這個(gè)檢驗(yàn)中,我們想要了解的是樣本統(tǒng)計(jì)值是否落在某個(gè)設(shè)定的臨界值/顯著水平的左側(cè)席覆。同理史辙,針對(duì)右尾檢驗(yàn),我們需要了解的是樣本統(tǒng)計(jì)值是否落在某個(gè)設(shè)定的臨界值/顯著水平的右側(cè)佩伤。
左尾檢驗(yàn) H0: μ ≥ μ0聊倔,HA: μ < μ0
右尾檢驗(yàn) H0: μ ≤ μ0,HA: μ > μ0
舉一個(gè)更加具體的例子生巡,假設(shè)一家公司的產(chǎn)品標(biāo)牌上注明的產(chǎn)品容量是 3 公斤耙蔑,消費(fèi)者權(quán)益保護(hù)機(jī)構(gòu)也認(rèn)同不可能每一罐產(chǎn)品的容量都絲毫不差的等于 3 公斤,但從保護(hù)消費(fèi)者權(quán)益的角度只要確認(rèn)總體的均值 μ ≥ 3 公斤即可孤荣,這里的 3 就是 μ0甸陌。此時(shí)為了了解產(chǎn)品實(shí)際的填充情況须揣,可以建立對(duì)“產(chǎn)品罐裝質(zhì)量大于等于 3 公斤”這個(gè)假設(shè)的一個(gè)檢驗(yàn)如下:
H0: μ ≥ 3
HA: μ < 3
在選定了假設(shè)檢驗(yàn)的零假設(shè)和備選假設(shè)后,可以通過(guò)對(duì)產(chǎn)品進(jìn)行抽樣钱豁,假設(shè)抽樣的產(chǎn)品數(shù)量為 36 罐耻卡,如果依據(jù)抽樣的數(shù)據(jù)計(jì)算得到的 x? 的值小于 3 公斤,由于樣本差異的存在牲尺,我們不能簡(jiǎn)單的直接拒絕零假設(shè)卵酪。調(diào)查者需要確認(rèn)的是:到底 x? 小于 3 公斤的程度達(dá)到多少時(shí),我們?cè)敢獬袚?dān)犯第一類(lèi)錯(cuò)誤的風(fēng)險(xiǎn)而確定的宣稱罐裝重量的差異應(yīng)該引起重視谤碳,或者進(jìn)一步的采取懲罰行動(dòng)溃卡。在這個(gè)決策當(dāng)中,影響這個(gè)差異大小評(píng)價(jià)的一個(gè)重要因素就是顯著水平的高低——也即調(diào)查者愿意承擔(dān)的犯第一類(lèi)錯(cuò)誤的風(fēng)險(xiǎn)估蹄。
本例中調(diào)查人員愿意承擔(dān) 1% 的犯第一類(lèi)錯(cuò)誤的風(fēng)險(xiǎn)來(lái)根據(jù)小于 3 公斤的樣本統(tǒng)計(jì)值宣布對(duì)于這家公司進(jìn)行處罰塑煎,也即 α = 0.01。
檢驗(yàn)統(tǒng)計(jì)量 Test statistic 及其選擇
繼續(xù)上面的例子臭蚁,在抽樣完成后最铁,如果假定由于對(duì)這家公司長(zhǎng)期的監(jiān)督中發(fā)現(xiàn)其總體的均方差 σ = 0.18,且灌裝質(zhì)量總體上服從正態(tài)分布垮兑,那么抽樣得到的 x? 的抽樣分布將服從均值為總體均值 μ冷尉,均方誤差為 σx? = σ / n1/2 的正態(tài)分布,在本例中 μ = μ0 =3系枪,σx? = 0.03雀哨。此時(shí),我們可以通過(guò)計(jì)算標(biāo)準(zhǔn)值 z = (x? - μ) / σx? 來(lái)了解在服從前面這個(gè)抽樣分布的前提下私爷,抽樣得到某個(gè) x? 取值的概率雾棺。在后續(xù)可以知道,由于統(tǒng)計(jì)在檢驗(yàn)中使用 z 這個(gè)統(tǒng)計(jì)值可以判定檢驗(yàn)的結(jié)果衬浑,在這里 z 被稱為檢驗(yàn)統(tǒng)計(jì)量捌浩。
在獲取了這個(gè)檢驗(yàn)統(tǒng)計(jì)量以后,我們可以通過(guò)以下兩種方法得到檢驗(yàn)的結(jié)論:
p-value 法
前面已經(jīng)講到工秩,對(duì)于總體均值的左尾檢驗(yàn)來(lái)說(shuō)尸饺,在零假設(shè)中期望總體的均值應(yīng)該是超過(guò)某個(gè)假設(shè)值的,但由于抽樣誤差的存在助币,我們可能會(huì)得到一個(gè)小于假設(shè)值的 x?浪听,此時(shí)必須要回答的一個(gè)問(wèn)題就是,當(dāng)這個(gè) x? 與假設(shè)值左偏多少時(shí)眉菱,我們?cè)敢獬袚?dān)一定的風(fēng)險(xiǎn)來(lái)拒絕零假設(shè)迹栓。
在已經(jīng)獲得 z 這個(gè)檢驗(yàn)統(tǒng)計(jì)量后,可以根據(jù)標(biāo)準(zhǔn)正態(tài)分布表查取取得這個(gè) z 值的概率俭缓,并將這個(gè)概率值稱為 p-value克伊。如果對(duì)應(yīng)的 p-value 很小叉抡,則意味著在服從前述假設(shè)前提的概率分布的樣本中取得這個(gè) x? 的概率很小,這意味著零假設(shè) H0 這個(gè)前提很可能是有問(wèn)題的答毫。此時(shí)如果我們已經(jīng)設(shè)定好了顯著水平 α褥民,即在零假設(shè)正確的前提下拒絕零假設(shè)的概率,并且發(fā)現(xiàn) p-value 小于這個(gè)顯著水平洗搂,那么我們可以更加確信的拒絕 H0消返。
回到這個(gè)具體的例子,假設(shè)我們得到的 x? = 2.92耘拇,則其 z = (2.92 - 3) / 0.03 = -2.67撵颊,對(duì)應(yīng)標(biāo)準(zhǔn)正態(tài)分布中取得這個(gè) z 值或比其更小的 z 值的概率為 0.0038,這意味這我們從一個(gè)均值為 3惫叛,均方誤差為 0.03 的正態(tài)分布中取得 x? = 2.92 或更小值的概率為 P(x ≤ 2.92) = 0.0038倡勇。
前面由于已經(jīng)知道管理者愿意承擔(dān)的第一類(lèi)錯(cuò)誤的風(fēng)險(xiǎn)值為 α = 0.01,此時(shí)由于 p-value = 0.0038 遠(yuǎn)小于這個(gè)值嘉涌,據(jù)此可以更加確定地拒絕零假設(shè)妻熊。
更一般地,在左尾檢驗(yàn)中仑最,如果在假設(shè)檢驗(yàn)中得到的 p-value 小于等于顯著水平 α扔役,我們就可以拒絕零假設(shè)。由于 p-value 來(lái)自于對(duì)總體的一個(gè)觀測(cè)警医,對(duì)于任意小于等于 α 的 p-value亿胸,我們都會(huì)拒絕零假設(shè),因此 p-value 也被稱為觀測(cè)到得顯著水平 observed level of significance预皇。
臨界值法 Critical value approach
臨界值法要求我們?yōu)闄z驗(yàn)統(tǒng)計(jì)量設(shè)定一個(gè)臨界值侈玄,對(duì)于左尾檢驗(yàn)來(lái)說(shuō),如果檢驗(yàn)統(tǒng)計(jì)量小于臨界值吟温,那么就可以拒絕零假設(shè)序仙。如果理解了顯著水平這個(gè)定義,由于其就是對(duì)應(yīng)標(biāo)準(zhǔn)正態(tài)分布中 z 取得某個(gè)值左側(cè)部分的概率值溯街,這個(gè)值也就是這里的臨界值诱桂,也即 α = P(z ≤ critical value) 洋丐。
在臨界值法進(jìn)行左尾檢驗(yàn)中呈昔,如果事先已經(jīng)設(shè)定了顯著水平,則可以根據(jù)標(biāo)準(zhǔn)正態(tài)分布表查取取得這個(gè)臨界值及其左側(cè)部分的概率為 α 時(shí)對(duì)應(yīng)的 zα 值友绝,然后用這個(gè)值和檢驗(yàn)統(tǒng)計(jì)得到的 zx? 進(jìn)行對(duì)比堤尾,如果 zx? ≤ zα 那么則可以拒絕零假設(shè)。
從上述計(jì)算過(guò)程可知迁客,p-value 法和臨界值法是基于同一個(gè)原理郭宝,也即在抽樣中辞槐,符合一定條件的抽樣分布服從正態(tài)分布,在此基礎(chǔ)上 α 就是樣本統(tǒng)計(jì)值取在某個(gè)臨界點(diǎn)及其左側(cè)區(qū)域內(nèi)的概率值粘室,此時(shí):
從樣本統(tǒng)計(jì)得到的 zx? 值可以通過(guò)計(jì)算概率來(lái)和 α 做對(duì)比
通過(guò)顯著水平 α 計(jì)算臨界值 zα 來(lái)和 zx? 做對(duì)比
上面的討論是針對(duì)左尾檢驗(yàn)來(lái)說(shuō)的榄檬,根據(jù) p-value 的定義,在實(shí)際應(yīng)用中有:
左尾檢驗(yàn):考察的是總體的均值是否大于等于某個(gè)假設(shè)衔统,p-value 的值等于取得某個(gè) zx? 值為界限的正態(tài)分布曲線左側(cè)部分的面積或者說(shuō)概率鹿榜,也即 p-value = P(z ≤ zx?),相應(yīng)的拒絕零假設(shè)的條件是 p-value ≤ α 或 zx? ≤ zα
右尾檢驗(yàn):考察的是總體的均值是否小于等于某個(gè)假設(shè)锦爵,p-value 的值等于取得某個(gè) zx? 值為界限的正態(tài)分布曲線右側(cè)部分的面積或者說(shuō)概率舱殿,也即 p-value = 1 - P(z ≤ zx?),相應(yīng)的拒絕零假設(shè)的條件是 p-value ≤ α 或 zx? ≥ zα
雙尾檢驗(yàn) Two-tailed test
很多時(shí)候我們需要被研究對(duì)象的某個(gè)特征固定在某個(gè)假設(shè)的取值附近险掀,既不能太大沪袭,也不能太小。此時(shí)如果采用抽樣的形式對(duì)于總體的特征參數(shù)進(jìn)行研究時(shí)樟氢,有的樣本的均值的取值會(huì)大于這個(gè)假設(shè)的取值冈绊,有的樣本的均值的取值會(huì)小于這個(gè)假設(shè)的取值,也即抽樣得到的均值的取值圍繞設(shè)定值左右波動(dòng)埠啃,那么如何有依據(jù)的評(píng)價(jià)這個(gè)波動(dòng)的大小進(jìn)而拒絕這個(gè)假設(shè)還是不拒絕這個(gè)假設(shè)就需要采用雙尾檢驗(yàn)焚碌。其零假設(shè)和備選假設(shè)的一般形式為:
- H0: μ = μ0,HA: μ ≠ μ0
再一次地霸妹,這個(gè)評(píng)價(jià)的依據(jù)就是選擇好的顯著性水平 α十电,只不過(guò)與單尾檢驗(yàn)最重要的區(qū)別在于,α 對(duì)應(yīng)的概率值被平均分配為正態(tài)分布的左右兩側(cè) zα/2 面積下的概率叹螟,其目的是考察抽樣統(tǒng)計(jì)值圍繞事先設(shè)定的假設(shè)值的左右偏離程度鹃骂。相應(yīng)的 p-value 也是取得檢驗(yàn)統(tǒng)計(jì)值及其相反數(shù)的正態(tài)分布兩側(cè)的概率,并且當(dāng) P(z ≥ zx?) + P(z ≤ -zx?) ≤ α 時(shí)拒絕零假設(shè)罢绽,或者當(dāng)采用臨界值法時(shí)樣本統(tǒng)計(jì)值 z ≥ zα/2 或 z ≤ -zα/2 可以認(rèn)為在服從前述假設(shè)分布的情況下取得這個(gè) z 值是小概率事件畏线,也可以拒絕零假設(shè)。
至此良价,對(duì)于總體均方差已知的情況下對(duì)于總體均值的假設(shè)檢驗(yàn)的討論就結(jié)束了寝殴,總結(jié)前面的內(nèi)容如下:
假設(shè)檢驗(yàn)和區(qū)間估計(jì)的關(guān)系
從假設(shè)檢驗(yàn)和區(qū)間估計(jì)的計(jì)算過(guò)程中我們可以感覺(jué)到二者之間存在著某些聯(lián)系:實(shí)際上在區(qū)間估計(jì)的定義中之所以置信水平的定義為 1 - α 就是因?yàn)榧僭O(shè)我們?cè)陔p尾檢驗(yàn)中設(shè)定了顯著水平為 α = 0.05,則意味著圍繞假設(shè)值定義了一個(gè) 95% 置信水平的置信區(qū)間明垢,如果我們通過(guò)抽樣獲得的樣本統(tǒng)計(jì)值落在這個(gè)置信區(qū)間內(nèi)蚣常,則我們可以不拒絕零假設(shè),否則就可以拒絕零假設(shè)痊银。也即如果我們以樣本統(tǒng)計(jì)值構(gòu)建一個(gè) 1 - α 置信水平的置信區(qū)間 x? ± zα/2σx?抵蚊,如果 μ0 的取值在這個(gè)區(qū)間內(nèi),則不拒絕零假設(shè),否則拒絕零假設(shè)贞绳。通過(guò)置信區(qū)間的構(gòu)造來(lái)實(shí)行雙尾檢驗(yàn)的方法如下:
參考閱讀
比我這個(gè)筆記講的更加清楚透徹的關(guān)于假設(shè)檢驗(yàn)和 p-value 請(qǐng)查閱微信公眾號(hào)“馬同學(xué)高等數(shù)學(xué)”谷醉,這可能是國(guó)內(nèi)最好的關(guān)于數(shù)學(xué)的公眾號(hào),并且絕對(duì)原創(chuàng)冈闭。我承認(rèn)這是一個(gè)廣告俱尼,但是是出于個(gè)人喜好的無(wú)利益支持。
免責(zé)聲明
我寫(xiě)這個(gè)筆記是為了系統(tǒng)的復(fù)習(xí)概率論中的一些概念萎攒,閱讀的是 Statistics for Business and Economics, 12th Edition 英文原版号显,這是一本非常經(jīng)典的參考書(shū),毫無(wú)保留的滿分推薦躺酒。盡管書(shū)名暗示了是在商業(yè)和經(jīng)濟(jì)學(xué)中的統(tǒng)計(jì)學(xué)押蚤,但根本的統(tǒng)計(jì)學(xué)知識(shí)是不變量,并且和很多優(yōu)秀的原版書(shū)一樣羹应,作者時(shí)刻注意用實(shí)例來(lái)講解統(tǒng)計(jì)學(xué)概念揽碘,基本上每一個(gè)新的概念的定義都建立在日常生活的實(shí)例的基礎(chǔ)上,在此基礎(chǔ)上還保留了精美的排版和精心設(shè)計(jì)的插圖园匹,十分便于理解雳刺。
筆記最重要的一個(gè)目的就是記錄者復(fù)習(xí)的重要資料,如果能對(duì)別人也有所幫助那就是額外的獎(jiǎng)賞了裸违,所以為了復(fù)習(xí)方便我擅自截取了書(shū)中的很多插圖掖桦,這些插圖僅限于個(gè)人學(xué)習(xí)使用。其他人請(qǐng)勿直接轉(zhuǎn)載供汛,如轉(zhuǎn)載請(qǐng)刪除插圖并附帶這則免責(zé)聲明枪汪,否則由此而產(chǎn)生的版權(quán)問(wèn)題,請(qǐng)轉(zhuǎn)載者自行承擔(dān)怔昨。