假設(shè)檢驗(yàn)的一般步驟
- 將問(wèn)題轉(zhuǎn)化為兩個(gè)不重疊且對(duì)立的假設(shè)
- 收集數(shù)據(jù)
- 判斷哪個(gè)假設(shè)可能是真的
設(shè)置零假設(shè)和備擇假設(shè)的一些規(guī)則
- H0是我們收集數(shù)據(jù)之間為真的事情。
- H0通常表示沒(méi)有影響或?qū)山M影響相同鳍置。
- H0和H1是競(jìng)爭(zhēng)性蕊玷、非重疊的假設(shè)束铭。
- H1備擇假設(shè)是可以證明為真的事情:如果我們可以證明為真旦签,則具有意義依痊。
- H0包含一個(gè)等號(hào):=素跺、≤ 或 ≥鸟整。
- H1包含非空值:≠引镊、>或< 。
例子
- 例如表述 "證明有罪之前是無(wú)辜的" 表明下列假設(shè)為真:
H0 : 無(wú)辜的
H1 : 有罪的
我們可以認(rèn)為在收集數(shù)據(jù)之前篮条,"無(wú)辜的" 為真弟头。然后備擇假設(shè)
必須是競(jìng)爭(zhēng)性、非重疊的假設(shè)涉茧。因此備擇假設(shè)
為一個(gè)人有罪赴恨。 - 我們想測(cè)試新頁(yè)面是否優(yōu)于已有頁(yè)面:
我們?cè)O(shè)置備擇假設(shè)。兩個(gè)指標(biāo)需要遵守伴栓,一是零假設(shè)
應(yīng)當(dāng)包含等于號(hào)伦连,二是備擇假設(shè)
應(yīng)當(dāng)包含我們希望為真的陳述。 因此钳垮,它應(yīng)為以下形式:
: μ1 ≤ μ2
: μ1 > μ2
這里惑淳,μ1代表新頁(yè)面返回的總體平均數(shù)。同樣饺窿,μ2代表原來(lái)頁(yè)面返回的總體平均數(shù)歧焦。
根據(jù)你感興趣的問(wèn)題,你可以改變需要匹配的零假設(shè)和備擇假設(shè)肚医。
兩類錯(cuò)誤
I 類錯(cuò)誤
I 類錯(cuò)誤 包含以下特征:
- 設(shè)置
零假設(shè)
和備擇假設(shè)
绢馍,I 類錯(cuò)誤是更嚴(yán)重的錯(cuò)誤。 - 它們由α 符號(hào)表示肠套。
- I 類錯(cuò)誤的定義是: H0 為真時(shí)舰涌,認(rèn)為
備擇假設(shè)
H1 為真。 - I 類錯(cuò)誤通常稱為
誤報(bào)
你稚。
II 類錯(cuò)誤
- 它們由β 符號(hào)表示瓷耙。
- II 類錯(cuò)誤的定義是:H1 為真時(shí)朱躺,認(rèn)為
零假設(shè)
H0 為真。 - II 類錯(cuò)誤通常稱為
漏報(bào)
哺徊。
在一些極端情況下室琢,我們通常選擇一個(gè)假設(shè) (如一直選擇零假設(shè)
),確保某個(gè)錯(cuò)誤不再出現(xiàn) (假設(shè)我們一直選擇零假設(shè)
落追,不再出現(xiàn) I 類錯(cuò)誤)盈滴。不過(guò)苍柏,一般來(lái)說(shuō)展父,一些單一的數(shù)據(jù)會(huì)降低某個(gè)錯(cuò)誤類型的可能性,增加另一種錯(cuò)誤類型的出現(xiàn)幾率睬辐,兩者是存在聯(lián)系的疗垛。
降落傘例子
這個(gè)例子可以讓你了解假設(shè)檢驗(yàn)中犯錯(cuò)的極端情況症汹。出現(xiàn) I 類錯(cuò)誤,會(huì)有一個(gè)人死去贷腕。出現(xiàn) II 錯(cuò)誤背镇,你會(huì)減少 30 美元。
在接下來(lái)課程中你構(gòu)建的假設(shè)檢驗(yàn)泽裳,你能夠選擇 I 類錯(cuò)誤閾值瞒斩,并且保證 I 類錯(cuò)誤率符合要求后,你的假設(shè)檢驗(yàn)可以最小化 II 類錯(cuò)誤涮总。
假設(shè)檢驗(yàn)的一般類型
你通常針對(duì)總體參數(shù)進(jìn)行假設(shè)測(cè)驗(yàn)胸囱,而不是針對(duì)統(tǒng)計(jì)量。統(tǒng)計(jì)量是已經(jīng)從數(shù)據(jù)中得到的瀑梗,因此不需要假設(shè)測(cè)試驗(yàn)證這些數(shù)值烹笔。
常見(jiàn)的傳統(tǒng)假設(shè)檢驗(yàn)包括:
- 測(cè)試總體平均數(shù) (單樣本 t 檢驗(yàn))。
- 測(cè)試均數(shù)差 (雙樣本 t 檢驗(yàn))
- 測(cè)試個(gè)體治療前后的差異 (配對(duì) t 檢驗(yàn))
- 測(cè)試總體比例 (單樣本 z 檢驗(yàn))
- 測(cè)試總體比例的差異 (雙樣本 z 檢驗(yàn))
這有幾百個(gè)不同的假設(shè)檢驗(yàn)抛丽! 不過(guò)谤职,不需要記憶如何完成所有這些檢驗(yàn),而是找到最佳估算參數(shù)的統(tǒng)計(jì)量亿鲜,然后使用自助法(Bootstrap)模擬抽樣分布柬帕。然后你可以利用抽樣分布,幫助選擇合適的假設(shè)檢驗(yàn)狡门。
假設(shè)檢驗(yàn)的兩種方法
建立了兩個(gè)假設(shè)之后,我們就可以利用數(shù)據(jù)判定哪種假設(shè)的可能性較大锅很。在兩個(gè)假設(shè)中選擇一個(gè)其馏,有兩種方法。
- 置信區(qū)間
模擬統(tǒng)計(jì)量
的抽樣分布爆安,然后看我們的是否與在抽樣分布中觀察到的一致叛复。即對(duì)樣本進(jìn)行Bootstrap抽樣,得到統(tǒng)計(jì)量的抽樣分布,進(jìn)而得到置信區(qū)間褐奥。檢查
假設(shè)是否在置信區(qū)間內(nèi)咖耘。
以python演示求置信區(qū)間的過(guò)程:
- 導(dǎo)入庫(kù)和數(shù)據(jù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
np.random.seed(42)
full_data = pd.read_csv('coffee_dataset.csv')
- 總體參數(shù)
full_data['height'].mean()
full_data['height'].std()
- 取樣本
sample1 = full_data.sample(5)
# 樣本的平均身高
sample1['height'].mean()
sample1['height'].std()
- Bootstrap
sample_data_5_10000 = []
for i in range(10000):
sample_5 = full_data.sample(5)
sample_data_5_10000.append(sample_5['height'].mean())
- 得到統(tǒng)計(jì)量(均值)的抽樣分布
plt.hist(sample_data_5_10000);
- 置信區(qū)間
lower_bound=np.percentile(sample_data_5_10000, 2.5), upper_bound=np.percentile(sample_data_5_10000, 97.5)
plt.hist(sample_data_5_10000);
plt.axvline(x=lower_bound, color = 'red'); # where our sample mean falls on null dist
plt.axvline(x=upper_bound, color = 'red'); # where our sample mean falls on null dist
- 假設(shè)檢驗(yàn)
模擬我們認(rèn)為假設(shè)中,會(huì)出現(xiàn)的情況撬码,然后觀察我們的數(shù)據(jù)與它是否一致儿倒。即假設(shè)
為真,我們用
假設(shè)里最接近
假設(shè)的值模擬呜笑,以獲得抽樣分布的形狀夫否。例如,如果
為μ ≤ 70叫胁,那么就以μ = 70模擬抽樣分布的均值凰慈。然后根據(jù)Bootstrap抽樣,獲得統(tǒng)計(jì)量抽樣分布的標(biāo)準(zhǔn)差驼鹅。用正態(tài)分布【1】進(jìn)行模擬微谓。最后計(jì)算得到樣本均值,如果樣本均值遠(yuǎn)低于我們模擬出來(lái)的抽樣分布输钩,則我們不大可能認(rèn)為他來(lái)自這個(gè)
假設(shè)豺型。
歸納為
- 模擬零假設(shè)中得出統(tǒng)計(jì)量的數(shù)值。
- 計(jì)算你實(shí)際從數(shù)據(jù)中得到統(tǒng)計(jì)量的數(shù)值张足。
- 對(duì)比統(tǒng)計(jì)量和零假設(shè)中的數(shù)值触创。
- 根據(jù)備擇假設(shè),計(jì)算被視為極端空值的比例为牍。
在上一節(jié)的基礎(chǔ)上:
- 模擬我們認(rèn)為
假設(shè)中哼绑,會(huì)出現(xiàn)的情況
# H0 假設(shè)下的均值
pop_mean = 67.60
# 然后根據(jù)Bootstrap抽樣,獲得統(tǒng)計(jì)量抽樣分布的標(biāo)準(zhǔn)差
std_sampling_dist = np.std(sample_data_5_10000)
# 正態(tài)分布
null_vals = np.random.normal(pop_mean, std_sampling_dist, 10000)
plt.hist(null_vals)
plt.axvline(x=sample1.height.mean(), color = 'red'); # where our sample mean falls on null dist
- 對(duì)比統(tǒng)計(jì)量和零假設(shè)中的數(shù)值
# 觀測(cè)值的均值
sample1_mean = sample1.height.mean()
sample1_mean
# 比觀測(cè)值大的統(tǒng)計(jì)量的概率
prob_more_obs = (null_vals > sample1_mean).mean()
prob_more_obs
# 比觀測(cè)值小的統(tǒng)計(jì)量的概率
prob_less_obs = (null_vals <pop_mean- (sample1_mean - pop_mean)).mean()
prob_less_obs
這兩種方式得出的結(jié)果是不一樣的碉咆。這是因?yàn)樵谏戏健凹僭O(shè)檢驗(yàn)”視頻中是以 μ = 70 為中心模擬出的正態(tài)分布抖韩,因此最終拒絕的零假設(shè)是 μ = 70, 而“置信區(qū)間”方法中疫铜, 為μ ≤ 70茂浮。
p 值
p 值是零假設(shè)為真時(shí),得到支持備擇假設(shè)或更極端數(shù)值的概率壳咕。支持備擇假設(shè)的更多極端部分決定了 p 值相關(guān)的陰影席揽。
我們假設(shè)某人無(wú)辜,卻觀察到某人實(shí)際上有罪的概率谓厘。
p 值小幌羞,表示零假設(shè)
不正確。相反竟稳,我們的統(tǒng)計(jì)量可能來(lái)自不同于零假設(shè)
的分布属桦。
p 值很大時(shí)熊痴,我們可以證明統(tǒng)計(jì)量很可能來(lái)自零假設(shè)
。所以我們無(wú)法證明拒絕零假設(shè)
聂宾。
通過(guò)對(duì)比 p 值和 I 類錯(cuò)誤閾值 (α)果善,我們可以決定選擇哪個(gè)假設(shè)。
pval≤α ? 拒絕
pval>α ? 不拒絕
?
如果參數(shù)大于備擇假設(shè)
中的某個(gè)數(shù)值系谐,為了得到 p 值巾陕,你的陰影可能是這樣的:
如果參數(shù)小于備擇假設(shè)中的某個(gè)數(shù)值,為了得到 p 值蔚鸥,你的陰影可能是這樣的:
如果你的參數(shù)不等于備擇假設(shè)中的某個(gè)數(shù)值惜论,為了得到 p 值,你的陰影可能是這樣的:
假設(shè)檢驗(yàn)總結(jié)
無(wú)論是在零假設(shè)還是在備擇假設(shè)中止喷,陳述時(shí)要避免出現(xiàn)接受這個(gè)單詞馆类。我們并不是陳述某個(gè)假設(shè)為真。相反對(duì)于 I 類錯(cuò)誤的閾值弹谁,你根據(jù)零假設(shè)中數(shù)據(jù)的相似性做出決定乾巧。
所以,可以出現(xiàn)在假設(shè)檢驗(yàn)中的措辭包括我們拒絕零假設(shè)或者我們不拒絕零假設(shè)预愤。這有助于你最初零假設(shè)默認(rèn)為真沟于,并且如果沒(méi)有收集數(shù)據(jù),在測(cè)試最后 "選擇" 零假設(shè)植康,是正確選擇旷太。
確保樣本代表你感興趣的總體
解讀任何統(tǒng)計(jì)結(jié)果 (這一點(diǎn)常被忽視) 的最重要一方面在于確保樣本代表你感興趣的總體。
尤其是在當(dāng)今計(jì)算機(jī)時(shí)代收集數(shù)據(jù)的方式销睁,應(yīng)答偏差非常重要供璧,要牢記于心。2016年美國(guó)大選中冻记,許多媒體進(jìn)行的民意調(diào)查與實(shí)際民意調(diào)查存在驚人差異睡毒。你可以從 這里 了解反應(yīng)偏差的作用。
假設(shè)檢驗(yàn)與機(jī)器學(xué)習(xí)
樣本容量很大時(shí)冗栗,假設(shè)檢驗(yàn)會(huì)產(chǎn)生統(tǒng)計(jì)意義最小的發(fā)現(xiàn)演顾。然而,這些發(fā)現(xiàn)可能根本不具有現(xiàn)實(shí)意義隅居。
例如钠至,假設(shè)你在一項(xiàng)針對(duì) 100 多萬(wàn)人的研究中發(fā)現(xiàn)從統(tǒng)計(jì)學(xué)上來(lái)說(shuō)更多人喜歡啤酒 1,而不是啤酒 2胎源。根據(jù)這個(gè)結(jié)果棕洋,你決定開(kāi)店售賣(mài)啤酒 1。然后你發(fā)現(xiàn)啤酒 1 的流行度只比啤酒 2 高出 0.0002% (但是在樣本容量很大的情況中乒融,這個(gè)具有統(tǒng)計(jì)意義)掰盘。實(shí)際上,你應(yīng)該開(kāi)店售賣(mài)兩種啤酒赞季。
即使樣本平均數(shù)和假設(shè)總體平均數(shù)存在最小的差異愧捕,在樣本容量很大時(shí),這也非常重要申钩。
假設(shè)檢驗(yàn)采用綜合方法次绘,得出基于數(shù)據(jù)的結(jié)論,因?yàn)檫@些檢驗(yàn)旨在了解總體參數(shù) (即綜合的總體數(shù)值)撒遣。
另外邮偎,機(jī)器學(xué)習(xí)技巧采用個(gè)體方法得出結(jié)論,因?yàn)樗麄冎荚陬A(yù)測(cè)每個(gè)特殊數(shù)據(jù)點(diǎn)的結(jié)果义黎。
對(duì)結(jié)果進(jìn)行矯正
邦弗朗尼校正法
如果我們把同一類型的假設(shè)檢驗(yàn)進(jìn)行20次禾进,如果一類錯(cuò)誤率是5%,可以預(yù)計(jì)其中一次檢驗(yàn)的結(jié)構(gòu)是選擇對(duì)立假設(shè)廉涕。世界上有很多人都在進(jìn)行相同的研究狐蜕,如果一個(gè)人獲得了顯著性的結(jié)果(拒絕)层释,那么如何確定這些成果是I類錯(cuò)誤贡羔?
如果完成多個(gè)假設(shè)檢驗(yàn)治力,你的 I 類錯(cuò)誤更加嚴(yán)重宵统。為了糾正這點(diǎn)马澈,通常采用邦弗朗尼校正法痊班。這種校正法非常保守涤伐,認(rèn)為I 類最新錯(cuò)誤率應(yīng)為實(shí)際想得到的錯(cuò)誤率除以完成檢驗(yàn)的數(shù)量缨称。
所以祝迂,如果你想在 20 個(gè)假設(shè)檢驗(yàn)中把 I 類錯(cuò)誤率維持在 1%型雳,邦弗朗尼 校正率應(yīng)為 0.01/20 = 0.0005。你應(yīng)該使用這個(gè)新比率沿量,對(duì)比每 20 個(gè)檢驗(yàn)的 p 值冤荆,做出決定匙赞。
其他技巧
避免出現(xiàn)復(fù)合 I 類錯(cuò)誤的其他技巧包括:
如何對(duì)比置信區(qū)間和假設(shè)檢驗(yàn)
一個(gè)雙尾假設(shè)檢驗(yàn)(備擇假設(shè)中包含≠ )在結(jié)論方面與作為置信區(qū)間的結(jié)論相同芥被,只要:
1 - 0.95 = 0.05
例如拴魄,95%置信區(qū)間將得出與假設(shè)選擇的 I 型錯(cuò)誤率為 0.05 的假設(shè)檢驗(yàn)相同的結(jié)論匹中,因?yàn)槎ソ荩趥鋼窦僭O(shè)是雙尾檢驗(yàn)的時(shí)候:
1 - 0.95 = 0.05
更多支持可以參考免費(fèi)課程:https://classroom.udacity.com/courses/ud201?contentVersion=1.0.0&contentLocale=en-us
【1】理論依據(jù)可參照中心極限定理中的林德伯格-列維定理