統(tǒng)計(jì)學(xué)8-假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)的一般步驟

  1. 將問(wèn)題轉(zhuǎn)化為兩個(gè)不重疊且對(duì)立的假設(shè)
  2. 收集數(shù)據(jù)
  3. 判斷哪個(gè)假設(shè)可能是真的

設(shè)置零假設(shè)和備擇假設(shè)的一些規(guī)則

  1. H0是我們收集數(shù)據(jù)之間為真的事情。
  2. H0通常表示沒(méi)有影響或?qū)山M影響相同鳍置。
  3. H0和H1是競(jìng)爭(zhēng)性蕊玷、非重疊的假設(shè)束铭。
  4. H1備擇假設(shè)是可以證明為真的事情:如果我們可以證明為真旦签,則具有意義依痊。
  5. H0包含一個(gè)等號(hào):=素跺、≤ 或 ≥鸟整。
  6. H1包含非空值:≠引镊、>或< 。

例子

  1. 例如表述 "證明有罪之前是無(wú)辜的" 表明下列假設(shè)為真:
    H0 : 無(wú)辜的
    H1 : 有罪的
    我們可以認(rèn)為在收集數(shù)據(jù)之前篮条,"無(wú)辜的" 為真弟头。然后備擇假設(shè)必須是競(jìng)爭(zhēng)性、非重疊的假設(shè)涉茧。因此備擇假設(shè)為一個(gè)人有罪赴恨。
  2. 我們想測(cè)試新頁(yè)面是否優(yōu)于已有頁(yè)面:
    我們?cè)O(shè)置備擇假設(shè)。兩個(gè)指標(biāo)需要遵守伴栓,一是零假設(shè)應(yīng)當(dāng)包含等于號(hào)伦连,二是備擇假設(shè)應(yīng)當(dāng)包含我們希望為真的陳述。 因此钳垮,它應(yīng)為以下形式:
    {H}_0: μ1 ≤ μ2
    {H}_1: μ1 > μ2
    這里惑淳,μ1代表新頁(yè)面返回的總體平均數(shù)。同樣饺窿,μ2代表原來(lái)頁(yè)面返回的總體平均數(shù)歧焦。

根據(jù)你感興趣的問(wèn)題,你可以改變需要匹配的零假設(shè)和備擇假設(shè)肚医。

兩類錯(cuò)誤

I 類錯(cuò)誤

I 類錯(cuò)誤 包含以下特征:

  1. 設(shè)置零假設(shè)備擇假設(shè)绢馍,I 類錯(cuò)誤是更嚴(yán)重的錯(cuò)誤。
  2. 它們由α 符號(hào)表示肠套。
  3. I 類錯(cuò)誤的定義是: H0 為真時(shí)舰涌,認(rèn)為備擇假設(shè) H1 為真。
  4. I 類錯(cuò)誤通常稱為誤報(bào)你稚。

II 類錯(cuò)誤

  1. 它們由β 符號(hào)表示瓷耙。
  2. II 類錯(cuò)誤的定義是:H1 為真時(shí)朱躺,認(rèn)為零假設(shè)H0 為真。
  3. II 類錯(cuò)誤通常稱為漏報(bào)哺徊。

在一些極端情況下室琢,我們通常選擇一個(gè)假設(shè) (如一直選擇零假設(shè)),確保某個(gè)錯(cuò)誤不再出現(xiàn) (假設(shè)我們一直選擇零假設(shè)落追,不再出現(xiàn) I 類錯(cuò)誤)盈滴。不過(guò)苍柏,一般來(lái)說(shuō)展父,一些單一的數(shù)據(jù)會(huì)降低某個(gè)錯(cuò)誤類型的可能性,增加另一種錯(cuò)誤類型的出現(xiàn)幾率睬辐,兩者是存在聯(lián)系的疗垛。

降落傘例子

這個(gè)例子可以讓你了解假設(shè)檢驗(yàn)中犯錯(cuò)的極端情況症汹。出現(xiàn) I 類錯(cuò)誤,會(huì)有一個(gè)人死去贷腕。出現(xiàn) II 錯(cuò)誤背镇,你會(huì)減少 30 美元。

在接下來(lái)課程中你構(gòu)建的假設(shè)檢驗(yàn)泽裳,你能夠選擇 I 類錯(cuò)誤閾值瞒斩,并且保證 I 類錯(cuò)誤率符合要求后,你的假設(shè)檢驗(yàn)可以最小化 II 類錯(cuò)誤涮总。

假設(shè)檢驗(yàn)的一般類型

你通常針對(duì)總體參數(shù)進(jìn)行假設(shè)測(cè)驗(yàn)胸囱,而不是針對(duì)統(tǒng)計(jì)量統(tǒng)計(jì)量是已經(jīng)從數(shù)據(jù)中得到的瀑梗,因此不需要假設(shè)測(cè)試驗(yàn)證這些數(shù)值烹笔。

常見(jiàn)的傳統(tǒng)假設(shè)檢驗(yàn)包括:

  1. 測(cè)試總體平均數(shù) (單樣本 t 檢驗(yàn))
  2. 測(cè)試均數(shù)差 (雙樣本 t 檢驗(yàn))
  3. 測(cè)試個(gè)體治療前后的差異 (配對(duì) t 檢驗(yàn))
  4. 測(cè)試總體比例 (單樣本 z 檢驗(yàn))
  5. 測(cè)試總體比例的差異 (雙樣本 z 檢驗(yàn))

這有幾百個(gè)不同的假設(shè)檢驗(yàn)抛丽! 不過(guò)谤职,不需要記憶如何完成所有這些檢驗(yàn),而是找到最佳估算參數(shù)的統(tǒng)計(jì)量亿鲜,然后使用自助法(Bootstrap)模擬抽樣分布柬帕。然后你可以利用抽樣分布,幫助選擇合適的假設(shè)檢驗(yàn)狡门。

假設(shè)檢驗(yàn)的兩種方法

建立了兩個(gè)假設(shè)之后,我們就可以利用數(shù)據(jù)判定哪種假設(shè)的可能性較大锅很。在兩個(gè)假設(shè)中選擇一個(gè)其馏,有兩種方法。

  1. 置信區(qū)間
    模擬統(tǒng)計(jì)量的抽樣分布爆安,然后看我們的{H}_0是否與在抽樣分布中觀察到的一致叛复。即對(duì)樣本進(jìn)行Bootstrap抽樣,得到統(tǒng)計(jì)量的抽樣分布,進(jìn)而得到置信區(qū)間褐奥。檢查{H}_0假設(shè)是否在置信區(qū)間內(nèi)咖耘。
    以python演示求置信區(qū)間的過(guò)程:
  • 導(dǎo)入庫(kù)和數(shù)據(jù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline
np.random.seed(42)

full_data = pd.read_csv('coffee_dataset.csv')
  • 總體參數(shù)
full_data['height'].mean()
full_data['height'].std()
  • 取樣本
sample1 = full_data.sample(5)
# 樣本的平均身高
sample1['height'].mean()
sample1['height'].std()
  • Bootstrap
sample_data_5_10000 = []
for i in range(10000):
    sample_5 = full_data.sample(5)
    sample_data_5_10000.append(sample_5['height'].mean())
  • 得到統(tǒng)計(jì)量(均值)的抽樣分布
plt.hist(sample_data_5_10000);
  • 置信區(qū)間
lower_bound=np.percentile(sample_data_5_10000, 2.5), upper_bound=np.percentile(sample_data_5_10000, 97.5)

plt.hist(sample_data_5_10000);
plt.axvline(x=lower_bound, color = 'red'); # where our sample mean falls on null dist
plt.axvline(x=upper_bound, color = 'red'); # where our sample mean falls on null dist
  1. 假設(shè)檢驗(yàn)
    模擬我們認(rèn)為{H}_0假設(shè)中,會(huì)出現(xiàn)的情況撬码,然后觀察我們的數(shù)據(jù)與它是否一致儿倒。即假設(shè){H}_0為真,我們用{H}_0假設(shè)里最接近{H}_1假設(shè)的值模擬呜笑,以獲得抽樣分布的形狀夫否。例如,如果{H}_0為μ ≤ 70叫胁,那么就以μ = 70模擬抽樣分布的均值凰慈。然后根據(jù)Bootstrap抽樣,獲得統(tǒng)計(jì)量抽樣分布的標(biāo)準(zhǔn)差驼鹅。用正態(tài)分布【1】進(jìn)行模擬微谓。最后計(jì)算得到樣本均值,如果樣本均值遠(yuǎn)低于我們模擬出來(lái)的抽樣分布输钩,則我們不大可能認(rèn)為他來(lái)自這個(gè){H}_0假設(shè)豺型。
    歸納為
  • 模擬零假設(shè)中得出統(tǒng)計(jì)量的數(shù)值。
  • 計(jì)算你實(shí)際從數(shù)據(jù)中得到統(tǒng)計(jì)量的數(shù)值张足。
  • 對(duì)比統(tǒng)計(jì)量和零假設(shè)中的數(shù)值触创。
  • 根據(jù)備擇假設(shè),計(jì)算被視為極端空值的比例为牍。

在上一節(jié)的基礎(chǔ)上:

  • 模擬我們認(rèn)為{H}_0假設(shè)中哼绑,會(huì)出現(xiàn)的情況
# H0 假設(shè)下的均值
pop_mean = 67.60
# 然后根據(jù)Bootstrap抽樣,獲得統(tǒng)計(jì)量抽樣分布的標(biāo)準(zhǔn)差
std_sampling_dist = np.std(sample_data_5_10000)

# 正態(tài)分布
null_vals = np.random.normal(pop_mean, std_sampling_dist, 10000)
plt.hist(null_vals)
plt.axvline(x=sample1.height.mean(), color = 'red'); # where our sample mean falls on null dist
  • 對(duì)比統(tǒng)計(jì)量和零假設(shè)中的數(shù)值
# 觀測(cè)值的均值
sample1_mean = sample1.height.mean()
sample1_mean

# 比觀測(cè)值大的統(tǒng)計(jì)量的概率
prob_more_obs = (null_vals > sample1_mean).mean()
prob_more_obs

# 比觀測(cè)值小的統(tǒng)計(jì)量的概率
prob_less_obs = (null_vals <pop_mean- (sample1_mean - pop_mean)).mean()
prob_less_obs

這兩種方式得出的結(jié)果是不一樣的碉咆。這是因?yàn)樵谏戏健凹僭O(shè)檢驗(yàn)”視頻中是以 μ = 70 為中心模擬出的正態(tài)分布抖韩,因此最終拒絕的零假設(shè)是 μ = 70, 而“置信區(qū)間”方法中疫铜, {H}_0為μ ≤ 70茂浮。

p 值

p 值是零假設(shè)為真時(shí),得到支持備擇假設(shè)或更極端數(shù)值的概率壳咕。支持備擇假設(shè)的更多極端部分決定了 p 值相關(guān)的陰影席揽。

我們假設(shè)某人無(wú)辜,卻觀察到某人實(shí)際上有罪的概率谓厘。

p 值小幌羞,表示零假設(shè)不正確。相反竟稳,我們的統(tǒng)計(jì)量可能來(lái)自不同于零假設(shè)的分布属桦。
p 值很大時(shí)熊痴,我們可以證明統(tǒng)計(jì)量很可能來(lái)自零假設(shè)。所以我們無(wú)法證明拒絕零假設(shè)聂宾。

通過(guò)對(duì)比 p 值和 I 類錯(cuò)誤閾值 (α)果善,我們可以決定選擇哪個(gè)假設(shè)。

pval≤α ? 拒絕 {H}_0
pval>α ? 不拒絕 {H}_0
?

如果參數(shù)大于備擇假設(shè)中的某個(gè)數(shù)值系谐,為了得到 p 值巾陕,你的陰影可能是這樣的:

p1.png

如果參數(shù)小于備擇假設(shè)中的某個(gè)數(shù)值,為了得到 p 值蔚鸥,你的陰影可能是這樣的:
p3.png

如果你的參數(shù)不等于備擇假設(shè)中的某個(gè)數(shù)值惜论,為了得到 p 值,你的陰影可能是這樣的:


p2.png

假設(shè)檢驗(yàn)總結(jié)

無(wú)論是在零假設(shè)還是在備擇假設(shè)中止喷,陳述時(shí)要避免出現(xiàn)接受這個(gè)單詞馆类。我們并不是陳述某個(gè)假設(shè)為真。相反對(duì)于 I 類錯(cuò)誤的閾值弹谁,你根據(jù)零假設(shè)中數(shù)據(jù)的相似性做出決定乾巧。

所以,可以出現(xiàn)在假設(shè)檢驗(yàn)中的措辭包括我們拒絕零假設(shè)或者我們不拒絕零假設(shè)预愤。這有助于你最初零假設(shè)默認(rèn)為真沟于,并且如果沒(méi)有收集數(shù)據(jù),在測(cè)試最后 "選擇" 零假設(shè)植康,是正確選擇旷太。

確保樣本代表你感興趣的總體

解讀任何統(tǒng)計(jì)結(jié)果 (這一點(diǎn)常被忽視) 的最重要一方面在于確保樣本代表你感興趣的總體。

尤其是在當(dāng)今計(jì)算機(jī)時(shí)代收集數(shù)據(jù)的方式销睁,應(yīng)答偏差非常重要供璧,要牢記于心。2016年美國(guó)大選中冻记,許多媒體進(jìn)行的民意調(diào)查與實(shí)際民意調(diào)查存在驚人差異睡毒。你可以從 這里 了解反應(yīng)偏差的作用。

假設(shè)檢驗(yàn)與機(jī)器學(xué)習(xí)

樣本容量很大時(shí)冗栗,假設(shè)檢驗(yàn)會(huì)產(chǎn)生統(tǒng)計(jì)意義最小的發(fā)現(xiàn)演顾。然而,這些發(fā)現(xiàn)可能根本不具有現(xiàn)實(shí)意義隅居。

例如钠至,假設(shè)你在一項(xiàng)針對(duì) 100 多萬(wàn)人的研究中發(fā)現(xiàn)從統(tǒng)計(jì)學(xué)上來(lái)說(shuō)更多人喜歡啤酒 1,而不是啤酒 2胎源。根據(jù)這個(gè)結(jié)果棕洋,你決定開(kāi)店售賣(mài)啤酒 1。然后你發(fā)現(xiàn)啤酒 1 的流行度只比啤酒 2 高出 0.0002% (但是在樣本容量很大的情況中乒融,這個(gè)具有統(tǒng)計(jì)意義)掰盘。實(shí)際上,你應(yīng)該開(kāi)店售賣(mài)兩種啤酒赞季。

即使樣本平均數(shù)和假設(shè)總體平均數(shù)存在最小的差異愧捕,在樣本容量很大時(shí),這也非常重要申钩。

假設(shè)檢驗(yàn)采用綜合方法次绘,得出基于數(shù)據(jù)的結(jié)論,因?yàn)檫@些檢驗(yàn)旨在了解總體參數(shù) (即綜合的總體數(shù)值)撒遣。

另外邮偎,機(jī)器學(xué)習(xí)技巧采用個(gè)體方法得出結(jié)論,因?yàn)樗麄冎荚陬A(yù)測(cè)每個(gè)特殊數(shù)據(jù)點(diǎn)的結(jié)果义黎。

對(duì)結(jié)果進(jìn)行矯正

邦弗朗尼校正法

如果我們把同一類型的假設(shè)檢驗(yàn)進(jìn)行20次禾进,如果一類錯(cuò)誤率是5%,可以預(yù)計(jì)其中一次檢驗(yàn)的結(jié)構(gòu)是選擇對(duì)立假設(shè)廉涕。世界上有很多人都在進(jìn)行相同的研究狐蜕,如果一個(gè)人獲得了顯著性的結(jié)果(拒絕{H}_0)层释,那么如何確定這些成果是I類錯(cuò)誤贡羔?

如果完成多個(gè)假設(shè)檢驗(yàn)治力,你的 I 類錯(cuò)誤更加嚴(yán)重宵统。為了糾正這點(diǎn)马澈,通常采用邦弗朗尼校正法痊班。這種校正法非常保守涤伐,認(rèn)為I 類最新錯(cuò)誤率應(yīng)為實(shí)際想得到的錯(cuò)誤率除以完成檢驗(yàn)的數(shù)量缨称。

所以祝迂,如果你想在 20 個(gè)假設(shè)檢驗(yàn)中把 I 類錯(cuò)誤率維持在 1%型雳,邦弗朗尼 校正率應(yīng)為 0.01/20 = 0.0005。你應(yīng)該使用這個(gè)新比率沿量,對(duì)比每 20 個(gè)檢驗(yàn)的 p 值冤荆,做出決定匙赞。

其他技巧

避免出現(xiàn)復(fù)合 I 類錯(cuò)誤的其他技巧包括:

  1. 圖基校正
  2. Q 值

如何對(duì)比置信區(qū)間和假設(shè)檢驗(yàn)

一個(gè)雙尾假設(shè)檢驗(yàn)(備擇假設(shè)中包含≠ )在結(jié)論方面與作為置信區(qū)間的結(jié)論相同芥被,只要:
1 - 0.95 = 0.05
例如拴魄,95%置信區(qū)間將得出與假設(shè)選擇的 I 型錯(cuò)誤率為 0.05 的假設(shè)檢驗(yàn)相同的結(jié)論匹中,因?yàn)槎ソ荩趥鋼窦僭O(shè)是雙尾檢驗(yàn)的時(shí)候:
1 - 0.95 = 0.05

更多支持可以參考免費(fèi)課程:https://classroom.udacity.com/courses/ud201?contentVersion=1.0.0&contentLocale=en-us
【1】理論依據(jù)可參照中心極限定理中的林德伯格-列維定理

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末服赎,一起剝皮案震驚了整個(gè)濱河市重虑,隨后出現(xiàn)的幾起案子缺厉,更是在濱河造成了極大的恐慌提针,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件辐脖,死亡現(xiàn)場(chǎng)離奇詭異遇骑,居然都是意外死亡揖曾,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)炭剪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人翔脱,你說(shuō)我怎么就攤上這事〗煊酰” “怎么了疚沐?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵痴施,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我辣吃,道長(zhǎng)神得,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任偷仿,我火速辦了婚禮哩簿,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘炎疆。我一直安慰自己卡骂,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布形入。 她就那樣靜靜地躺著全跨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪亿遂。 梳的紋絲不亂的頭發(fā)上浓若,一...
    開(kāi)封第一講書(shū)人閱讀 51,727評(píng)論 1 305
  • 那天渺杉,我揣著相機(jī)與錄音,去河邊找鬼挪钓。 笑死是越,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的碌上。 我是一名探鬼主播倚评,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼馏予!你這毒婦竟也來(lái)了天梧?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤霞丧,失蹤者是張志新(化名)和其女友劉穎呢岗,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蛹尝,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡后豫,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了突那。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挫酿。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖陨收,靈堂內(nèi)的尸體忽然破棺而出饭豹,到底是詐尸還是另有隱情,我是刑警寧澤务漩,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布拄衰,位于F島的核電站,受9級(jí)特大地震影響饵骨,放射性物質(zhì)發(fā)生泄漏翘悉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一居触、第九天 我趴在偏房一處隱蔽的房頂上張望妖混。 院中可真熱鬧,春花似錦轮洋、人聲如沸制市。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)祥楣。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間误褪,已是汗流浹背责鳍。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留兽间,地道東北人历葛。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像嘀略,于是被迫代替她去往敵國(guó)和親恤溶。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容