Chapter 6 Hypothesis Test
本篇是第6章帽借,內(nèi)容是假設(shè)檢驗浩嫌。
1.基本思想
我們還是從問題開始討論。這回提個接地氣的問題——雄安新區(qū)批復(fù)前后對該地區(qū)房價是否有差異专普?
嗯悯衬,假設(shè)檢驗其實就是為了解決這類問題。
假設(shè)檢驗的基本思想——我們有樣本檀夹,但是無法獲得總體筋粗,需要對總體的分布形式或分布參數(shù)事先作出某種假設(shè)策橘,然后根據(jù)樣本觀測值,運用統(tǒng)計分析的方法來檢驗這一假設(shè)是否正確娜亿。
分解開來丽已,假設(shè)檢驗=假設(shè)+檢驗(或者假設(shè)檢驗)。
假設(shè)(hypothesis)——對總體的參數(shù)的具體數(shù)值(或分布形式)所作的陳述(總體參數(shù)包括總體均值买决、比例沛婴、 方差等,分析之前必需陳述)策州。
假設(shè)檢驗(hypothesis test)—先對總體的參數(shù)( 或分布形式) 提出某種假設(shè)瘸味,然后利用樣本信息判斷假設(shè)是否成立的過程(有參數(shù)檢驗和非參數(shù)檢驗;邏輯上運用反證法够挂, 統(tǒng)計上依據(jù)小概率原理)旁仿。如圖。
假設(shè)檢驗的思想還可以去搜索Fisher 顯著性檢驗的思想(女士品茶試驗)的故事深深體會孽糖,這里就不詳述了枯冈。有興趣的同學(xué)可以點擊下文的科學(xué)網(wǎng)鏈接查看。
2.原假設(shè)和備擇假設(shè)
從前面的介紹我們知道办悟,假設(shè)檢驗的第一步是建立假設(shè)尘奏。那么假設(shè)分為兩種(原假設(shè)和備擇假設(shè))。那么這二者具體又是什么呢病蛉?
- 原假設(shè)(null hypothesis)——原假設(shè)又稱“ 0假設(shè)”炫加,總是有符號 =, ≥ 或≤铺然,表示為 H0俗孝。是研究者想收集證據(jù)予以反對的假設(shè)(生產(chǎn)實踐中常對應(yīng)正常情形,如均值與設(shè)計一致)魄健;一般來說赋铝,原假設(shè)是一旦拒絕便要采取行動的假設(shè)。因此沽瘦, 原假設(shè)總是“受到保護的假設(shè)” 革骨,沒有充分的證據(jù)是不能拒絕原假設(shè)的。例如析恋,對一家信譽很好的工廠的產(chǎn)品進行檢驗良哲,原假設(shè)一般是“ 產(chǎn)品合格”。
- 備擇假設(shè)(alternative hypothesis)——研究者想收集證據(jù)予以支持的假設(shè)助隧, 一旦發(fā)生就要采取行動臂外, 是與原假設(shè)對立的假設(shè),也稱“研究假設(shè)”喇颁,總是有符號 ≠漏健, > 或 <,表示為 H1橘霎。
總結(jié)起來就是蔫浆,原假設(shè)是統(tǒng)計學(xué)史上最悲催角色——它從一開始誕生,就是為了被科學(xué)家們發(fā)好人卡拒絕而存在的一個假設(shè)姐叁。備擇假設(shè)才是科學(xué)家們追求的白富美瓦盛。
搞明白了這兩個假設(shè),下一步我們做假設(shè)檢驗的時候外潜,就要先提出假設(shè)了原环,這里給了一些提出假設(shè)的要點:
- 原假設(shè)和備擇假設(shè)是一個完備事件組, 而且相互對立(在一項假設(shè)檢驗中处窥, 原假設(shè)和備擇假設(shè)必有一個成立嘱吗, 而且只有一個成立)。
- 先確定備擇假設(shè)滔驾, 再確定原假設(shè)谒麦。
- 等號“ =” 總是放在原假設(shè)上。
- 因研究目的不同哆致, 對同一問題可能提出不同的假設(shè)( 也可能得出不同的結(jié)論)绕德。
同時在實際應(yīng)用中,我們有不同的需求摊阀,因此又有雙側(cè)檢驗和單側(cè)檢驗的區(qū)分耻蛇。
- 雙側(cè)檢驗——備擇假設(shè)沒有特定的方向性,并含有符號“=”的假設(shè)檢驗胞此,稱為雙側(cè)檢驗或雙尾檢驗(two-tailed test)
- 單側(cè)檢驗——備擇假設(shè)具有特定的方向性臣咖,并含有符號“>”或“<”的假設(shè)檢驗,稱為單側(cè)檢驗或單尾檢驗(one-tailed test)豌鹤。其中備擇假設(shè)的方向為“<”亡哄,稱為左側(cè)檢驗,備擇假設(shè)的方向為“>”布疙,稱為右側(cè)檢驗蚊惯。
原假設(shè)與備擇假設(shè)形式:
所見即所得,用一張圖來表示假設(shè)檢驗過程灵临。
所以拒絕原假設(shè)的理由是假設(shè)檢驗中的小概率原理截型。那么什么是小概率?
- 在一次試驗中儒溉, 一個幾乎不可能發(fā)生的事件發(fā)生的概率宦焦。
- 在一次試驗中小概率事件一旦發(fā)生, 我們就有理由拒絕原假設(shè)。
- 小概率由研究者事先確定波闹。
所以拒絕H0的理由就是
3.第一類錯誤和第二類錯誤
上文介紹了假設(shè)檢驗的過程酝豪,但是假設(shè)檢驗過程會不會出現(xiàn)錯誤呢?其實大家仔細分析拒絕原假設(shè)的理由就會發(fā)現(xiàn)問題了精堕。通常情況下原假設(shè)是小概率事件孵淘,但是小概率事件≠0概率事件。小概率事件不是不發(fā)生歹篓,而是發(fā)生概率較小瘫证。就像天氣預(yù)報說明天有99%的可能不下雨,結(jié)果1%的可能性成為了事實庄撮,明天下雨了背捌。因此假設(shè)檢驗中會有兩類錯誤(棄真錯誤和取偽錯誤)經(jīng)常出現(xiàn)。
(1)第一類錯誤(棄真錯誤):
- 原假設(shè)為真時拒絕原假設(shè)洞斯。
- 第一類錯誤的概率為α(沒錯毡庆,就是它,我們的好朋友巡扇,小α扭仁。咳咳咳厅翔,就是顯著性水平乖坠,一般由研究者事先指定,常用的值有0.01, 0.05, 0.10)刀闷。
(2)第二類錯誤(取偽錯誤):
- 原假設(shè)為假時未拒絕原假設(shè)熊泵。
- 第二類錯誤的概率記為β。
α和β的關(guān)系——α和β的關(guān)系就像翹翹板甸昏, α小β就大顽分,α大β就小。所以兩類錯誤不可能同時發(fā)生(第一類只在H0為真時發(fā)生施蜜,第而類只在H0為假時發(fā)生)卒蘸。
影響β的因素:
- 總體參數(shù)的真值。
- 顯著性水平α(當α減少時增大)翻默。
- 總體標準差σ(當σ增大時增大)缸沃。
- 樣本容量n(當n減少時增大)。
4.統(tǒng)計量與拒絕域
講了這么多修械,但是還沒有介紹假設(shè)檢驗的計算過程趾牧。假設(shè)檢驗的過程依賴于兩個重要數(shù)學(xué)概念(統(tǒng)計量與拒絕域,前面已經(jīng)有稍微提到了)肯污。這里再做具體介紹翘单。
檢驗統(tǒng)計量(test statistic)——根據(jù)樣本觀測結(jié)果計算得到的吨枉, 并據(jù)以對原假設(shè)和備擇假設(shè)作出決策的某個樣本統(tǒng)計量,是對樣本估計量的標準化結(jié)果(原假設(shè)H0為真哄芜,點估計量的抽樣分布)貌亭。
標準化的檢驗統(tǒng)計量公式為:
顯著性水平和拒絕域的三種情況:
雙側(cè)檢驗:
左側(cè)檢驗:
右側(cè)檢驗:
統(tǒng)計量落在拒絕域時,我們就可以拒絕原假設(shè)忠烛。具體如下:
5.利用p值進行決策
如何利用假設(shè)檢驗解決實際問題属提?很重要的一個應(yīng)用是在決策上。就如標題說的美尸,利用p值進行決策。那么什么是p值?
p值(p-value):在一個假設(shè)檢驗問題中斟薇,拒絕原假設(shè)的最小顯著性水平师坎。
- 在原假設(shè)為真的條件下,檢驗統(tǒng)計量的觀察值大于或等于其計算值的概率(雙側(cè)檢驗為分布中檢驗統(tǒng)計量兩側(cè)面積的總和;單側(cè)檢驗為分布中檢驗統(tǒng)計量相應(yīng)單側(cè)面積)堪滨。
- 反映實際觀測到的數(shù)據(jù)與原假設(shè)H0之間的一致程度。
- 被稱為觀察到的(或?qū)崪y的)顯著性水平袱箱。
- 決策規(guī)則: 若p值<α遏乔, 拒絕H0。
p值法步驟(以大樣本均值為例)
將樣本統(tǒng)計量轉(zhuǎn)換成檢驗統(tǒng)計量z
假設(shè)檢驗結(jié)論的表述
假設(shè)檢驗的目的就在于試圖找到拒絕原假設(shè)的證據(jù)发笔, 而不在于證明什么是正確的盟萨。
- 拒絕原假設(shè)時結(jié)論是清楚的。
- 當不拒絕原假設(shè)時——并未給出明確的結(jié)論了讨,不能說原假設(shè)是正確的捻激, 也不能說它不是正確的。但也未說它不是10前计。 我們只能說樣本提供的證據(jù)還不足以推翻原假設(shè)胞谭。
假設(shè)檢驗步驟的總結(jié)
- 陳述原假設(shè)和備擇假設(shè)。
- 從所研究的總體中抽出一個隨機樣本男杈。
- 確定一個適當?shù)臋z驗統(tǒng)計量丈屹, 并利用樣本數(shù)據(jù)算出其具體數(shù)值。
- 確定一個適當?shù)娘@著性水平伶棒, 并計算出其臨界值, 指定拒絕域苞冯。
- 將統(tǒng)計量的值與臨界值進行比較袖牙, 作出決策——統(tǒng)計量的值落在拒絕域,拒絕H0舅锄,否則不拒絕H0鞭达,也可以直接利用p值作出決策司忱。
6.一個總體參數(shù)的檢驗
前面的理論講的差不多了,又到了典型總體參數(shù)的檢驗內(nèi)容的介紹了畴蹭。依舊是先一個總體參數(shù)的檢驗(總體均值坦仍、總體比例、總體方差)叨襟。
總體均值的檢驗(大樣本: n≥30)
使用z檢驗統(tǒng)計量:
總體均值的檢驗(正態(tài)總體小樣本)
檢驗統(tǒng)計量:
總體比例的檢驗
假定條件:
- 總體服從二項分布繁扎;
- 可用正態(tài)分布來近似(大樣本)。
檢驗的Z統(tǒng)計量:
總體方差的檢驗
檢驗統(tǒng)計量:
這里順帶提下作為統(tǒng)計推斷的兩大分支的區(qū)間估計和假設(shè)檢驗的關(guān)系糊闽。
- 過程相似:如果假設(shè)均值在95%的置信區(qū)間之外梳玫,雙邊檢驗將拒絕原假設(shè)(顯著性水平為5%)。
- 邏輯不同:置信區(qū)間——不知道均值多少而要估計它右犹;假設(shè)檢驗: 假定一個均值要看數(shù)據(jù)是否支持這個假設(shè)提澎。
另外還是要談一談統(tǒng)計學(xué)與實際問題——這里談的是統(tǒng)計顯著性和實際顯著性。
一個被拒絕的原假設(shè)意味著有統(tǒng)計顯著性念链,但未必有實際顯著性盼忌。這種情況常發(fā)生在大樣本或精確測量場合,如Kepler的行星運行第一定律:行星軌道是橢圓的掂墓,當時吻合程度很好谦纱,100年后,儀器更高級君编、測量更精確跨嘉,該假設(shè)被拒絕,因為行星間交互作用導(dǎo)致攝動啦粹。因此不要盲目使用統(tǒng)計顯著性偿荷。此外,顯著性水平α的選擇也是個很關(guān)鍵的問題唠椭。一般來說:
- α不宜過小跳纳,否則第二類錯誤概率會較大。
- α的選擇與判斷發(fā)生錯誤時要付出的代價大小有關(guān)贪嫂。
- α的選擇是決策問題寺庄。
7.兩個總體參數(shù)的檢驗
講完了一個總體參數(shù),照例來講就兩個總體參數(shù)(兩個總體均值之差力崇,兩個總體比例之差斗塘,兩個總體方差比)。
獨立大樣本兩總體均值之差檢驗
假定條件:
- 兩個樣本是獨立的隨機樣本亮靴。
- 大樣本(n1≥30和n2≥30)馍盟。
檢驗統(tǒng)計量:
兩個總體均值之差的檢驗(匹配樣本)
假定條件:
- 兩個總體配對差值構(gòu)成的總體服從正態(tài)分布。
- 配對差是由差值總體中隨機抽取的茧吊。
- 數(shù)據(jù)配對或匹配(重復(fù)測量 (前/后))贞岭。
兩個總體比例之差的檢驗
假定條件:
- 兩個總體都服從二項分布八毯。
- 可以用正態(tài)分布來近似。
檢驗統(tǒng)計量:
兩個總體方差比的檢驗(F檢驗)
假定條件:
- 兩個總體都服從正態(tài)分布瞄桨。
- 兩個獨立的隨機樣本话速。
檢驗統(tǒng)計量:
最后的總結(jié)就是如下圖。
最后的最后芯侥,回到開頭提的問題——雄安新區(qū)泊交。該問題其實是兩個總體參數(shù)的檢驗問題——兩個總體均值之差的問題(兩個總體分別是批復(fù)前的房價和批復(fù)后的房價)。所以如果要討論該問題柱查,可以考慮從批復(fù)前后的房價廓俭,抽取配對大樣本或小樣本(樓盤房價)進行假設(shè)檢驗,這樣我們就能在統(tǒng)計學(xué)上證明這件事對雄安房價的顯著影響啦物赶。本篇涉及的R語言內(nèi)容較少白指,還是老規(guī)矩,放到后面的第14章去討論酵紫。