統(tǒng)計推斷包括兩個部分:一個是參數(shù)估計(estimate);另一個就是假設(shè)檢驗瞒御。它們都是利用樣本對總體進(jìn)行某種推斷静暂。
很多書都是先講參數(shù)估計再講假設(shè)檢驗尿背,我是覺得想到什么就寫什么了讨。今天先講下假設(shè)檢驗的P值,希望我能講清楚蛾娶,畢竟這個當(dāng)初也困擾了我很久。
假設(shè)檢驗的步驟就是先對所估計的總體提出一個假設(shè)潜秋,然后通過樣本數(shù)據(jù)去推斷是否拒絕這一假設(shè)(依據(jù)是什么呢蛔琅?就是P值和α)。
先看一個例子:
據(jù)大量調(diào)查峻呛,健康成年男子脈搏的均數(shù)為72 beats/min罗售,某醫(yī)生在某山區(qū)隨機(jī)調(diào)查了25名健康成年男子,得其脈搏均數(shù)為74.2beats/min钩述,標(biāo)準(zhǔn)差為6.5beats/min寨躁,能否根據(jù)這些數(shù)據(jù)認(rèn)為該山區(qū)成年男子的脈搏均數(shù)高于一般人群。
根據(jù)上面的數(shù)據(jù)牙勘,我們知道:
1)μ=72,也就是總體均值為72职恳,這是總體的情況。
2)樣本n=25方面,樣本均值為74.2放钦,樣本標(biāo)準(zhǔn)差為6.5,這是樣本的情況葡幸。
現(xiàn)在我們就需要根據(jù)1)和2)去推斷該山區(qū)成年男子的脈搏與一般人群是否有差別最筒。同時需要注意這個例子是樣本均數(shù)和總體均數(shù)的比較。還有一種是樣本均數(shù)和樣本均數(shù)之間進(jìn)行比較蔚叨。
我們這個例子屬于第一種情況床蜘。
建立假設(shè)的時候,會建立兩種假設(shè)蔑水,第一種是原假設(shè)(也叫零假設(shè))H0邢锯;跟原假設(shè)對立的是備擇假設(shè)(也叫對立假設(shè))H1。這里的H就是hypothesis的縮寫搀别。
我一直好奇的是這個零假設(shè)一定要用等于號嗎丹擎?就不能用大于或者小于號,然后備擇假設(shè)用等于號。我感覺也是可以的蒂培,只是行業(yè)通用慣例這樣要求再愈,然后就流傳下來了。
在這個例子中护戳,我們提出兩種假設(shè):
H0:山區(qū)成年男子的平均脈搏數(shù)和一般成年男子的平均脈搏數(shù)相等翎冲,也就是μ=μ0
H1:山區(qū)成年男子的平均脈搏數(shù)高于一般成年男子的平均脈搏數(shù)相等,也就是μ>μ0
為什么這里H1用大于呢媳荒?這個例子既可以用雙側(cè)檢驗抗悍,就是山區(qū)男子的平均脈搏數(shù)可以大于也可以小于一般成年男子平均脈搏數(shù);也可以用單側(cè)檢驗钳枕,就是根據(jù)專業(yè)知識缴渊,山區(qū)男子的平均脈搏數(shù)大于一般成年男子平均脈搏數(shù)。一般情況下鱼炒,對于探索性試驗一般用雙側(cè)檢驗衔沼,證實性試驗一般用單側(cè)檢驗。(書上說的)
建立完假設(shè)檢驗之后田柔,之后就是選擇顯著性水平俐巴,也就是我們常說的α。一般用的是0.05硬爆,在這個例子中我們用的是單側(cè)α=0.05欣舵。
這里用的是t檢驗,我們需要先算出t值,有一個公式缀磕,這不是我們今天講的重點
我們把上面2)的幾個統(tǒng)計量帶入這個公式缘圈,t=(74.2-72.0)÷(6.5÷√25)=1.692。
我們算出了t值袜蚕,接著就是去查表糟把,確定P值,除了Z值表牲剃,也有一個t界值值表遣疯,第一列縱向就是自由度,就是這個像v的東西凿傅,等于n-1缠犀,也就是自由度=24,然后我們用的是單側(cè)檢驗α=0.05聪舒,對應(yīng)到t值表橫向的第一行(第二行就是雙側(cè)了)辨液,這樣一交叉,得到t值是1.711箱残,也就是t0.05,24=1.711滔迈。
因為我們算出來的t值是1.692,小于α=0.05,自由度等于24時候的t值止吁,也就是1.692<1.711,所以P>0.05,故按照α=0.05的水準(zhǔn)不拒絕H0,差異無統(tǒng)計學(xué)意義。
很多人可能前面的還能看懂燎悍,到后面紅色加粗的部分敬惦,怎么一下子跳到這,然后就看不懂了间涵,P值哪來的仁热?為什么大于α就得出了上面的結(jié)論?這也是我以前經(jīng)常遇到的問題勾哩。我慢慢來解釋一下。
通過上面的例子举哟,我們先來梳理一下假設(shè)檢驗的步驟:
①:建立檢驗假設(shè)思劳,就是我們前面的H0,H1;
②:選擇顯著性水平
③:選擇檢驗統(tǒng)計量
④:作出判斷
解析:
1)為什么需要選擇顯著性水平:這個顯著性水平妨猩,也就是這個α潜叛,是一個用作判定界限的概率,這個界限確定樣本什么時候能夠有顯著推翻原假設(shè)壶硅。換句話說威兜,α就是當(dāng)原假設(shè)為真時,錯誤地拒絕原假設(shè)的概率庐椒。
2)選擇檢驗統(tǒng)計量:因為樣本的分布有各種各樣的形式椒舵,除了常見的正態(tài)分布,還有t分布约谈、卡方分布等等笔宿,(需要根據(jù)實際情況選擇合適的檢驗統(tǒng)計量,有z值棱诱,t值泼橘,并判斷樣本的分布,比如正態(tài)分布對應(yīng)的檢驗統(tǒng)計量是z值>迈勋、t分布對應(yīng)的檢驗統(tǒng)計量是t值)
3)求出檢驗統(tǒng)計量之后炬灭,之后就是確定P值,然后和顯著性水平(檢驗水準(zhǔn))進(jìn)行比較靡菇,之后就能得出結(jié)論了重归。
我們以上面的例子,一個一個進(jìn)行解釋镰官,我們先不管它為什么選用t檢驗提前。當(dāng)我們確定單側(cè)α=0.05,自由度為24的t值為1.711之后泳唠,然后我們自己算出來的t值是1.692狈网,我們繼續(xù)查看t值表自由度為24的這一行,大于1.711的t值(看它的右邊),它的P值在減型夭浮勇垛;小于1.711的t值(看它的左邊),它的p值在增大(大家左右比較一下就懂了)
所以根據(jù)我們算出的t=1.692(在1.711和1.318之間),可以得出我們的P值一定是>0.05的士鸥,P值的范圍是0.1~0.05闲孤。
現(xiàn)在我們得出了P值,然后又有一個顯著性水平α=0.05烤礁,這樣我們就能進(jìn)行比較了讼积。
下面這是關(guān)鍵點:
P值的定義:在零假設(shè)(H0)成立的條件下,出現(xiàn)統(tǒng)計量目前值及更不利于零假設(shè)的數(shù)值的概率脚仔。
??????P>α勤众,意味著在H0成立的前提下,出現(xiàn)≥(或≤)現(xiàn)有檢驗統(tǒng)計量的概率不是小概率鲤脏,根據(jù)現(xiàn)有的樣本信息還不足以拒絕H0们颜,因此沒有充足的理由來懷疑,所以我們就接受H0這個假設(shè)猎醇,差異沒有統(tǒng)計學(xué)意義窥突。
??????P<=α,意味在H0成立的前提下硫嘶,出現(xiàn)≥(或≤)現(xiàn)有檢驗統(tǒng)計量的概率是小概率事件阻问,按照小概率事件幾乎不可能發(fā)生的原理,可以認(rèn)為現(xiàn)有樣本的信息不支持H0音半,即H0的真實性受到懷疑则拷,因此我們有理由拒絕H0;
上面兩段話是不是還是有點摸不著頭腦?沒事曹鸠,我們結(jié)合圖形一起看煌茬,大家以后搞不清楚的,腦海里時刻出現(xiàn)這張圖就清楚了彻桃,這個很重要
根據(jù)右上角的那張圖坛善,我們看Y軸右半部分,其中橫坐標(biāo)代表t值邻眷,隨著t值增大眠屎,也就是X軸向右延伸,我們根據(jù)下面的t值表肆饶,知道p值也在逐漸變懈鸟谩(其實也就是圖中的右邊陰影部分面積在變小)驯镊。
當(dāng)P值小于我們事先指定的α(對應(yīng)到X軸就是t值在增大葫督,但是陰影部分面積在減小竭鞍,時刻注意陰影部分的面積就是P值),根據(jù)P值的定義橄镜,在零假設(shè)(H0)成立的條件下偎快,出現(xiàn)統(tǒng)計量目前值及更不利于零假設(shè)的數(shù)值的概率。
換句話說洽胶,就是H0成立的條件下晒夹,比如例子中兩個血壓相等,那么我抽樣一百次姊氓,應(yīng)該有大部分樣本都滿足血壓相等丐怯,也就是P值要大,概率要大他膳;可是如果我P值小呢响逢,也就是抽樣了很多次,只有幾次滿足血壓相等的條件棕孙,說明P值小,概率低些膨,對于我這個零假設(shè)很不利蟀俊,小到不可能發(fā)生,那我就有理由懷疑你這個零假設(shè)是假的订雾,所以我就拒絕你這個假設(shè)肢预。
也就是說我P值越小,就更不利于零假設(shè)洼哎。注意別搞反了烫映,有點費腦子,時刻注意這個前提條件X汀6Ч怠!如果沒有H0這個前提條件识补,那么“出現(xiàn)統(tǒng)計量目前值及更不利于零假設(shè)的數(shù)值的概率”當(dāng)然是越小越好族淮,可是加上H0這個前提條件,那么P就是越大越好凭涂,才利于H0祝辣。
當(dāng)然,我覺得更好理解的還是結(jié)合圖形切油,P值既然是代表陰影面積蝙斜,假設(shè)我的t值越靠近Y軸,也就是0(形成的曲線下陰影面積越大)澎胡,這時候樣本均值越靠近總體均值孕荠,樣本越能代表總體(曲線下面積無限接近1)娩鹉,既然是這樣,我們看一下岛琼,P值是不是越來越大了底循,也就是P值越大,越有利于H0槐瑞。
再換句話說熙涤,假設(shè)我進(jìn)行一百次抽樣試驗(樣本),然后一次抽樣試驗怎么樣才能讓它盡量來自總體困檩,只有當(dāng)陰影面積越來越大的時候(最好覆蓋整個曲線下面積祠挫,也就是P值越大越來大,無限接近1)悼沿,我們才有非常大的把握認(rèn)為我抽樣的這個樣本來自總體等舔,也就是隨著P值越來越大,我們可以認(rèn)為山區(qū)成年男子的平均脈搏數(shù)和一般成年男子的平均脈搏數(shù)相等糟趾,換句話說就是我接受你H0了慌植。
所以大家不理解的時候,在腦海里結(jié)合圖形更方便理解义郑。
這時候我們回到上面的????蝶柿,是不是就好理解了。
回到我們最開始的例子非驮,H0是山區(qū)成年男子的平均脈搏數(shù)和一般成年男子的平均脈搏數(shù)相等交汤,然后我們算出的t值=1.692對應(yīng)的P值>α=0.05,所以按照α=0.05的水準(zhǔn)不拒絕H0劫笙,差異無統(tǒng)計學(xué)意義芙扎,根據(jù)現(xiàn)有樣本信息,暫不能認(rèn)為山區(qū)成年男子的平均脈搏數(shù)高于一般成年男子的平均脈搏數(shù)填大。
有人可能說我一定要設(shè)定一個檢驗水準(zhǔn)嗎戒洼?我就不能只根據(jù)P值判斷嗎?P值大栋盹,說明很有可能發(fā)生施逾;P值小,說明幾乎不可能發(fā)生例获。
但是需要注意汉额,我們已經(jīng)提前做出了假設(shè),你說這個P值大榨汤,多大算大呢蠕搜?65%算不算大?99%算不算大收壕?多大能讓你接受這個假設(shè)呢妓灌?所以我們需要一個錨點轨蛤,通過這個錨點我們就能做出判斷,否則就是在那漫天胡扯虫埂。這個錨點就是我們提前指定的檢驗水準(zhǔn)祥山。(這段是個人理解)
希望上面的這些東西我講明白了,當(dāng)然肯定有表述不嚴(yán)謹(jǐn)?shù)牡胤降舴缓蟾杏X廢話有點多了缝呕。
參考
《醫(yī)學(xué)統(tǒng)計學(xué)及SAS應(yīng)用》--文中的例子來自本書
《基礎(chǔ)統(tǒng)計學(xué)-第14版》
《醫(yī)學(xué)統(tǒng)計學(xué)-孫振球》