我們常常在統(tǒng)計學(xué)應(yīng)用中看到P值晃跺,F(xiàn)值揩局,T值,這些參數(shù)是什么掀虎?我想應(yīng)該先講講“假設(shè)檢驗”凌盯,弄明白假設(shè)檢驗,很多問題就通了烹玉。
本文首先介紹了假設(shè)檢驗在統(tǒng)計學(xué)的位置驰怎,然后從顯著性檢驗、P值的疑問二打、假設(shè)檢驗方法的使用三個角度描述假設(shè)檢驗县忌。
一、背景簡介
1、描述統(tǒng)計學(xué)與推斷統(tǒng)計學(xué)
統(tǒng)計學(xué)按照發(fā)展階段和側(cè)重點不同症杏,可分為描述統(tǒng)計學(xué)和推斷統(tǒng)計學(xué)[1]
描述統(tǒng)計學(xué)是闡述如何對客觀現(xiàn)象的數(shù)量表現(xiàn)進(jìn)行計量表示装获;
推斷統(tǒng)計學(xué)主要闡述如何根據(jù)部分?jǐn)?shù)據(jù)(樣本統(tǒng)計量)去推論總體的數(shù)量特征及規(guī)律性的一系列理論和方法
2、假設(shè)檢驗
假設(shè)檢驗(hypothesis testing)作為推斷統(tǒng)計學(xué)的重要部分厉颤,用來判斷樣本與樣本穴豫、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。
顯著性檢驗是假設(shè)檢驗中最常用的一種方法逼友,也是一種最基本的統(tǒng)計推斷形式精肃,其基本原理是先對總體的特征做出某種假設(shè),然后通過抽樣研究的統(tǒng)計推理翁逞,對此假設(shè)應(yīng)該被拒絕還是接受做出推斷肋杖。
常用的假設(shè)檢驗方法有Z檢驗、T檢驗挖函、卡方檢驗状植、F檢驗等[2]
二、假設(shè)檢驗
1怨喘、顯著性檢驗
顯著性檢驗(significance test)是假設(shè)檢驗的一種最常用的方法津畸,用于檢測實驗組與對照組是否有差異以及差異是否顯著的辦法。
(1)隱性大背景
因為顯著性檢驗<假設(shè)檢驗<推斷統(tǒng)計學(xué)必怜,所以顯著性檢驗具有以下特點:
- 總體樣本太大肉拓,只有樣本數(shù)據(jù),通過樣本來推斷總體
- 無假設(shè)梳庆,不檢驗暖途。先明白假設(shè)是什么
(2)顯著性檢驗定義
設(shè)置:
(1)原假設(shè):無顯著性差異,備擇假設(shè)
:存在顯著差異膏执;
(2)顯著性水平驻售;
(3)一種在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率:
判斷:
如果,則拒絕原假設(shè)更米,認(rèn)為兩個樣本差異顯著欺栗;
如果>
,則接受原假設(shè)征峦,認(rèn)為兩個樣本差異不顯著
小概率事件實際不可能性原理是顯著性檢驗的基本原理迟几,如果P小于閾值,表明事件是小概率事件栏笆,存在發(fā)生的可能性但可能性不大甚至不可能發(fā)生类腮,所以認(rèn)為
大概率不會發(fā)生,拒絕原假設(shè)竖伯。
(3)顯著性水平
顯著性水平是假設(shè)檢驗中的一個概念存哲,是指當(dāng)原假設(shè)為正確時人們卻把它拒絕了所愿意承擔(dān)的風(fēng)險因宇。
通常取α=0.05或α=0.01七婴。這表明祟偷,當(dāng)作出決策時,其正確的可能性為95%或99%打厘,有0.05或α=0.01下錯結(jié)論的風(fēng)險修肠。
(4)置信度
置信度也稱為可靠度,或置信水平户盯、置信系數(shù)
置信度 = 1-α
(5)什么是差異顯著嵌施?
什么是顯著性差異?
顯著性差異(significant difference)莽鸭,是一個統(tǒng)計學(xué)名詞吗伤。它是統(tǒng)計學(xué)上對數(shù)據(jù)差異性的評價。當(dāng)數(shù)據(jù)之間具有了顯著性差異硫眨,就說明參與比對的數(shù)據(jù)不是來自于同一總體[4]足淆。
(6)H0和H1的內(nèi)容是隨便設(shè)置的嗎?
H0和H1的設(shè)置礁阁,不管在什么場景要滿足:
H0:樣本差異不顯著
H1:樣本存在顯著性差異
(7)案例應(yīng)用[5]
賭場上你想檢查一下拋擲的硬幣是否被動過手腳巧号,要求拋幾次硬幣看結(jié)果是不是公平的。
總共扔了十次姥闭,也都是“花”朝上丹鸿,認(rèn)為很可能這枚硬幣不是公平的。
這就是假設(shè)檢驗:
你提出假設(shè):說硬幣是正常的 (H0:硬幣是正常的棚品;H1:硬幣不正常)
我提出要檢驗?zāi)愕募僭O(shè):扔十次靠欢,看實驗的結(jié)果是不是和你的假設(shè)相符
反復(fù)扔硬幣應(yīng)該符合二項分布
扔了十次之后得到的結(jié)果是,有八次正面铜跑。
P是一種概率门怪,一種在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率,所以![]()
總共扔10次硬幣疼进,那么是出現(xiàn)7次正面之后薪缆,可以認(rèn)為“硬幣是不公平的”,還是在出現(xiàn)9次正面以后認(rèn)為“硬幣是不公平”伞广,這是一個主觀標(biāo)準(zhǔn)拣帽,看你能夠承擔(dān)的風(fēng)險有多大,也就是顯著性水平嚼锄。
例如取為0.05减拭,
,則認(rèn)為原假設(shè)是小概率事件区丑,拒絕原假設(shè)拧粪,認(rèn)為硬幣不正常修陡,存在顯著性差異(和正常硬幣的拋擲分布情況很不一樣)。
由于取為0.05可霎,所以這個決策有95%的準(zhǔn)確性魄鸦。
2、P值
P值是指在特定的統(tǒng)計假設(shè)模型下癣朗,數(shù)據(jù)的某個統(tǒng)計指標(biāo)(如兩組樣本均數(shù)之差)等于觀察值或比觀察值更為極端的概率拾因。
上文顯著性檢驗就是比較P值和之間的關(guān)系做出決策,但對P值的爭議很大旷余,因此需要單獨講一講P值绢记。
(1)P值的爭議
目前科學(xué)界對P值的使用存在很大的置疑,認(rèn)為P值是是擾人煩的蚊子正卧,是皇帝的新衣蠢熄,比“毫無用處”還糟糕[6]。
林澤民教授2016/6/6在臺灣政大社科院的演講炉旷,題目為《看電影學(xué)統(tǒng)計:p值的陷阱》提到統(tǒng)計學(xué)很快會有很重大的改變签孔,傳統(tǒng)的作法:用P值來作統(tǒng)計檢定的作法,大概再過幾年就不容易再存在砾跃。
2018年1月22日骏啰,美國政治學(xué)頂級學(xué)術(shù)期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據(jù)該刊的聲明抽高,其主要原因是:“p值本身無法提供支持相關(guān)模式或假說之證據(jù)判耕。”
在臨床試驗中P值的使用尤為普遍翘骂,用來檢驗藥物的有效性壁熄,P值問題使得近半數(shù)的相關(guān)論文可靠性被推翻。
(2)P值的問題
為什么說P值是個陷阱碳竟?為什么P值本身無法支持相關(guān)模式或假說之證據(jù)草丧?
主要原因是因為:P值只能對樣本數(shù)據(jù)負(fù)責(zé),但模型的意義在于推斷總體莹桅,所以總有以偏概全的風(fēng)險存在昌执。同時,因為P值易受樣本操控诈泼,而很多研究為了得到想要的結(jié)論懂拾,往往是不斷調(diào)整樣本量,直到得到想要的結(jié)果[8]铐达。
P值本身是沒有問題的岖赋,但如果單純只依賴P值是否小于做出決策卻也是不可取的,學(xué)術(shù)界反對的是P值的濫用瓮孙。
(3)P值統(tǒng)計意義
美國統(tǒng)計協(xié)會(American Statistical Association唐断,ASA)全面透徹地梳理了統(tǒng)計界關(guān)于P值的統(tǒng)計意義并形成共識[7]:
- P值表示數(shù)據(jù)與特定的統(tǒng)計模型不匹配的程度选脊。
即在原假設(shè)的前提下,P值越小脸甘,越有理由拒絕原假設(shè)恳啥。 - P值不是研究假說為真的概率。
P值說明數(shù)據(jù)與假設(shè)的關(guān)系斤程,而不解釋假設(shè)本身角寸。 - 科學(xué)結(jié)論菩混、商業(yè)決策或政策制定不能取決于P值是否超過規(guī)定的界值忿墅。
成功的決策應(yīng)考慮實驗設(shè)計、數(shù)據(jù)質(zhì)量沮峡、外部證據(jù)疚脐、假設(shè)的合理性等諸多因素。僅僅看P值是否小于0.05是非常具有誤導(dǎo)性的邢疙。 - 正確的推斷依賴于報告的全面性和透明度棍弄。
研究者要公布研究中所有的假設(shè)、數(shù)據(jù)收集和統(tǒng)計分析過程疟游,以及P值呼畸。 - P值并不表示處理效應(yīng)的大小或結(jié)果的重要性。
再微小的效應(yīng)颁虐,當(dāng)樣本量足夠大或測量精度足夠高時蛮原,都能獲得較小的P值;反之再大的效應(yīng)在樣本量不足或測量精度不高時另绩,其P值也會很大儒陨。 - P值本身并不是衡量一個模型或假說的標(biāo)準(zhǔn)。
數(shù)據(jù)分析時不能僅計算p值笋籽,而應(yīng)同時采用其他適合的或可行性更高的方法蹦漠。
3、統(tǒng)計推斷檢驗方法
(1)檢驗方法
而常用統(tǒng)計推斷檢驗方法分為兩大類:參數(shù)檢驗和非參數(shù)檢驗
參數(shù)檢驗车海,就是假定數(shù)據(jù)服從某種分布笛园,通過樣本信息對總體參數(shù)進(jìn)行比較檢驗(T檢驗、F檢驗侍芝、方差分析等)
非參數(shù)檢驗研铆,不要求所研究的樣本所來自的總體具有某種分布,進(jìn)行的不是參數(shù)之間的比較竭贩,而是分布位置蚜印、分布形狀之間的比較
- 參數(shù)檢驗是針對參數(shù)做的假設(shè);非參數(shù)檢驗是針對總體分布情況做的假設(shè)
- 參數(shù)檢驗要用到總體的信息留量,一次來推測具體參數(shù)窄赋;非參數(shù)檢驗退而求其次妈倔,致力于對總體的分布做出推測。
根據(jù)總體數(shù)據(jù)是否服從某種分布础钠,采用參數(shù)檢驗和非參數(shù)檢驗兩種檢驗方法毙替,具體使用哪種檢驗方法根據(jù)屬性和要求決定。
(2)案例應(yīng)用
某公司運(yùn)營團(tuán)隊為了針對活躍度提升專題運(yùn)營活動的效果進(jìn)行測試错敢,從同樣群體中抽出兩組人群翰灾,一組運(yùn)營組,一組對照組稚茅。30天后運(yùn)營活動結(jié)束后纸淮,想要知道該次針對性運(yùn)營是否有效,兩組活躍度分?jǐn)?shù)是否差異明顯?
T檢驗是數(shù)據(jù)化運(yùn)營效果分析中應(yīng)用最多的方法和技術(shù)亚享。使用要求為:1)樣本組之間獨立咽块;2)每組樣本來自正態(tài)分布總體;3)兩個獨立樣本方差相等欺税。
樣本組a和b侈沪,Equality of Variances檢查ab兩組樣本方差是否差異顯著,P=0.375>0.05晚凿,因此接受原假設(shè)亭罪,認(rèn)為a和b兩組方差沒有顯著差異(不是相等)。
因此可以使用T檢驗歼秽,檢驗P=0.0006<0.05应役,拒絕原假設(shè),表明ab兩組存在顯著性差異哲银,兩組樣本的活躍度均值是有差異的扛吞,運(yùn)營是有效果的
雖然兩組都是獨立的,但兩組樣本的總體不一定是正態(tài)分布的荆责,方差也不一定相等滥比,我們可以采用非參數(shù)檢驗—wilcoxon符號秩檢驗。
wilcoxon符號秩檢驗適用于兩個獨立樣本間的兩兩比較做院。
two-sided 的P值為0.011盲泛,小于0.05,拒絕原假設(shè)键耕,認(rèn)為兩個獨立組的活躍度分?jǐn)?shù)的均值是不相等的寺滚。
如果不能確定總體是否為正態(tài)分布,則只能退而求其次用非參數(shù)檢驗的方法屈雄。如果滿足T檢驗要求村视,有限考慮T檢驗的結(jié)果。
參考資料
[1] 推斷統(tǒng)計學(xué):https://baike.baidu.com/item/%E5%BD%92%E7%BA%B3%E7%BB%9F%E8%AE%A1%E5%AD%A6/10023692?fr=aladdin
[2] 假設(shè)檢驗:https://baike.baidu.com/item/%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C/638320?fr=aladdin
[3] 顯著性水平:https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E6%B0%B4%E5%B9%B3/1383148?fr=aladdin
[4] 顯著性差異:https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E5%B7%AE%E5%BC%82/950812?fr=aladdin
[5] 統(tǒng)計學(xué)假設(shè)檢驗中 p 值的含義具體是什么酒奶?https://www.zhihu.com/question/23149768/answer/23758600
[6] 統(tǒng)計學(xué)里“P”的故事:蚊子蚁孔、皇帝的新衣和不育的風(fēng)流才子:https://www.guokr.com/article/438043/
[7] 臨床試驗中P值的意義及結(jié)果:http://www.sohu.com/a/192858946_776163
[8] P值的陷阱:https://www.zhihu.com/search?type=content&q=P%E5%80%BC%E9%99%B7%E9%98%B1
[9] 非參數(shù)檢驗:https://www.zhihu.com/search?type=content&q=%E9%9D%9E%E5%8F%82%E6%95%B0%E6%A3%80%E9%AA%8C