統(tǒng)計學(xué)中的P/F/T

我們常常在統(tǒng)計學(xué)應(yīng)用中看到P值晃跺，F(xiàn)值揩局，T值，這些參數(shù)是什么掀虎？我想應(yīng)該先講講“假設(shè)檢驗”凌盯，弄明白假設(shè)檢驗，很多問題就通了烹玉。

本文首先介紹了假設(shè)檢驗在統(tǒng)計學(xué)的位置驰怎，然后從顯著性檢驗、P值的疑問二打、假設(shè)檢驗方法的使用三個角度描述假設(shè)檢驗县忌。

一、背景簡介

1、描述統(tǒng)計學(xué)與推斷統(tǒng)計學(xué)

統(tǒng)計學(xué)按照發(fā)展階段和側(cè)重點不同症杏，可分為描述統(tǒng)計學(xué)和推斷統(tǒng)計學(xué)^[1]

描述統(tǒng)計學(xué)是闡述如何對客觀現(xiàn)象的數(shù)量表現(xiàn)進(jìn)行計量表示装获；
推斷統(tǒng)計學(xué)主要闡述如何根據(jù)部分?jǐn)?shù)據(jù)(樣本統(tǒng)計量)去推論總體的數(shù)量特征及規(guī)律性的一系列理論和方法

2、假設(shè)檢驗

假設(shè)檢驗(hypothesis testing)作為推斷統(tǒng)計學(xué)的重要部分厉颤，用來判斷樣本與樣本穴豫、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。

顯著性檢驗是假設(shè)檢驗中最常用的一種方法逼友，也是一種最基本的統(tǒng)計推斷形式精肃，其基本原理是先對總體的特征做出某種假設(shè)，然后通過抽樣研究的統(tǒng)計推理翁逞，對此假設(shè)應(yīng)該被拒絕還是接受做出推斷肋杖。

常用的假設(shè)檢驗方法有Z檢驗、T檢驗挖函、卡方檢驗状植、F檢驗等^[2]

二、假設(shè)檢驗

1怨喘、顯著性檢驗

顯著性檢驗（significance test）是假設(shè)檢驗的一種最常用的方法津畸，用于檢測實驗組與對照組是否有差異以及差異是否顯著的辦法。

（1）隱性大背景

因為顯著性檢驗<假設(shè)檢驗<推斷統(tǒng)計學(xué)必怜，所以顯著性檢驗具有以下特點：

總體樣本太大肉拓，只有樣本數(shù)據(jù)，通過樣本來推斷總體
無假設(shè)梳庆，不檢驗暖途。先明白假設(shè)是什么

（2）顯著性檢驗定義

設(shè)置：
（1）原假設(shè) $H_0$ ：無顯著性差異，備擇假設(shè) $H_1$ ：存在顯著差異膏执；
（2）顯著性水平 $\alpha$ 驻售；
（3）一種在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率： $P$
判斷：
如果 $P \leq \alpha$ ，則拒絕原假設(shè)更米，認(rèn)為兩個樣本差異顯著欺栗；
如果 $P$ > $\alpha$ ，則接受原假設(shè)征峦，認(rèn)為兩個樣本差異不顯著

小概率事件實際不可能性原理是顯著性檢驗的基本原理迟几，如果P小于閾值 $\alpha$ ，表明事件是小概率事件栏笆，存在發(fā)生的可能性但可能性不大甚至不可能發(fā)生类腮，所以認(rèn)為 $H_0$ 大概率不會發(fā)生，拒絕原假設(shè)竖伯。

（3）顯著性水平 $\alpha$

顯著性水平是假設(shè)檢驗中的一個概念存哲，是指當(dāng)原假設(shè)為正確時人們卻把它拒絕了所愿意承擔(dān)的風(fēng)險因宇。
通常取α=0.05或α=0.01七婴。這表明祟偷，當(dāng)作出決策時，其正確的可能性為95%或99%打厘，有0.05或α=0.01下錯結(jié)論的風(fēng)險修肠。

（4）置信度

置信度也稱為可靠度，或置信水平户盯、置信系數(shù)
置信度 = 1-α

（5）什么是差異顯著嵌施？

什么是顯著性差異？

顯著性差異(significant difference)莽鸭，是一個統(tǒng)計學(xué)名詞吗伤。它是統(tǒng)計學(xué)上對數(shù)據(jù)差異性的評價。當(dāng)數(shù)據(jù)之間具有了顯著性差異硫眨，就說明參與比對的數(shù)據(jù)不是來自于同一總體^[4]足淆。

（6）H0和H1的內(nèi)容是隨便設(shè)置的嗎？

H0和H1的設(shè)置礁阁，不管在什么場景要滿足：

H0：樣本差異不顯著
H1：樣本存在顯著性差異

（7）案例應(yīng)用^[5]

賭場上你想檢查一下拋擲的硬幣是否被動過手腳巧号，要求拋幾次硬幣看結(jié)果是不是公平的。
總共扔了十次姥闭，也都是“花”朝上丹鸿，認(rèn)為很可能這枚硬幣不是公平的。

這就是假設(shè)檢驗：
你提出假設(shè)：說硬幣是正常的（H0：硬幣是正常的棚品；H1：硬幣不正常）
我提出要檢驗?zāi)愕募僭O(shè)：扔十次靠欢，看實驗的結(jié)果是不是和你的假設(shè)相符

反復(fù)扔硬幣應(yīng)該符合二項分布

扔了十次之后得到的結(jié)果是，有八次正面铜跑。
P是一種概率门怪，一種在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率，所以 $p-value = P(8 \leq x \leq 10)=0.05$

總共扔10次硬幣疼进，那么是出現(xiàn)7次正面之后薪缆，可以認(rèn)為“硬幣是不公平的”，還是在出現(xiàn)9次正面以后認(rèn)為“硬幣是不公平”伞广，這是一個主觀標(biāo)準(zhǔn)拣帽，看你能夠承擔(dān)的風(fēng)險有多大，也就是顯著性水平 $\alpha$ 嚼锄。

例如取 $\alpha$ 為0.05减拭， $p-value \leq 0.05$ ，則認(rèn)為原假設(shè)是小概率事件区丑，拒絕原假設(shè)拧粪，認(rèn)為硬幣不正常修陡，存在顯著性差異（和正常硬幣的拋擲分布情況很不一樣）。
由于取 $\alpha$ 為0.05可霎，所以這個決策有95%的準(zhǔn)確性魄鸦。

2、P值

P值是指在特定的統(tǒng)計假設(shè)模型下癣朗，數(shù)據(jù)的某個統(tǒng)計指標(biāo)（如兩組樣本均數(shù)之差）等于觀察值或比觀察值更為極端的概率拾因。

上文顯著性檢驗就是比較P值和 $\alpha$ 之間的關(guān)系做出決策，但對P值的爭議很大旷余，因此需要單獨講一講P值绢记。

（1）P值的爭議

目前科學(xué)界對P值的使用存在很大的置疑，認(rèn)為P值是是擾人煩的蚊子正卧，是皇帝的新衣蠢熄，比“毫無用處”還糟糕^[6]。

林澤民教授2016/6/6在臺灣政大社科院的演講炉旷，題目為《看電影學(xué)統(tǒng)計：p值的陷阱》提到統(tǒng)計學(xué)很快會有很重大的改變签孔，傳統(tǒng)的作法：用P值來作統(tǒng)計檢定的作法，大概再過幾年就不容易再存在砾跃。

2018年1月22日骏啰，美國政治學(xué)頂級學(xué)術(shù)期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據(jù)該刊的聲明抽高，其主要原因是：“p值本身無法提供支持相關(guān)模式或假說之證據(jù)判耕。”

在臨床試驗中P值的使用尤為普遍翘骂，用來檢驗藥物的有效性壁熄，P值問題使得近半數(shù)的相關(guān)論文可靠性被推翻。

（2）P值的問題

為什么說P值是個陷阱碳竟？為什么P值本身無法支持相關(guān)模式或假說之證據(jù)草丧？

主要原因是因為：P值只能對樣本數(shù)據(jù)負(fù)責(zé)，但模型的意義在于推斷總體莹桅，所以總有以偏概全的風(fēng)險存在昌执。同時，因為P值易受樣本操控诈泼，而很多研究為了得到想要的結(jié)論懂拾，往往是不斷調(diào)整樣本量，直到得到想要的結(jié)果^[8]铐达。

P值本身是沒有問題的岖赋，但如果單純只依賴P值是否小于 $\alpha$ 做出決策卻也是不可取的，學(xué)術(shù)界反對的是P值的濫用瓮孙。

（3）P值統(tǒng)計意義

美國統(tǒng)計協(xié)會（American Statistical Association唐断，ASA）全面透徹地梳理了統(tǒng)計界關(guān)于P值的統(tǒng)計意義并形成共識^[7]：

P值表示數(shù)據(jù)與特定的統(tǒng)計模型不匹配的程度选脊。
即在原假設(shè)的前提下，P值越小脸甘，越有理由拒絕原假設(shè)恳啥。
P值不是研究假說為真的概率。
P值說明數(shù)據(jù)與假設(shè)的關(guān)系斤程，而不解釋假設(shè)本身角寸。
科學(xué)結(jié)論菩混、商業(yè)決策或政策制定不能取決于P值是否超過規(guī)定的界值忿墅。
成功的決策應(yīng)考慮實驗設(shè)計、數(shù)據(jù)質(zhì)量沮峡、外部證據(jù)疚脐、假設(shè)的合理性等諸多因素。僅僅看P值是否小于0.05是非常具有誤導(dǎo)性的邢疙。
正確的推斷依賴于報告的全面性和透明度棍弄。
研究者要公布研究中所有的假設(shè)、數(shù)據(jù)收集和統(tǒng)計分析過程疟游，以及P值呼畸。
P值并不表示處理效應(yīng)的大小或結(jié)果的重要性。
再微小的效應(yīng)颁虐，當(dāng)樣本量足夠大或測量精度足夠高時蛮原，都能獲得較小的P值；反之再大的效應(yīng)在樣本量不足或測量精度不高時另绩，其P值也會很大儒陨。
P值本身并不是衡量一個模型或假說的標(biāo)準(zhǔn)。
數(shù)據(jù)分析時不能僅計算p值笋籽，而應(yīng)同時采用其他適合的或可行性更高的方法蹦漠。

3、統(tǒng)計推斷檢驗方法

（1）檢驗方法

而常用統(tǒng)計推斷檢驗方法分為兩大類：參數(shù)檢驗和非參數(shù)檢驗

參數(shù)檢驗车海，就是假定數(shù)據(jù)服從某種分布笛园，通過樣本信息對總體參數(shù)進(jìn)行比較檢驗（T檢驗、F檢驗侍芝、方差分析等）
非參數(shù)檢驗研铆，不要求所研究的樣本所來自的總體具有某種分布，進(jìn)行的不是參數(shù)之間的比較竭贩，而是分布位置蚜印、分布形狀之間的比較

參數(shù)檢驗是針對參數(shù)做的假設(shè)；非參數(shù)檢驗是針對總體分布情況做的假設(shè)
參數(shù)檢驗要用到總體的信息留量，一次來推測具體參數(shù)窄赋；非參數(shù)檢驗退而求其次妈倔，致力于對總體的分布做出推測。

根據(jù)總體數(shù)據(jù)是否服從某種分布础钠，采用參數(shù)檢驗和非參數(shù)檢驗兩種檢驗方法毙替，具體使用哪種檢驗方法根據(jù)屬性和要求決定。

（2）案例應(yīng)用

某公司運(yùn)營團(tuán)隊為了針對活躍度提升專題運(yùn)營活動的效果進(jìn)行測試错敢，從同樣群體中抽出兩組人群翰灾，一組運(yùn)營組，一組對照組稚茅。30天后運(yùn)營活動結(jié)束后纸淮，想要知道該次針對性運(yùn)營是否有效，兩組活躍度分?jǐn)?shù)是否差異明顯?

T檢驗是數(shù)據(jù)化運(yùn)營效果分析中應(yīng)用最多的方法和技術(shù)亚享。使用要求為：1）樣本組之間獨立咽块；2）每組樣本來自正態(tài)分布總體；3）兩個獨立樣本方差相等欺税。

樣本組a和b侈沪，Equality of Variances檢查ab兩組樣本方差是否差異顯著，P=0.375>0.05晚凿，因此接受原假設(shè)亭罪，認(rèn)為a和b兩組方差沒有顯著差異（不是相等）。

因此可以使用T檢驗歼秽，檢驗P=0.0006<0.05应役，拒絕原假設(shè)，表明ab兩組存在顯著性差異哲银，兩組樣本的活躍度均值是有差異的扛吞，運(yùn)營是有效果的

雖然兩組都是獨立的，但兩組樣本的總體不一定是正態(tài)分布的荆责，方差也不一定相等滥比，我們可以采用非參數(shù)檢驗—wilcoxon符號秩檢驗。

wilcoxon符號秩檢驗適用于兩個獨立樣本間的兩兩比較做院。

two-sided 的P值為0.011盲泛，小于0.05，拒絕原假設(shè)键耕，認(rèn)為兩個獨立組的活躍度分?jǐn)?shù)的均值是不相等的寺滚。

如果不能確定總體是否為正態(tài)分布，則只能退而求其次用非參數(shù)檢驗的方法屈雄。如果滿足T檢驗要求村视，有限考慮T檢驗的結(jié)果。

參考資料

[1] 推斷統(tǒng)計學(xué)：https://baike.baidu.com/item/%E5%BD%92%E7%BA%B3%E7%BB%9F%E8%AE%A1%E5%AD%A6/10023692?fr=aladdin
[2] 假設(shè)檢驗：https://baike.baidu.com/item/%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C/638320?fr=aladdin
[3] 顯著性水平：https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E6%B0%B4%E5%B9%B3/1383148?fr=aladdin
[4] 顯著性差異：https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E5%B7%AE%E5%BC%82/950812?fr=aladdin
[5] 統(tǒng)計學(xué)假設(shè)檢驗中 p 值的含義具體是什么酒奶？https://www.zhihu.com/question/23149768/answer/23758600
[6] 統(tǒng)計學(xué)里“P”的故事：蚊子蚁孔、皇帝的新衣和不育的風(fēng)流才子：https://www.guokr.com/article/438043/
[7] 臨床試驗中P值的意義及結(jié)果：http://www.sohu.com/a/192858946_776163
[8] P值的陷阱：https://www.zhihu.com/search?type=content&q=P%E5%80%BC%E9%99%B7%E9%98%B1
[9] 非參數(shù)檢驗：https://www.zhihu.com/search?type=content&q=%E9%9D%9E%E5%8F%82%E6%95%B0%E6%A3%80%E9%AA%8C