統(tǒng)計學(xué)中的P/F/T

我們常常在統(tǒng)計學(xué)應(yīng)用中看到P值晃跺,F(xiàn)值揩局,T值,這些參數(shù)是什么掀虎?我想應(yīng)該先講講“假設(shè)檢驗”凌盯,弄明白假設(shè)檢驗,很多問題就通了烹玉。

本文首先介紹了假設(shè)檢驗在統(tǒng)計學(xué)的位置驰怎,然后從顯著性檢驗P值的疑問二打、假設(shè)檢驗方法的使用三個角度描述假設(shè)檢驗县忌。

一、背景簡介

1、描述統(tǒng)計學(xué)與推斷統(tǒng)計學(xué)

統(tǒng)計學(xué)按照發(fā)展階段和側(cè)重點不同症杏,可分為描述統(tǒng)計學(xué)和推斷統(tǒng)計學(xué)[1]

描述統(tǒng)計學(xué)是闡述如何對客觀現(xiàn)象的數(shù)量表現(xiàn)進(jìn)行計量表示装获;
推斷統(tǒng)計學(xué)主要闡述如何根據(jù)部分?jǐn)?shù)據(jù)(樣本統(tǒng)計量)去推論總體的數(shù)量特征及規(guī)律性的一系列理論和方法

2、假設(shè)檢驗

假設(shè)檢驗(hypothesis testing)作為推斷統(tǒng)計學(xué)的重要部分厉颤,用來判斷樣本與樣本穴豫、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。

顯著性檢驗是假設(shè)檢驗中最常用的一種方法逼友,也是一種最基本的統(tǒng)計推斷形式精肃,其基本原理是先對總體的特征做出某種假設(shè),然后通過抽樣研究的統(tǒng)計推理翁逞,對此假設(shè)應(yīng)該被拒絕還是接受做出推斷肋杖。

常用的假設(shè)檢驗方法有Z檢驗、T檢驗挖函、卡方檢驗状植、F檢驗等[2]

二、假設(shè)檢驗

1怨喘、顯著性檢驗

顯著性檢驗(significance test)是假設(shè)檢驗的一種最常用的方法津畸,用于檢測實驗組與對照組是否有差異以及差異是否顯著的辦法。

(1)隱性大背景

因為顯著性檢驗<假設(shè)檢驗<推斷統(tǒng)計學(xué)必怜,所以顯著性檢驗具有以下特點:

  • 總體樣本太大肉拓,只有樣本數(shù)據(jù),通過樣本來推斷總體
  • 無假設(shè)梳庆,不檢驗暖途。先明白假設(shè)是什么
(2)顯著性檢驗定義

設(shè)置
(1)原假設(shè)H_0:無顯著性差異,備擇假設(shè)H_1:存在顯著差異膏执;
(2)顯著性水平\alpha驻售;
(3)一種在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率:P
判斷
如果 P \leq \alpha,則拒絕原假設(shè)更米,認(rèn)為兩個樣本差異顯著欺栗;
如果P>\alpha,則接受原假設(shè)征峦,認(rèn)為兩個樣本差異不顯著

小概率事件實際不可能性原理是顯著性檢驗的基本原理迟几,如果P小于閾值\alpha,表明事件是小概率事件栏笆,存在發(fā)生的可能性但可能性不大甚至不可能發(fā)生类腮,所以認(rèn)為H_0大概率不會發(fā)生,拒絕原假設(shè)竖伯。

(3)顯著性水平\alpha

顯著性水平是假設(shè)檢驗中的一個概念存哲,是指當(dāng)原假設(shè)為正確時人們卻把它拒絕了所愿意承擔(dān)的風(fēng)險因宇。
通常取α=0.05或α=0.01七婴。這表明祟偷,當(dāng)作出決策時,其正確的可能性為95%或99%打厘,有0.05或α=0.01下錯結(jié)論的風(fēng)險修肠。

(4)置信度

置信度也稱為可靠度,或置信水平户盯、置信系數(shù)
置信度 = 1-α

(5)什么是差異顯著嵌施?

什么是顯著性差異?

顯著性差異(significant difference)莽鸭,是一個統(tǒng)計學(xué)名詞吗伤。它是統(tǒng)計學(xué)上對數(shù)據(jù)差異性的評價。當(dāng)數(shù)據(jù)之間具有了顯著性差異硫眨,就說明參與比對的數(shù)據(jù)不是來自于同一總體[4]足淆。

(6)H0和H1的內(nèi)容是隨便設(shè)置的嗎?

H0和H1的設(shè)置礁阁,不管在什么場景要滿足:

H0:樣本差異不顯著
H1:樣本存在顯著性差異

(7)案例應(yīng)用[5]

賭場上你想檢查一下拋擲的硬幣是否被動過手腳巧号,要求拋幾次硬幣看結(jié)果是不是公平的。
總共扔了十次姥闭,也都是“花”朝上丹鸿,認(rèn)為很可能這枚硬幣不是公平的。

這就是假設(shè)檢驗:
你提出假設(shè):說硬幣是正常的 (H0:硬幣是正常的棚品;H1:硬幣不正常)
我提出要檢驗?zāi)愕募僭O(shè):扔十次靠欢,看實驗的結(jié)果是不是和你的假設(shè)相符

反復(fù)扔硬幣應(yīng)該符合二項分布


扔了十次之后得到的結(jié)果是,有八次正面铜跑。
P是一種概率门怪,一種在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率,所以p-value = P(8 \leq x \leq 10)=0.05

總共扔10次硬幣疼进,那么是出現(xiàn)7次正面之后薪缆,可以認(rèn)為“硬幣是不公平的”,還是在出現(xiàn)9次正面以后認(rèn)為“硬幣是不公平”伞广,這是一個主觀標(biāo)準(zhǔn)拣帽,看你能夠承擔(dān)的風(fēng)險有多大,也就是顯著性水平\alpha嚼锄。

例如取\alpha為0.05减拭,p-value \leq 0.05,則認(rèn)為原假設(shè)是小概率事件区丑,拒絕原假設(shè)拧粪,認(rèn)為硬幣不正常修陡,存在顯著性差異(和正常硬幣的拋擲分布情況很不一樣)。
由于取\alpha為0.05可霎,所以這個決策有95%的準(zhǔn)確性魄鸦。

2、P值

P值是指在特定的統(tǒng)計假設(shè)模型下癣朗,數(shù)據(jù)的某個統(tǒng)計指標(biāo)(如兩組樣本均數(shù)之差)等于觀察值或比觀察值更為極端的概率拾因。

上文顯著性檢驗就是比較P值和\alpha之間的關(guān)系做出決策,但對P值的爭議很大旷余,因此需要單獨講一講P值绢记。

(1)P值的爭議

目前科學(xué)界對P值的使用存在很大的置疑,認(rèn)為P值是是擾人煩的蚊子正卧,是皇帝的新衣蠢熄,比“毫無用處”還糟糕[6]

林澤民教授2016/6/6在臺灣政大社科院的演講炉旷,題目為《看電影學(xué)統(tǒng)計:p值的陷阱》提到統(tǒng)計學(xué)很快會有很重大的改變签孔,傳統(tǒng)的作法:用P值來作統(tǒng)計檢定的作法,大概再過幾年就不容易再存在砾跃。

2018年1月22日骏啰,美國政治學(xué)頂級學(xué)術(shù)期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據(jù)該刊的聲明抽高,其主要原因是:“p值本身無法提供支持相關(guān)模式或假說之證據(jù)判耕。”

在臨床試驗中P值的使用尤為普遍翘骂,用來檢驗藥物的有效性壁熄,P值問題使得近半數(shù)的相關(guān)論文可靠性被推翻。

(2)P值的問題

為什么說P值是個陷阱碳竟?為什么P值本身無法支持相關(guān)模式或假說之證據(jù)草丧?

主要原因是因為:P值只能對樣本數(shù)據(jù)負(fù)責(zé),但模型的意義在于推斷總體莹桅,所以總有以偏概全的風(fēng)險存在昌执。同時,因為P值易受樣本操控诈泼,而很多研究為了得到想要的結(jié)論懂拾,往往是不斷調(diào)整樣本量,直到得到想要的結(jié)果[8]铐达。

P值本身是沒有問題的岖赋,但如果單純只依賴P值是否小于\alpha做出決策卻也是不可取的,學(xué)術(shù)界反對的是P值的濫用瓮孙。

(3)P值統(tǒng)計意義

美國統(tǒng)計協(xié)會(American Statistical Association唐断,ASA)全面透徹地梳理了統(tǒng)計界關(guān)于P值的統(tǒng)計意義并形成共識[7]

  1. P值表示數(shù)據(jù)與特定的統(tǒng)計模型不匹配的程度选脊。
    即在原假設(shè)的前提下,P值越小脸甘,越有理由拒絕原假設(shè)恳啥。
  2. P值不是研究假說為真的概率。
    P值說明數(shù)據(jù)與假設(shè)的關(guān)系斤程,而不解釋假設(shè)本身角寸。
  3. 科學(xué)結(jié)論菩混、商業(yè)決策或政策制定不能取決于P值是否超過規(guī)定的界值忿墅。
    成功的決策應(yīng)考慮實驗設(shè)計、數(shù)據(jù)質(zhì)量沮峡、外部證據(jù)疚脐、假設(shè)的合理性等諸多因素。僅僅看P值是否小于0.05是非常具有誤導(dǎo)性的邢疙。
  4. 正確的推斷依賴于報告的全面性和透明度棍弄。
    研究者要公布研究中所有的假設(shè)、數(shù)據(jù)收集和統(tǒng)計分析過程疟游,以及P值呼畸。
  5. P值并不表示處理效應(yīng)的大小或結(jié)果的重要性。
    再微小的效應(yīng)颁虐,當(dāng)樣本量足夠大或測量精度足夠高時蛮原,都能獲得較小的P值;反之再大的效應(yīng)在樣本量不足或測量精度不高時另绩,其P值也會很大儒陨。
  6. P值本身并不是衡量一個模型或假說的標(biāo)準(zhǔn)。
    數(shù)據(jù)分析時不能僅計算p值笋籽,而應(yīng)同時采用其他適合的或可行性更高的方法蹦漠。

3、統(tǒng)計推斷檢驗方法

(1)檢驗方法

而常用統(tǒng)計推斷檢驗方法分為兩大類:參數(shù)檢驗和非參數(shù)檢驗

參數(shù)檢驗车海,就是假定數(shù)據(jù)服從某種分布笛园,通過樣本信息對總體參數(shù)進(jìn)行比較檢驗(T檢驗、F檢驗侍芝、方差分析等)
非參數(shù)檢驗研铆,不要求所研究的樣本所來自的總體具有某種分布,進(jìn)行的不是參數(shù)之間的比較竭贩,而是分布位置蚜印、分布形狀之間的比較

  • 參數(shù)檢驗是針對參數(shù)做的假設(shè);非參數(shù)檢驗是針對總體分布情況做的假設(shè)
  • 參數(shù)檢驗要用到總體的信息留量,一次來推測具體參數(shù)窄赋;非參數(shù)檢驗退而求其次妈倔,致力于對總體的分布做出推測。

根據(jù)總體數(shù)據(jù)是否服從某種分布础钠,采用參數(shù)檢驗和非參數(shù)檢驗兩種檢驗方法毙替,具體使用哪種檢驗方法根據(jù)屬性和要求決定。

(2)案例應(yīng)用

某公司運(yùn)營團(tuán)隊為了針對活躍度提升專題運(yùn)營活動的效果進(jìn)行測試错敢,從同樣群體中抽出兩組人群翰灾,一組運(yùn)營組,一組對照組稚茅。30天后運(yùn)營活動結(jié)束后纸淮,想要知道該次針對性運(yùn)營是否有效,兩組活躍度分?jǐn)?shù)是否差異明顯?

T檢驗是數(shù)據(jù)化運(yùn)營效果分析中應(yīng)用最多的方法和技術(shù)亚享。使用要求為:1)樣本組之間獨立咽块;2)每組樣本來自正態(tài)分布總體;3)兩個獨立樣本方差相等欺税。

樣本組a和b侈沪,Equality of Variances檢查ab兩組樣本方差是否差異顯著,P=0.375>0.05晚凿,因此接受原假設(shè)亭罪,認(rèn)為a和b兩組方差沒有顯著差異(不是相等)。



因此可以使用T檢驗歼秽,檢驗P=0.0006<0.05应役,拒絕原假設(shè),表明ab兩組存在顯著性差異哲银,兩組樣本的活躍度均值是有差異的扛吞,運(yùn)營是有效果的

雖然兩組都是獨立的,但兩組樣本的總體不一定是正態(tài)分布的荆责,方差也不一定相等滥比,我們可以采用非參數(shù)檢驗—wilcoxon符號秩檢驗。

wilcoxon符號秩檢驗適用于兩個獨立樣本間的兩兩比較做院。

two-sided 的P值為0.011盲泛,小于0.05,拒絕原假設(shè)键耕,認(rèn)為兩個獨立組的活躍度分?jǐn)?shù)的均值是不相等的寺滚。


如果不能確定總體是否為正態(tài)分布,則只能退而求其次用非參數(shù)檢驗的方法屈雄。如果滿足T檢驗要求村视,有限考慮T檢驗的結(jié)果。

參考資料

[1] 推斷統(tǒng)計學(xué):https://baike.baidu.com/item/%E5%BD%92%E7%BA%B3%E7%BB%9F%E8%AE%A1%E5%AD%A6/10023692?fr=aladdin
[2] 假設(shè)檢驗:https://baike.baidu.com/item/%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C/638320?fr=aladdin
[3] 顯著性水平:https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E6%B0%B4%E5%B9%B3/1383148?fr=aladdin
[4] 顯著性差異:https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E5%B7%AE%E5%BC%82/950812?fr=aladdin
[5] 統(tǒng)計學(xué)假設(shè)檢驗中 p 值的含義具體是什么酒奶?https://www.zhihu.com/question/23149768/answer/23758600
[6] 統(tǒng)計學(xué)里“P”的故事:蚊子蚁孔、皇帝的新衣和不育的風(fēng)流才子:https://www.guokr.com/article/438043/
[7] 臨床試驗中P值的意義及結(jié)果:http://www.sohu.com/a/192858946_776163
[8] P值的陷阱:https://www.zhihu.com/search?type=content&q=P%E5%80%BC%E9%99%B7%E9%98%B1
[9] 非參數(shù)檢驗:https://www.zhihu.com/search?type=content&q=%E9%9D%9E%E5%8F%82%E6%95%B0%E6%A3%80%E9%AA%8C

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末奶赔,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子杠氢,更是在濱河造成了極大的恐慌站刑,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鼻百,死亡現(xiàn)場離奇詭異绞旅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)温艇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進(jìn)店門因悲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人中贝,你說我怎么就攤上這事囤捻。” “怎么了邻寿?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長视哑。 經(jīng)常有香客問我绣否,道長,這世上最難降的妖魔是什么挡毅? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任蒜撮,我火速辦了婚禮,結(jié)果婚禮上跪呈,老公的妹妹穿的比我還像新娘段磨。我一直安慰自己,他們只是感情好耗绿,可當(dāng)我...
    茶點故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布苹支。 她就那樣靜靜地躺著,像睡著了一般误阻。 火紅的嫁衣襯著肌膚如雪债蜜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天究反,我揣著相機(jī)與錄音寻定,去河邊找鬼。 笑死精耐,一個胖子當(dāng)著我的面吹牛狼速,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播卦停,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼向胡,長吁一口氣:“原來是場噩夢啊……” “哼浅浮!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起捷枯,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤滚秩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后淮捆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體郁油,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年攀痊,在試婚紗的時候發(fā)現(xiàn)自己被綠了桐腌。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡苟径,死狀恐怖案站,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情棘街,我是刑警寧澤蟆盐,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站遭殉,受9級特大地震影響石挂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜险污,卻給世界環(huán)境...
    茶點故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一痹愚、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蛔糯,春花似錦拯腮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至飒箭,卻和暖如春狼电,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背弦蹂。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工肩碟, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人凸椿。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓削祈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子髓抑,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,843評論 2 354