[說人話的統(tǒng)計學·協(xié)和八]第三章·上 t 檢驗-兩組平均數(shù)的比較

注:說人話的統(tǒng)計學系列原連載于協(xié)和八微信公眾號咽安。本文為筆者的學習筆記捍歪,每篇文章標題已加入原文超鏈接反粥。如侵權(quán)請告知。

第3章 t 檢驗:兩組平均數(shù)的比較

01想玩轉(zhuǎn)t檢驗吹由?你得從這一篇看起 | 協(xié)和八

怎樣用樣本來判斷總體的平均值呢若未?

根據(jù)樣本均值與標準值的差距、樣本均值的波動范圍算出兩者的比值倾鲫,然后用這個比值的大小來做判斷
那如何獲得樣本的平均質(zhì)量的波動范圍呢粗合?
樣本平均值的波動是由單個隨機變量的波動和樣本大小所決定的。
如果樣本大小為N乌昔,樣本平均值的波動(標準差)等于總體波動(標準差)除以根號N隙疚。
檢驗統(tǒng)計量 (test statistic)
標準化了的樣本與總體均值的差距

樣本均值記為X拔,總體均值記為μ0磕道,總體的標準差為σ供屉,樣本大小為N,這個比值就是檢驗統(tǒng)計量

任意一個正態(tài)分布可以由兩個參數(shù)確定,一個是它的均值(也叫位置參數(shù))μ伶丐,決定它在數(shù)軸上的什么方位悼做;一個是其標準差(也叫形狀參數(shù))σ,決定它的胖瘦撵割。因此贿堰,我們把正態(tài)分布記為N( μ, σ)。

令統(tǒng)計量


則z服從標準正態(tài)分布N(0,1)啡彬。

當樣本量N足夠大時羹与,S會非常接近σ,t也會很接近標準正態(tài)分布庶灿。但是當N比較小時纵搁,樣本方差往往會小于總體方差,比如在只有一個樣本的極端情況下往踢,樣本方差必然是0腾誉,這顯然比總體方差要小了。

由于這個原因峻呕,N比較小時利职,t的分布就會偏離正態(tài)分布。統(tǒng)計學家發(fā)現(xiàn)瘦癌,在總體服從正態(tài)分布的前提下猪贪,t會服從另外一種分布,稱為學生t分布讯私。

在用t檢驗時热押,增加樣本的數(shù)量是提高統(tǒng)計顯著性的有效手段。

「學生」是發(fā)現(xiàn)這個分布的數(shù)學家戈塞特(Gosset)的筆名斤寇,他于1908年在一個叫Biometrika的雜志上桶癣,發(fā)表了關于t分布的文章,當時就是用的這個筆名娘锁。為什么發(fā)文章要用筆名呢牙寞?因為當時Gosset在Guiness啤酒廠(是的你沒有看錯,就是那個現(xiàn)在還存在的健力士牌黑啤酒)工作莫秆,為了檢測啤酒質(zhì)量而發(fā)明了t分布碎税。可是馏锡,公司不允許員工公開發(fā)表研究成果,于是戈塞特才被迫用筆名發(fā)表了文章伟端。

02 就是要實用杯道!t 檢驗的七十二變 | 協(xié)和八

單樣本t檢驗

在總體服從正態(tài)分布的前提下,統(tǒng)計量 t 服從一個類似于正態(tài)分布的概率分布——t 分布。對于任意的 t 值党巾,我們可以根據(jù) t 分布的性質(zhì)(我們在上一集的末尾提到萎庭,它其實還與樣本量 N 有關)算出對應的「與樣本相同或更極端」的概率,這就是我們所說的 p 值了齿拂。

這個例子所使用的 t 檢驗驳规,是將樣本的平均值與某個特定的標準值相比較,稱為單樣本 t 檢驗(one sample t test)
單側(cè)檢驗p 值就是 t 分布下由數(shù)據(jù)所得的 t 值左邊的曲線下的面積了署海。
由于 t 分布是對稱的吗购,因此對于同樣的樣本而言,雙側(cè)檢驗對應的 p 值將會是單側(cè)檢驗的兩倍砸狞。

成對樣本t檢驗

要比較兩個平均值的差別捻勉,而不是一個平均值和已知標準值的差別。這時刀森,我們要使用的統(tǒng)計檢驗被稱作「成對樣本的t檢驗」(paired samples t test)踱启。
這里兩個樣本中的每個數(shù)據(jù)點都是一一對應的
成對樣本的 t 檢驗最常見于同一組實驗對象兩個時間點(比如說干預前后)之間的比較。

獨立樣本的 t 檢驗

獨立樣本的 t 檢驗(independentsamples t test)研底。顧名思義埠偿,它用于比較來自兩個獨立的樣本的均值。
而這兩個樣本可能來源于兩個不同的分布榜晦,因此在確定 t 統(tǒng)計量的分母時冠蒋,我們需要考慮兩個樣本所來自的分布是否有相同的發(fā)散程度(即方差)。因此芽隆,在我們使用獨立樣本的 t 檢驗之前浊服,需要先進行另外一個檢驗,查看兩個樣本各自來自的分布方差是否相等胚吁,進而對 t 統(tǒng)計量以及有效的樣本量(稱為「自由度」)進行不同的處理或修正
使用Levene 氏檢驗 (Levene’s test)分析兩個分布方差是否相等牙躺,并分類為
方差相等的獨立樣本的 t 檢驗
方差不相等的獨立樣本的 t 檢驗

t檢驗不能做什么

  • 不能用于非連續(xù)變量的比較
  • 不能用于超過兩組變量之間均值的比較
  • 即便是連續(xù)型變量,如果不服從正態(tài)分布腕扶,也不能用 t 檢驗

03 不是正態(tài)分布孽拷,t 檢驗還能用嗎?| 協(xié)和八

總體的分布

樣本的分布

抽樣分布

樣本平均值(或者樣本的其他統(tǒng)計量半抱,如標準差等)因為抽樣隨機性產(chǎn)生的分布脓恕,稱為抽樣分布
當樣本量足夠大時,抽樣分布的正態(tài)性就會比較好窿侈,t 檢驗計算出的 p 值從而比較準確炼幔。

定性的判斷樣本數(shù)據(jù)的分布情況

頻率直方圖

為了將數(shù)據(jù)的分布和正態(tài)分布做比較,我們需要一個參考正態(tài)分布史简,具有與待測樣本相同的均值和方差乃秀,然后通過對比這兩個分布的形狀來判斷手上的數(shù)據(jù)是不是接近正態(tài)分布

q-q 圖

q 代表的是 quantile(分位數(shù))
當我們有 n 個數(shù)據(jù)點時,我們可以計算機模擬出正態(tài)分布對應的 n 分位數(shù)(此為第一 q,對應 x 軸坐標)跺讯;同時枢贿,我們將數(shù)據(jù)從小到大排列,就可以得到數(shù)據(jù)的 n 分位數(shù)(此為第二 q刀脏,對應 y 軸坐標)局荚。這樣我們就能得到一個 q-q 圖


q-q 圖不僅可以用來判斷數(shù)據(jù)是否符合正態(tài)分布,也可以用來判斷數(shù)據(jù)是否符合其它分布愈污,只要用待檢測的分布計算出對應的分位數(shù)作為 x 軸坐標即可
q-q 圖還可以判斷兩組數(shù)據(jù)是否來自同一個分布

定量的判斷樣本數(shù)據(jù)的分布情況

夏皮羅-威爾克檢驗(Shapiro-Wilk test)
科爾莫戈羅夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov test)

總結(jié)

  • 由于中心極限定理耀态,只要數(shù)據(jù)量比較大(究竟多大算大,取決于原來總體分布的情況)钙畔,即使原數(shù)據(jù)有點偏離正態(tài)分布茫陆,使用 t 檢驗也不會有大問題
  • 「頻率分布圖」和「 q-q 圖」是判斷數(shù)據(jù)分布情況的好方法
  • 真實世界的數(shù)據(jù)不可能完完全全地符合正態(tài)分布,數(shù)據(jù)量比較大時擎析,使用統(tǒng)計檢驗的方法判斷正態(tài)性傾向于判為非正態(tài)
  • 統(tǒng)計既是科學簿盅,也是藝術,當大家多理解了其背后科學原理揍魂,就可以根據(jù)實際情況桨醋,藝術地處理數(shù)據(jù)

04 只有15個標本,也能指望 t 檢驗嗎现斋?| 協(xié)和八

有些書認為喜最,當樣本量為 15 以上時就可以用 t 檢驗了

十幾個數(shù)據(jù)點用 t 檢驗靠譜兒嗎?

取決于我們的抽樣分布在從樣本量為 1 一路增長到正無窮時庄蹋,逼近正態(tài)分布的速度

抽樣分布趨向正態(tài)分布的速度由什么來決定瞬内?

那就是總體分布的形狀
感性地來說,總體分布與正態(tài)分布越相近(連續(xù)限书、對稱)虫蝶,抽樣分布能近似為正態(tài)分布所需的樣本量也就越小

如果我們手上的樣本量不足以保證抽樣分布的正態(tài)性該怎么辦?

既然總體分布越接近正態(tài)分布倦西,抽樣分布趨近正態(tài)分布的速度就越快能真,那么一個解決方案便是對數(shù)據(jù)進行某種轉(zhuǎn)化,使總體分布向正態(tài)分布靠攏扰柠,從而加快抽樣分布逼近正態(tài)分布的速度

05 樣本分布不正態(tài)粉铐?數(shù)據(jù)變換來救場!| 協(xié)和八

增加樣本量

中心極限定理說了卤档,只要樣本量越來越大蝙泼,甭管那總體分布原來長啥樣兒,抽樣分布遲早都會變成正態(tài)分布

使用其他檢驗方法

先對數(shù)據(jù)做一下變換劝枣,再進行t檢驗

對原數(shù)據(jù)進行函數(shù)變換
保證次序不變:此函數(shù)必須是單調(diào)的

對右偏數(shù)據(jù)變換

右偏(right-skewed)
正偏態(tài)(positive skewness)
例子:人均收入

對數(shù)函數(shù) 和平方根函數(shù)

對左偏數(shù)據(jù)變換

例子:死亡年齡
取鏡像踱承,再用上述方法
或者使用指數(shù)函數(shù)

數(shù)據(jù)變換的局限性

并不能解決所有非正態(tài)性的問題
對數(shù)據(jù)進行變換后倡缠,重新進行原來計劃的統(tǒng)計檢驗,其意義會發(fā)生變化
特例:對數(shù)變換 幾何平均數(shù)(geometric mean)

06 數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八

Box-Cox 變換

自動尋找「最佳」變換函數(shù)的方法


要確定一個正態(tài)分布茎活,只需要兩個參數(shù),一是均值(確定分布所在的位置)琢唾,二是標準差(確定分布的形狀有多寬)载荔。
要找到使變換后樣本正態(tài)性最好的那個 λ,我們只需在所有的 λ 里找出使得正態(tài)假設下似然函數(shù)最大的那一個采桃。
找 λ 這樣的臟活累活交給計算機來干就好了懒熙,現(xiàn)在許多數(shù)據(jù)分析和統(tǒng)計軟件都已實現(xiàn)了一鍵式 Box-Cox 變換的操作。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末普办,一起剝皮案震驚了整個濱河市工扎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌衔蹲,老刑警劉巖肢娘,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異舆驶,居然都是意外死亡橱健,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門沙廉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拘荡,“玉大人,你說我怎么就攤上這事撬陵∩好螅” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵巨税,是天一觀的道長蟋定。 經(jīng)常有香客問我,道長垢夹,這世上最難降的妖魔是什么溢吻? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮果元,結(jié)果婚禮上促王,老公的妹妹穿的比我還像新娘。我一直安慰自己而晒,他們只是感情好蝇狼,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著倡怎,像睡著了一般迅耘。 火紅的嫁衣襯著肌膚如雪贱枣。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天颤专,我揣著相機與錄音纽哥,去河邊找鬼。 笑死栖秕,一個胖子當著我的面吹牛春塌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播簇捍,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼只壳,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了暑塑?” 一聲冷哼從身側(cè)響起吼句,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎事格,沒想到半個月后惕艳,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡分蓖,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年尔艇,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片么鹤。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡终娃,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蒸甜,到底是詐尸還是另有隱情棠耕,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布柠新,位于F島的核電站窍荧,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏恨憎。R本人自食惡果不足惜蕊退,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望憔恳。 院中可真熱鬧瓤荔,春花似錦、人聲如沸钥组。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽程梦。三九已至点把,卻和暖如春橘荠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背郎逃。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工哥童, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人褒翰。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓如蚜,卻偏偏與公主長得像,于是被迫代替她去往敵國和親影暴。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容