在數(shù)據(jù)分析過(guò)程中绒瘦,你可能會(huì)經(jīng)常遇到一個(gè)問(wèn)題,比如你統(tǒng)計(jì)了上個(gè)月和這個(gè)月的活躍度平均值扣癣,你發(fā)現(xiàn)這個(gè)月的平均值比上個(gè)月有增長(zhǎng)椭坚,但是這個(gè)增長(zhǎng)是足夠大,是本質(zhì)的變化呢搏色,或者只是隨機(jī)的波動(dòng)呢?你應(yīng)該不應(yīng)該向領(lǐng)導(dǎo)和同事報(bào)喜呢券册?是沾沾自喜還是真的有了重大突破频轿,值得發(fā)獎(jiǎng)金呢?這個(gè)時(shí)候就需要用到統(tǒng)計(jì)檢驗(yàn)烁焙。下面就介紹幾組適合不同數(shù)據(jù)的統(tǒng)計(jì)檢驗(yàn)方法航邢。
一 T檢驗(yàn),用于正態(tài)分布的參數(shù)檢驗(yàn)
檢驗(yàn)兩組獨(dú)立樣本平均值是否相同骄蝇,只用于連續(xù)變量
主要用于樣本含量較猩乓蟆(例如n < 30),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布九火。
只適用于連續(xù)變量赚窃,在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量册招,其數(shù)值是連續(xù)不斷的,相鄰兩個(gè)數(shù)值可作無(wú)限分割勒极。簡(jiǎn)單粗暴的說(shuō)是掰,就是某個(gè)變量可以保留小數(shù)點(diǎn)后幾位。比如辱匿,高考成績(jī)键痛。
一般我們接觸數(shù)值都是連續(xù)變量,而且正態(tài)分布匾七,因此T檢驗(yàn)是非常常用的一種參數(shù)檢驗(yàn)的方法絮短。
1.獨(dú)立樣本T檢驗(yàn)(Independent Sample T Test)
檢測(cè)兩個(gè)對(duì)象或者兩種事務(wù)在同一時(shí)間的平均收入、平均得分昨忆、平均工資丁频、平均利潤(rùn)、平均獎(jiǎng)金等異同扔嵌。
比如限府,有一組男生高考成績(jī),36個(gè)樣本痢缎;有一組女生高考成績(jī)胁勺,42個(gè)樣本。
這兩組數(shù)據(jù)是不同對(duì)象(不同性別組)独旷,在同一個(gè)時(shí)間高考成績(jī)署穗。我們想了解男生女生的平均成績(jī)是否相同。
此時(shí)可采用獨(dú)立樣本T檢驗(yàn)來(lái)分辨兩組數(shù)據(jù)(視為兩個(gè)子總體)的均值是否相同嵌洼。
2.配對(duì)樣本T-test(配對(duì)樣本T檢驗(yàn))
檢測(cè)同一對(duì)象或者同一事務(wù)在兩種條件的平均收入案疲、平均得分、平均工資麻养、平均利潤(rùn)褐啡、平均獎(jiǎng)金等異同。
比如鳖昌,我們開頭提出的問(wèn)題备畦。我們有某個(gè)APP上個(gè)月每天的日活躍度,還有某個(gè)APP這個(gè)月每天的日活躍度许昨。我們想知道這兩個(gè)月APP平均日活躍度是否相同懂盐。這樣的情況就可以用配對(duì)樣本T檢驗(yàn)
如果通過(guò)統(tǒng)計(jì)檢驗(yàn),發(fā)現(xiàn)平均日活躍度下降了糕档,但是平均值和上個(gè)月沒(méi)有明顯的不同莉恼,就沒(méi)有必要太沮喪,說(shuō)明這個(gè)波動(dòng)還在比較正常的范圍。如果這個(gè)月日活躍度平均值和上個(gè)月有明顯的差異俐银,而且低于上個(gè)月尿背,那么就需要特別注意運(yùn)營(yíng)或者產(chǎn)品設(shè)計(jì)了。如果有明顯差異悉患,而且還是高于上個(gè)月的残家,就可以向領(lǐng)導(dǎo)同事報(bào)喜了。
二 非參數(shù)檢驗(yàn)售躁,檢驗(yàn)兩組或者多組樣本分布是否相同坞淮,適用于所有類型變量
非參數(shù)檢驗(yàn)是不必假設(shè)樣本呈現(xiàn)何種分布。如果已知道樣本呈現(xiàn)何種分布就用對(duì)應(yīng)的參數(shù)檢驗(yàn)陪捷;如果不確定樣本是否正態(tài)分布回窘,也可以采用參數(shù)檢驗(yàn)。
非參數(shù)檢驗(yàn)適用于以下所有類型的變量市袖。
(1)定類數(shù)據(jù)啡直,或稱類別數(shù)據(jù),如性別苍碟、材料類型和付款方式酒觅,非黑即白;(2)定序數(shù)值微峰,數(shù)據(jù)有幾個(gè)離散值舷丹,1,2,3,這些值大小是有意義的蜓肆,但是大小差距是沒(méi)有意義颜凯;(3)定距數(shù)據(jù),從非正太分布的數(shù)據(jù)重抽取的區(qū)間數(shù)據(jù)仗扬,也就是連續(xù)性變量症概。
比較常用的比較兩組獨(dú)立樣本之間的非參數(shù)檢驗(yàn)有:
(1)檢驗(yàn)兩個(gè)相關(guān)樣本(兩組抽樣)分布沒(méi)有差異(來(lái)自同一個(gè)總體)
注意檢驗(yàn)的樣本之間有相關(guān)關(guān)系或者
A. Wilcoxon Signed Ranks檢驗(yàn)
以秩檢驗(yàn)為主,檢驗(yàn)差異的方向和大小早芭,比較全面彼城,優(yōu)先推薦這種檢驗(yàn)。
B. Sign檢驗(yàn)退个,檢驗(yàn)正負(fù)差異次數(shù)
C. McNemar精肃,側(cè)重檢驗(yàn)是否有差異
(2)檢驗(yàn)k個(gè)相關(guān)樣本(兩組抽樣)分布沒(méi)有差異(來(lái)自同一個(gè)總體)
A.Friedman檢驗(yàn),秩檢驗(yàn)帜乞,同時(shí)計(jì)算卡方,tie
B.Kendall檢驗(yàn)筐眷,秩檢驗(yàn)
C.Cochran的Q檢驗(yàn)黎烈,只適用于二分變量,即k組樣本都是0和1兩種編碼
(3)檢驗(yàn)兩組獨(dú)立樣本(兩組抽樣)是否來(lái)自同一個(gè)總體
推薦K-S(Kolmogorov Smirnov)檢驗(yàn)
(4)檢驗(yàn)k個(gè)獨(dú)立樣本是否來(lái)自統(tǒng)一整體
推薦Kruskal-WAllis檢驗(yàn)
三 簡(jiǎn)而言之
如果你的兩組或者多組變量是定距連續(xù)變量,那采用T檢驗(yàn)就可以照棋。
如果你變量不是定距變量资溃,或者,定距變量明顯不符合正態(tài)分布烈炭,才考慮使用非參數(shù)檢驗(yàn)溶锭。