從統(tǒng)計(jì)學(xué)上如何分辨兩組數(shù)據(jù)有明顯差異健盒?

在數(shù)據(jù)分析過(guò)程中绒瘦,你可能會(huì)經(jīng)常遇到一個(gè)問(wèn)題,比如你統(tǒng)計(jì)了上個(gè)月和這個(gè)月的活躍度平均值扣癣,你發(fā)現(xiàn)這個(gè)月的平均值比上個(gè)月有增長(zhǎng)椭坚,但是這個(gè)增長(zhǎng)是足夠大,是本質(zhì)的變化呢搏色,或者只是隨機(jī)的波動(dòng)呢?你應(yīng)該不應(yīng)該向領(lǐng)導(dǎo)和同事報(bào)喜呢券册?是沾沾自喜還是真的有了重大突破频轿,值得發(fā)獎(jiǎng)金呢?這個(gè)時(shí)候就需要用到統(tǒng)計(jì)檢驗(yàn)烁焙。下面就介紹幾組適合不同數(shù)據(jù)的統(tǒng)計(jì)檢驗(yàn)方法航邢。

一 T檢驗(yàn),用于正態(tài)分布的參數(shù)檢驗(yàn)

檢驗(yàn)兩組獨(dú)立樣本平均值是否相同骄蝇,只用于連續(xù)變量

主要用于樣本含量較猩乓蟆(例如n < 30),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布九火。

只適用于連續(xù)變量赚窃,在一定區(qū)間內(nèi)可以任意取值的變量連續(xù)變量册招,其數(shù)值是連續(xù)不斷的,相鄰兩個(gè)數(shù)值可作無(wú)限分割勒极。簡(jiǎn)單粗暴的說(shuō)是掰,就是某個(gè)變量可以保留小數(shù)點(diǎn)后幾位。比如辱匿,高考成績(jī)键痛。

一般我們接觸數(shù)值都是連續(xù)變量,而且正態(tài)分布匾七,因此T檢驗(yàn)是非常常用的一種參數(shù)檢驗(yàn)的方法絮短。

1.獨(dú)立樣本T檢驗(yàn)(Independent Sample T Test)

檢測(cè)兩個(gè)對(duì)象或者兩種事務(wù)在同一時(shí)間的平均收入、平均得分昨忆、平均工資丁频、平均利潤(rùn)、平均獎(jiǎng)金等異同扔嵌。

比如限府,有一組男生高考成績(jī),36個(gè)樣本痢缎;有一組女生高考成績(jī)胁勺,42個(gè)樣本。

這兩組數(shù)據(jù)是不同對(duì)象(不同性別組)独旷,在同一個(gè)時(shí)間高考成績(jī)署穗。我們想了解男生女生的平均成績(jī)是否相同。

此時(shí)可采用獨(dú)立樣本T檢驗(yàn)來(lái)分辨兩組數(shù)據(jù)(視為兩個(gè)子總體)的均值是否相同嵌洼。

2.配對(duì)樣本T-test(配對(duì)樣本T檢驗(yàn))

檢測(cè)同一對(duì)象或者同一事務(wù)在兩種條件的平均收入案疲、平均得分、平均工資麻养、平均利潤(rùn)褐啡、平均獎(jiǎng)金等異同。

比如鳖昌,我們開頭提出的問(wèn)題备畦。我們有某個(gè)APP上個(gè)月每天的日活躍度,還有某個(gè)APP這個(gè)月每天的日活躍度许昨。我們想知道這兩個(gè)月APP平均日活躍度是否相同懂盐。這樣的情況就可以用配對(duì)樣本T檢驗(yàn)

如果通過(guò)統(tǒng)計(jì)檢驗(yàn),發(fā)現(xiàn)平均日活躍度下降了糕档,但是平均值和上個(gè)月沒(méi)有明顯的不同莉恼,就沒(méi)有必要太沮喪,說(shuō)明這個(gè)波動(dòng)還在比較正常的范圍。如果這個(gè)月日活躍度平均值和上個(gè)月有明顯的差異俐银,而且低于上個(gè)月尿背,那么就需要特別注意運(yùn)營(yíng)或者產(chǎn)品設(shè)計(jì)了。如果有明顯差異悉患,而且還是高于上個(gè)月的残家,就可以向領(lǐng)導(dǎo)同事報(bào)喜了。

非參數(shù)檢驗(yàn)售躁,檢驗(yàn)兩組或者多組樣本分布是否相同坞淮,適用于所有類型變量

非參數(shù)檢驗(yàn)是不必假設(shè)樣本呈現(xiàn)何種分布。如果已知道樣本呈現(xiàn)何種分布就用對(duì)應(yīng)的參數(shù)檢驗(yàn)陪捷;如果不確定樣本是否正態(tài)分布回窘,也可以采用參數(shù)檢驗(yàn)。

非參數(shù)檢驗(yàn)適用于以下所有類型的變量市袖。

(1)定類數(shù)據(jù)啡直,或稱類別數(shù)據(jù),如性別苍碟、材料類型和付款方式酒觅,非黑即白;(2)定序數(shù)值微峰,數(shù)據(jù)有幾個(gè)離散值舷丹,1,2,3,這些值大小是有意義的蜓肆,但是大小差距是沒(méi)有意義颜凯;(3)定距數(shù)據(jù),從非正太分布的數(shù)據(jù)重抽取的區(qū)間數(shù)據(jù)仗扬,也就是連續(xù)性變量症概。

比較常用的比較兩組獨(dú)立樣本之間的非參數(shù)檢驗(yàn)有:

(1)檢驗(yàn)兩個(gè)相關(guān)樣本(兩組抽樣)分布沒(méi)有差異(來(lái)自同一個(gè)總體)

注意檢驗(yàn)的樣本之間有相關(guān)關(guān)系或者

A. Wilcoxon Signed Ranks檢驗(yàn)

以秩檢驗(yàn)為主,檢驗(yàn)差異的方向和大小早芭,比較全面彼城,優(yōu)先推薦這種檢驗(yàn)。

B. Sign檢驗(yàn)退个,檢驗(yàn)正負(fù)差異次數(shù)

C. McNemar精肃,側(cè)重檢驗(yàn)是否有差異

(2)檢驗(yàn)k個(gè)相關(guān)樣本(兩組抽樣)分布沒(méi)有差異(來(lái)自同一個(gè)總體)

A.Friedman檢驗(yàn),秩檢驗(yàn)帜乞,同時(shí)計(jì)算卡方,tie

B.Kendall檢驗(yàn)筐眷,秩檢驗(yàn)

C.Cochran的Q檢驗(yàn)黎烈,只適用于二分變量,即k組樣本都是0和1兩種編碼

(3)檢驗(yàn)兩組獨(dú)立樣本(兩組抽樣)是否來(lái)自同一個(gè)總體

推薦K-S(Kolmogorov Smirnov)檢驗(yàn)

(4)檢驗(yàn)k個(gè)獨(dú)立樣本是否來(lái)自統(tǒng)一整體

推薦Kruskal-WAllis檢驗(yàn)

三 簡(jiǎn)而言之

如果你的兩組或者多組變量是定距連續(xù)變量,那采用T檢驗(yàn)就可以照棋。

如果你變量不是定距變量资溃,或者,定距變量明顯不符合正態(tài)分布烈炭,才考慮使用非參數(shù)檢驗(yàn)溶锭。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市符隙,隨后出現(xiàn)的幾起案子趴捅,更是在濱河造成了極大的恐慌,老刑警劉巖霹疫,帶你破解...
    沈念sama閱讀 222,183評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拱绑,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡丽蝎,警方通過(guò)查閱死者的電腦和手機(jī)猎拨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)屠阻,“玉大人红省,你說(shuō)我怎么就攤上這事」酰” “怎么了吧恃?”我有些...
    開封第一講書人閱讀 168,766評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)蛉加。 經(jīng)常有香客問(wèn)我蚜枢,道長(zhǎng),這世上最難降的妖魔是什么针饥? 我笑而不...
    開封第一講書人閱讀 59,854評(píng)論 1 299
  • 正文 為了忘掉前任厂抽,我火速辦了婚禮,結(jié)果婚禮上丁眼,老公的妹妹穿的比我還像新娘筷凤。我一直安慰自己,他們只是感情好苞七,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評(píng)論 6 398
  • 文/花漫 我一把揭開白布藐守。 她就那樣靜靜地躺著,像睡著了一般蹂风。 火紅的嫁衣襯著肌膚如雪卢厂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,457評(píng)論 1 311
  • 那天惠啄,我揣著相機(jī)與錄音慎恒,去河邊找鬼任内。 笑死,一個(gè)胖子當(dāng)著我的面吹牛融柬,可吹牛的內(nèi)容都是我干的死嗦。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼粒氧,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼越除!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起外盯,我...
    開封第一講書人閱讀 39,914評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤摘盆,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后门怪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體骡澈,經(jīng)...
    沈念sama閱讀 46,465評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評(píng)論 3 342
  • 正文 我和宋清朗相戀三年掷空,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了肋殴。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,675評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡坦弟,死狀恐怖护锤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情酿傍,我是刑警寧澤烙懦,帶...
    沈念sama閱讀 36,354評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站赤炒,受9級(jí)特大地震影響氯析,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜莺褒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評(píng)論 3 335
  • 文/蒙蒙 一掩缓、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧遵岩,春花似錦你辣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至誊锭,卻和暖如春表悬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背丧靡。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工蟆沫, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留叉讥,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,091評(píng)論 3 378
  • 正文 我出身青樓饥追,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親罐盔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子但绕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評(píng)論 2 360