數(shù)據(jù)分析入門(mén)-假設(shè)檢驗(yàn)

參數(shù)檢驗(yàn)

** U檢驗(yàn)**:

  • 前提:在正太分布的樣本均值u0和總體方差已知的情況下,雙側(cè)檢驗(yàn)問(wèn)題檢驗(yàn)總體均值u=u0嗎振峻?
    P(|u-u0|>k)=a;拒絕域就是|u-u0|>k,落在拒絕域的概率是a涝动,是顯著性水平。
  • 怎么確定k值:引入了U統(tǒng)計(jì)量~N(0,1)炬灭,計(jì)算醋粟,當(dāng)u>ua的概率就是a,當(dāng)a確定之后,ua是確定的昔穴,所以k也是確定的镰官。但因?yàn)樯厦嬗薪^對(duì)值,u-u0>k的概率和u-u0<-k的概率是a吗货,那么對(duì)稱性可知泳唠,一側(cè)的概率是a/2
    同理,單側(cè)檢驗(yàn)問(wèn)題u<u0,那么拒絕域就是u-u0>k值宙搬,這個(gè)和上面是一樣的笨腥,或者u>u0嗎?這個(gè)拒絕域是(小并且小了很多)u-u0<-k勇垛。
    可以寫(xiě)成更容易計(jì)算的形式:|u|>ua,是拒絕域脖母,拒絕假設(shè)u=u0;
  • 應(yīng)用: 檢驗(yàn)兩個(gè)正太分布的期望是否有顯著差異闲孤;不過(guò)得總體方差已知谆级,這個(gè)實(shí)際中大多方差都是不知道的

單樣本的t檢驗(yàn)

  • 前提:在正太分布的樣本均值已知u0和總體方差未知,檢驗(yàn)總體均值u=u0嗎讼积?

  • 和U檢驗(yàn)類(lèi)似肥照,不過(guò)引入的是T統(tǒng)計(jì)量t(n-1),也是正好借助這個(gè)統(tǒng)計(jì)量中有的u-u0確定k勤众。ta代表的是舆绎,t>ta的概率是a,用|t|>t(a/2)來(lái)表示雙側(cè)檢驗(yàn)的拒絕域,用t>ta來(lái)表示單側(cè)u<u0的拒絕域们颜,t<-ta表示單側(cè)u>u0的拒絕域

  • 落在拒絕域:就是拒絕不等式成立吕朵,就代表假設(shè)不成立

  • 怎么確定k值:對(duì)于單側(cè)檢驗(yàn)的話,u>u0,拒絕域u-u0<-k,因?yàn)镻((u-u0)/S/sqrt(n)>ta)=a,所以t<-ta,

  • 應(yīng)用:看某個(gè)正態(tài)分布的期望是否為C窥突,或者已知之前的平均值努溃,現(xiàn)在一組實(shí)驗(yàn)看與之前平均值有無(wú)顯著差異。例如:在excel中做單樣本的t檢驗(yàn)怎么做波岛?

  • Paste_Image.png

** 雙樣本的t檢驗(yàn)**

  • 前提:兩組正太分布茅坛,相互獨(dú)立≡蚩剑總體方差均未知贡蓖。兩組數(shù)據(jù)的均值是否相同?

  • 確定拒絕域:假設(shè)u1-u2=0煌茬,拒絕域|u|>u(a/2).假設(shè)u1-u2>0,拒絕域?yàn)?u<-ua斥铺,假設(shè)u1-u2<0,拒絕域?yàn)閡>ua

  • 應(yīng)用:看兩組數(shù)的平均值是否存在顯著差異。例如:可以在excel中“數(shù)據(jù)分析”中直接使用該工具坛善。在excel中a指的是雙尾檢驗(yàn)時(shí)的a晾蜘,單尾檢驗(yàn)就變成2*a


    Paste_Image.png
  • 為什么不直接比較兩組數(shù)據(jù)的均值邻眷?,因?yàn)閱螁问怯?jì)算兩組數(shù)據(jù)平均值剔交,這樣的結(jié)論還不能令人信服肆饶,因?yàn)檫@個(gè)差距可能是因?yàn)槌闃拥碾S機(jī)性而來(lái),不一定反映本質(zhì)岖常,所以要考慮用假設(shè)檢驗(yàn)來(lái)處理這個(gè)問(wèn)題驯镊。

  • excel中還會(huì)多兩個(gè)t-檢驗(yàn),如下圖:
    Paste_Image.png
  • 大樣本
    在方差未知的情況下竭鞍,可以用樣本方差代替板惑;T分布可以近似看成U分布。因?yàn)門(mén)的極限情況就是正太

** 兩個(gè)樣本方差檢驗(yàn)(F檢驗(yàn))**

  • 前提: 總體期望未知偎快,樣本方差已知冯乘,用樣本方差代替總體方差,看S1和S2的比值晒夹。近似F(n1-1裆馒,n2-1).
  • 拒絕域:假設(shè)o1=o2,則拒絕域是s1/s2>k1或者s1/s2<k2,因?yàn)镕分布是不對(duì)稱分布惋戏,因此k1=Fa领追,k2=F(1-a),雙側(cè)檢驗(yàn)响逢,所以顯著性水平a也要除以2.
  • 應(yīng)用:在兩組樣本t檢驗(yàn)之前,要先看兩個(gè)方差是否有顯著性差異棕孙,例如舔亭,在excel中如下:
    Paste_Image.png

** 單個(gè)樣本的方差檢驗(yàn)(卡方檢驗(yàn))**

  • 前提:正太分布的樣本,總體均值未知蟀俊,樣本方差S已知
  • 確定拒絕域:引入了X2統(tǒng)計(jì)量钦铺,S和o2的比值,比值小于k1或者大于k2.
  • 應(yīng)用:用來(lái)看觀察值與理論值的偏差

分布檢驗(yàn)

  • 分布檢驗(yàn)的假設(shè)
    H0:X的分布函數(shù)為F(x)肢预;將該假設(shè)轉(zhuǎn)化為H0總體值在區(qū)間Ii內(nèi)的概率為pi
  • 正太分布檢驗(yàn)
    先計(jì)算這個(gè)區(qū)間的理論概率p(Ua-U(a-1))矛洞,頻數(shù)就是np,在一組樣本中我們知道每個(gè)區(qū)間內(nèi)數(shù)據(jù)的頻數(shù)a,用卡方檢驗(yàn)如果X(計(jì)算出來(lái))>Xa(查表得到)烫映,則可以認(rèn)為服從正太分布沼本。X計(jì)算公式特別像一個(gè)誤差計(jì)算
  • 應(yīng)用:在參數(shù)估計(jì)和假設(shè)檢驗(yàn)中往往是假定某組數(shù)服從正太分布,但實(shí)際中我們往往不知道某組數(shù)的分布情況锭沟,因此必須先根據(jù)樣本對(duì)總體分布進(jìn)行檢驗(yàn)抽兆。
    例如在SPSS里面有P-P圖(正太概率圖)、QQ圖族淮,還有KS檢驗(yàn)

輔助檢驗(yàn)方法:1)觀察正態(tài)概率圖辫红,如果數(shù)據(jù)來(lái)自正態(tài)分布凭涂,圖形的散點(diǎn)應(yīng)該呈現(xiàn)一條直線状勤。2)繪制數(shù)據(jù)的條形圖棠笑,如果數(shù)據(jù)來(lái)自正態(tài)分布醉途,條形圖呈現(xiàn)“鐘形”分布精算。3)觀察描述性統(tǒng)計(jì)量中偏度系數(shù)(Skewness)g1和峰度系數(shù)(Kurtosis)g2抛猫,如果數(shù)據(jù)來(lái)自正態(tài)分布续捂,則兩者都應(yīng)該是0(適合大樣本瓷式,僅當(dāng)N>30時(shí)才有效)馋贤。

異常值檢驗(yàn)

  • 格布拉斯準(zhǔn)則(G檢驗(yàn)):總體要服從正太分布绢片,樣本量小滤馍,假設(shè)檢驗(yàn),G=(Xavg-Xmin)/標(biāo)準(zhǔn)差底循,再和表中對(duì)比巢株。只能檢測(cè)出來(lái)某個(gè)值是否為異常值,如果是的話熙涤,還要一直循環(huán)阁苞。
    適用于小樣本;但局限是祠挫,當(dāng)同側(cè)異常值較為接近時(shí)那槽,效果不好。
  • 拉依達(dá)準(zhǔn)則:總體要服從正太分布等舔,且樣本量大(n必須大于10)骚灸。u+3o和u-3o的概率很小。這樣可以得到一個(gè)最大最小值的臨界點(diǎn)
  • 箱圖:總體不用服從正太分布慌植。異常值區(qū)間(1/4相位點(diǎn)-1.5*(3/4-1/4相位點(diǎn)值)甚牲,3/4相位點(diǎn)+1.5(3/4-1/4相位點(diǎn)值)),例如在excel中


    Paste_Image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蝶柿,一起剝皮案震驚了整個(gè)濱河市丈钙,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌交汤,老刑警劉巖雏赦,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異芙扎,居然都是意外死亡星岗,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)纵顾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)伍茄,“玉大人,你說(shuō)我怎么就攤上這事施逾》蠼茫” “怎么了例获?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)曹仗。 經(jīng)常有香客問(wèn)我榨汤,道長(zhǎng),這世上最難降的妖魔是什么怎茫? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任收壕,我火速辦了婚禮,結(jié)果婚禮上轨蛤,老公的妹妹穿的比我還像新娘蜜宪。我一直安慰自己,他們只是感情好祥山,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布圃验。 她就那樣靜靜地躺著,像睡著了一般缝呕。 火紅的嫁衣襯著肌膚如雪澳窑。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,688評(píng)論 1 305
  • 那天供常,我揣著相機(jī)與錄音摊聋,去河邊找鬼。 笑死栈暇,一個(gè)胖子當(dāng)著我的面吹牛麻裁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播源祈,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼悲立,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了新博?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤脚草,失蹤者是張志新(化名)和其女友劉穎赫悄,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體馏慨,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡埂淮,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了写隶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片倔撞。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖慕趴,靈堂內(nèi)的尸體忽然破棺而出痪蝇,到底是詐尸還是另有隱情鄙陡,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布躏啰,位于F島的核電站趁矾,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏给僵。R本人自食惡果不足惜毫捣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望帝际。 院中可真熱鬧蔓同,春花似錦、人聲如沸蹲诀。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)侧甫。三九已至珊佣,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間披粟,已是汗流浹背咒锻。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留守屉,地道東北人惑艇。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像拇泛,于是被迫代替她去往敵國(guó)和親滨巴。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容