假設(shè)檢驗(yàn)方法總結(jié)(不斷更新)

最近又再看專業(yè)相關(guān)的論文溯职,其中很多都用到了假設(shè)檢驗(yàn)的方法弹渔,感覺自己對(duì)這方面知識(shí)的記憶還不是很深刻,所以都寫下來宏胯,以幫助記憶羽嫡。

1. 假設(shè)檢驗(yàn)問題的來源

這兩天主要看的論文是關(guān)于旅行時(shí)間估計(jì)的。大致想法是用上下游卡口的過車數(shù)據(jù)肩袍,篩選出即通過了上游卡口又通過了下游卡口的車輛杭棵,計(jì)算他們?cè)趦蓚€(gè)卡口之間的行程時(shí)間,在此基礎(chǔ)上估計(jì)相應(yīng)時(shí)段兩個(gè)卡口間的總體旅行時(shí)間了牛。但在真實(shí)數(shù)據(jù)中颜屠,會(huì)遇到異常值的問題辰妙,比如一個(gè)路段里可能有多個(gè)上下匝道,有些車可能在路段中的某個(gè)匝道下道甫窟,過一段時(shí)間又在路段里的某個(gè)匝道上道密浑,再經(jīng)過下游卡口,這樣卡口所記錄的行程時(shí)間就不是這輛車直接從上游卡口到下游卡口的時(shí)間了粗井,而是會(huì)長(zhǎng)不少尔破,實(shí)際處理過程中就需要把這些異常值去掉。但實(shí)際上處理異常值的方法只是借鑒了假設(shè)檢驗(yàn)的思想以及應(yīng)用了一些結(jié)論浇衬,并不是直接的假設(shè)檢驗(yàn)懒构。在這篇文章中我們還是專注于假設(shè)檢驗(yàn)本身的方法論,以上的場(chǎng)景只是作為一個(gè)引子耘擂。

2.假設(shè)檢驗(yàn)想實(shí)現(xiàn)的目的

進(jìn)一步考慮這樣一個(gè)場(chǎng)景胆剧,在某一天我從某條路段上抽樣了若干如1中所述的旅行時(shí)間樣本,然后我想知道這條路在那個(gè)時(shí)間段是否是擁堵的醉冤,我該怎么做呢秩霍?最簡(jiǎn)單的辦法當(dāng)然是,將這些時(shí)間和正常的旅行時(shí)間進(jìn)行比較蚁阳,如果他們大多都遠(yuǎn)遠(yuǎn)大于正常旅行時(shí)間铃绒,那顯然是擁堵的。拿所有樣本去進(jìn)行比較有些繁瑣螺捐,因此我們可以使用均值來代表原樣本的特征颠悬,再去和正常旅行時(shí)間比較,在大多數(shù)樣本都遠(yuǎn)遠(yuǎn)大于正常旅行時(shí)間的情況下定血,這樣的比較也很容易得到肯定的結(jié)論赔癌。

這樣的比較看起來很合理,但其實(shí)我回避了一個(gè)重要的問題糠悼,那就是如何去衡量“遠(yuǎn)遠(yuǎn)大于”届榄。10分鐘對(duì)3分鐘是不是遠(yuǎn)遠(yuǎn)大于?還是20分鐘對(duì)10分鐘是遠(yuǎn)遠(yuǎn)大于倔喂?光憑感覺很難說清楚铝条。這個(gè)時(shí)候就需要假設(shè)檢驗(yàn)出場(chǎng)了。其核心思想就是說席噩,現(xiàn)在我假設(shè)正常的旅行時(shí)間應(yīng)該服從某一分布班缰,然后我看在這樣的分布的條件下,我抽出以上那些樣本的概率有多大悼枢。如果這個(gè)概率很大埠忘,那我基本上可以認(rèn)為總體是符合正常旅行時(shí)間分布的;如果這個(gè)概率很小,也就是出現(xiàn)了所謂的小概率事件莹妒,那我就認(rèn)為總體應(yīng)該不是正常的旅行時(shí)間分布名船。而如果樣本不僅是小概率事件,而且還是大于正常旅行時(shí)間的小概率事件旨怠,那我就有理由認(rèn)為這條路在抽樣的那個(gè)時(shí)間段內(nèi)渠驼,是擁堵了。

根據(jù)假設(shè)的分布不同鉴腻,就出現(xiàn)了不同的檢驗(yàn)方法迷扇,以下對(duì)集中常用的假設(shè)檢驗(yàn)方法進(jìn)行了總結(jié)(時(shí)間關(guān)系,沒有一次性總結(jié)所有的方法爽哎,而是不斷補(bǔ)充)

1)z檢驗(yàn)

z檢驗(yàn)應(yīng)該是最基礎(chǔ)的假設(shè)檢驗(yàn)方法蜓席,因?yàn)樗羌僭O(shè)理想分布是正態(tài)分布。中心極限定理告訴我們课锌,當(dāng)樣本數(shù)量足夠大的時(shí)候厨内,任何抽樣的均值都會(huì)服從正態(tài)分布(可能還有一些其他條件?)渺贤。因此假設(shè)理想分布是正態(tài)分布就是最符合直覺的一個(gè)辦法隘庄。那么這個(gè)理想正態(tài)分布的參數(shù)是什么呢?首先它的均值我們應(yīng)該是知道的癣亚,在我們的例子中就應(yīng)該是正常旅行時(shí)間(如果你連這個(gè)都不知道,有什么比較的意義呢获印?)述雾,其次還有方差,這個(gè)其實(shí)是不太容易知道的兼丰,就比如你隨便在五道口拉一個(gè)人都能夠大概說出從13號(hào)線從西直門到五道口的平均時(shí)間玻孟,但如果讓你說方差,恐怕沒多少人能有把握地說出來鳍征。因此對(duì)于如何確定這個(gè)方差黍翎,實(shí)際是需要討論的,其實(shí)也由此衍生出了不同的檢驗(yàn)方法艳丛。在z檢驗(yàn)中匣掸,我們認(rèn)為這個(gè)方差是已知的。因此現(xiàn)在均值和方差都知道了氮双,也就能構(gòu)造出理想的正態(tài)分布了碰酝。

構(gòu)造出理想的正態(tài)分布之后,我們想知道的是在理想分布下戴差,抽到我們現(xiàn)在手里的樣本的概率是多大送爸?如果概率大,我們就認(rèn)為這些樣本應(yīng)該是來自于理想分布,如果概率小袭厂,顯然就很有理由相信他們不是來自于理想分布墨吓。如何判斷這個(gè)概率是大還是小呢?人們是這樣設(shè)定的:如果樣本均值只有在過大或過小的情況下才不正常纹磺,那么就認(rèn)為樣本均值大到或小到出現(xiàn)概率小于alpha時(shí)可以拒絕理想分布帖烘。如果樣本均值在過大和過小的情況下均不正常,那么就認(rèn)為樣本均值大到出現(xiàn)概率小于alpha/2和小到出現(xiàn)概率小于alpha/2時(shí)爽航,可以拒絕理想分布蚓让。這里的alpha常常被成為顯著性水平,可以理解為“究竟樣本和理想分布的差異有多顯著讥珍,才會(huì)讓我們認(rèn)為理想分布是不正確的历极?”在實(shí)際研究中,alpha的取值可以是0.1衷佃,0.05等等趟卸。而這里面的概率(也就是和alpha進(jìn)行比較的那個(gè)概率),我們稱其為p-value氏义。

對(duì)“樣本均值大到或小到出現(xiàn)概率小于alpha時(shí)”再進(jìn)行一些解釋锄列。如果我們觀察的變量是離散的,那么直接可以得到樣本出現(xiàn)的概率惯悠,也就可以直接和alpha繼續(xù)比較邻邮。如果觀察的變量是連續(xù)的,那實(shí)際上抽到任何一個(gè)樣本的概率都是0克婶,也就沒有和alpha進(jìn)行比較的意義了筒严。因此,再變量連續(xù)的情況下情萤,我們一般是把大于或小于樣本均值的概率作為p-value鸭蛙,如果大于或小于這個(gè)樣本均值的概率很小,那自然這個(gè)樣本均值本身也很異常了筋岛,所以也有很大利用拒絕理想分布娶视。

上面是從p-value的角度對(duì)z檢驗(yàn)的思想進(jìn)行的闡述。換一個(gè)角度睁宰,其實(shí)每一個(gè)概率都對(duì)應(yīng)了一個(gè)隨機(jī)變量的取值肪获,既然我們?cè)O(shè)定了顯著性水平alpha,可不可以也同時(shí)設(shè)定一個(gè)與alpha對(duì)應(yīng)的隨機(jī)變量值呢勋陪?當(dāng)樣本均值大于或小于這個(gè)值時(shí)贪磺,就認(rèn)為理想分布是不正確的。答案是可以的诅愚。但對(duì)于不同的正態(tài)分布寒锚,與alpha對(duì)應(yīng)的隨機(jī)變量值是不同的劫映,如果每假設(shè)一個(gè)理想分布都要去算一遍這個(gè)值,意味著每次都要求解一個(gè)帶積分的方程刹前,比較麻煩泳赋。因此考慮構(gòu)造一個(gè)標(biāo)準(zhǔn)正態(tài)分布,把理想分布下的樣本均值轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布的某個(gè)值(只需仿射變換即可)喇喉,再與alpha在標(biāo)準(zhǔn)正態(tài)分布下的值(預(yù)先算好即可)進(jìn)行比較祖今,這樣就會(huì)比每次都去求解積分方程簡(jiǎn)單許多。而由樣本均值轉(zhuǎn)化為來的值拣技,即是z值千诬,預(yù)先算好的值,就是標(biāo)準(zhǔn)正態(tài)分布表膏斤。這是從p-value以外的另一個(gè)角度來理解z檢驗(yàn)徐绑,其實(shí)應(yīng)該也是z檢驗(yàn)最初的解釋(因?yàn)槌霈F(xiàn)了z這個(gè)名稱),不過我個(gè)人還是覺得從p-value的角度更好理解一些莫辨。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末傲茄,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子沮榜,更是在濱河造成了極大的恐慌盘榨,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蟆融,死亡現(xiàn)場(chǎng)離奇詭異草巡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)型酥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門捷犹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人冕末,你說我怎么就攤上這事÷滤蹋” “怎么了档桃?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)憔晒。 經(jīng)常有香客問我藻肄,道長(zhǎng),這世上最難降的妖魔是什么拒担? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任嘹屯,我火速辦了婚禮,結(jié)果婚禮上从撼,老公的妹妹穿的比我還像新娘州弟。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布婆翔。 她就那樣靜靜地躺著拯杠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪啃奴。 梳的紋絲不亂的頭發(fā)上潭陪,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音最蕾,去河邊找鬼依溯。 笑死,一個(gè)胖子當(dāng)著我的面吹牛瘟则,可吹牛的內(nèi)容都是我干的黎炉。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼壹粟,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼拜隧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起趁仙,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤洪添,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后雀费,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體干奢,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年盏袄,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了忿峻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辕羽,死狀恐怖逛尚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情刁愿,我是刑警寧澤绰寞,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站铣口,受9級(jí)特大地震影響滤钱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜脑题,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一件缸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧叔遂,春花似錦他炊、人聲如沸争剿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)秒梅。三九已至,卻和暖如春舌胶,著一層夾襖步出監(jiān)牢的瞬間捆蜀,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工幔嫂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留辆它,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓履恩,卻偏偏與公主長(zhǎng)得像锰茉,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子切心,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容