最近又再看專業(yè)相關(guān)的論文溯职,其中很多都用到了假設(shè)檢驗(yàn)的方法弹渔,感覺自己對(duì)這方面知識(shí)的記憶還不是很深刻,所以都寫下來宏胯,以幫助記憶羽嫡。
1. 假設(shè)檢驗(yàn)問題的來源
這兩天主要看的論文是關(guān)于旅行時(shí)間估計(jì)的。大致想法是用上下游卡口的過車數(shù)據(jù)肩袍,篩選出即通過了上游卡口又通過了下游卡口的車輛杭棵,計(jì)算他們?cè)趦蓚€(gè)卡口之間的行程時(shí)間,在此基礎(chǔ)上估計(jì)相應(yīng)時(shí)段兩個(gè)卡口間的總體旅行時(shí)間了牛。但在真實(shí)數(shù)據(jù)中颜屠,會(huì)遇到異常值的問題辰妙,比如一個(gè)路段里可能有多個(gè)上下匝道,有些車可能在路段中的某個(gè)匝道下道甫窟,過一段時(shí)間又在路段里的某個(gè)匝道上道密浑,再經(jīng)過下游卡口,這樣卡口所記錄的行程時(shí)間就不是這輛車直接從上游卡口到下游卡口的時(shí)間了粗井,而是會(huì)長(zhǎng)不少尔破,實(shí)際處理過程中就需要把這些異常值去掉。但實(shí)際上處理異常值的方法只是借鑒了假設(shè)檢驗(yàn)的思想以及應(yīng)用了一些結(jié)論浇衬,并不是直接的假設(shè)檢驗(yàn)懒构。在這篇文章中我們還是專注于假設(shè)檢驗(yàn)本身的方法論,以上的場(chǎng)景只是作為一個(gè)引子耘擂。
2.假設(shè)檢驗(yàn)想實(shí)現(xiàn)的目的
進(jìn)一步考慮這樣一個(gè)場(chǎng)景胆剧,在某一天我從某條路段上抽樣了若干如1中所述的旅行時(shí)間樣本,然后我想知道這條路在那個(gè)時(shí)間段是否是擁堵的醉冤,我該怎么做呢秩霍?最簡(jiǎn)單的辦法當(dāng)然是,將這些時(shí)間和正常的旅行時(shí)間進(jìn)行比較蚁阳,如果他們大多都遠(yuǎn)遠(yuǎn)大于正常旅行時(shí)間铃绒,那顯然是擁堵的。拿所有樣本去進(jìn)行比較有些繁瑣螺捐,因此我們可以使用均值來代表原樣本的特征颠悬,再去和正常旅行時(shí)間比較,在大多數(shù)樣本都遠(yuǎn)遠(yuǎn)大于正常旅行時(shí)間的情況下定血,這樣的比較也很容易得到肯定的結(jié)論赔癌。
這樣的比較看起來很合理,但其實(shí)我回避了一個(gè)重要的問題糠悼,那就是如何去衡量“遠(yuǎn)遠(yuǎn)大于”届榄。10分鐘對(duì)3分鐘是不是遠(yuǎn)遠(yuǎn)大于?還是20分鐘對(duì)10分鐘是遠(yuǎn)遠(yuǎn)大于倔喂?光憑感覺很難說清楚铝条。這個(gè)時(shí)候就需要假設(shè)檢驗(yàn)出場(chǎng)了。其核心思想就是說席噩,現(xiàn)在我假設(shè)正常的旅行時(shí)間應(yīng)該服從某一分布班缰,然后我看在這樣的分布的條件下,我抽出以上那些樣本的概率有多大悼枢。如果這個(gè)概率很大埠忘,那我基本上可以認(rèn)為總體是符合正常旅行時(shí)間分布的;如果這個(gè)概率很小,也就是出現(xiàn)了所謂的小概率事件莹妒,那我就認(rèn)為總體應(yīng)該不是正常的旅行時(shí)間分布名船。而如果樣本不僅是小概率事件,而且還是大于正常旅行時(shí)間的小概率事件旨怠,那我就有理由認(rèn)為這條路在抽樣的那個(gè)時(shí)間段內(nèi)渠驼,是擁堵了。
根據(jù)假設(shè)的分布不同鉴腻,就出現(xiàn)了不同的檢驗(yàn)方法迷扇,以下對(duì)集中常用的假設(shè)檢驗(yàn)方法進(jìn)行了總結(jié)(時(shí)間關(guān)系,沒有一次性總結(jié)所有的方法爽哎,而是不斷補(bǔ)充)
1)z檢驗(yàn)
z檢驗(yàn)應(yīng)該是最基礎(chǔ)的假設(shè)檢驗(yàn)方法蜓席,因?yàn)樗羌僭O(shè)理想分布是正態(tài)分布。中心極限定理告訴我們课锌,當(dāng)樣本數(shù)量足夠大的時(shí)候厨内,任何抽樣的均值都會(huì)服從正態(tài)分布(可能還有一些其他條件?)渺贤。因此假設(shè)理想分布是正態(tài)分布就是最符合直覺的一個(gè)辦法隘庄。那么這個(gè)理想正態(tài)分布的參數(shù)是什么呢?首先它的均值我們應(yīng)該是知道的癣亚,在我們的例子中就應(yīng)該是正常旅行時(shí)間(如果你連這個(gè)都不知道,有什么比較的意義呢获印?)述雾,其次還有方差,這個(gè)其實(shí)是不太容易知道的兼丰,就比如你隨便在五道口拉一個(gè)人都能夠大概說出從13號(hào)線從西直門到五道口的平均時(shí)間玻孟,但如果讓你說方差,恐怕沒多少人能有把握地說出來鳍征。因此對(duì)于如何確定這個(gè)方差黍翎,實(shí)際是需要討論的,其實(shí)也由此衍生出了不同的檢驗(yàn)方法艳丛。在z檢驗(yàn)中匣掸,我們認(rèn)為這個(gè)方差是已知的。因此現(xiàn)在均值和方差都知道了氮双,也就能構(gòu)造出理想的正態(tài)分布了碰酝。
構(gòu)造出理想的正態(tài)分布之后,我們想知道的是在理想分布下戴差,抽到我們現(xiàn)在手里的樣本的概率是多大送爸?如果概率大,我們就認(rèn)為這些樣本應(yīng)該是來自于理想分布,如果概率小袭厂,顯然就很有理由相信他們不是來自于理想分布墨吓。如何判斷這個(gè)概率是大還是小呢?人們是這樣設(shè)定的:如果樣本均值只有在過大或過小的情況下才不正常纹磺,那么就認(rèn)為樣本均值大到或小到出現(xiàn)概率小于alpha時(shí)可以拒絕理想分布帖烘。如果樣本均值在過大和過小的情況下均不正常,那么就認(rèn)為樣本均值大到出現(xiàn)概率小于alpha/2和小到出現(xiàn)概率小于alpha/2時(shí)爽航,可以拒絕理想分布蚓让。這里的alpha常常被成為顯著性水平,可以理解為“究竟樣本和理想分布的差異有多顯著讥珍,才會(huì)讓我們認(rèn)為理想分布是不正確的历极?”在實(shí)際研究中,alpha的取值可以是0.1衷佃,0.05等等趟卸。而這里面的概率(也就是和alpha進(jìn)行比較的那個(gè)概率),我們稱其為p-value氏义。
對(duì)“樣本均值大到或小到出現(xiàn)概率小于alpha時(shí)”再進(jìn)行一些解釋锄列。如果我們觀察的變量是離散的,那么直接可以得到樣本出現(xiàn)的概率惯悠,也就可以直接和alpha繼續(xù)比較邻邮。如果觀察的變量是連續(xù)的,那實(shí)際上抽到任何一個(gè)樣本的概率都是0克婶,也就沒有和alpha進(jìn)行比較的意義了筒严。因此,再變量連續(xù)的情況下情萤,我們一般是把大于或小于樣本均值的概率作為p-value鸭蛙,如果大于或小于這個(gè)樣本均值的概率很小,那自然這個(gè)樣本均值本身也很異常了筋岛,所以也有很大利用拒絕理想分布娶视。
上面是從p-value的角度對(duì)z檢驗(yàn)的思想進(jìn)行的闡述。換一個(gè)角度睁宰,其實(shí)每一個(gè)概率都對(duì)應(yīng)了一個(gè)隨機(jī)變量的取值肪获,既然我們?cè)O(shè)定了顯著性水平alpha,可不可以也同時(shí)設(shè)定一個(gè)與alpha對(duì)應(yīng)的隨機(jī)變量值呢勋陪?當(dāng)樣本均值大于或小于這個(gè)值時(shí)贪磺,就認(rèn)為理想分布是不正確的。答案是可以的诅愚。但對(duì)于不同的正態(tài)分布寒锚,與alpha對(duì)應(yīng)的隨機(jī)變量值是不同的劫映,如果每假設(shè)一個(gè)理想分布都要去算一遍這個(gè)值,意味著每次都要求解一個(gè)帶積分的方程刹前,比較麻煩泳赋。因此考慮構(gòu)造一個(gè)標(biāo)準(zhǔn)正態(tài)分布,把理想分布下的樣本均值轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布的某個(gè)值(只需仿射變換即可)喇喉,再與alpha在標(biāo)準(zhǔn)正態(tài)分布下的值(預(yù)先算好即可)進(jìn)行比較祖今,這樣就會(huì)比每次都去求解積分方程簡(jiǎn)單許多。而由樣本均值轉(zhuǎn)化為來的值拣技,即是z值千诬,預(yù)先算好的值,就是標(biāo)準(zhǔn)正態(tài)分布表膏斤。這是從p-value以外的另一個(gè)角度來理解z檢驗(yàn)徐绑,其實(shí)應(yīng)該也是z檢驗(yàn)最初的解釋(因?yàn)槌霈F(xiàn)了z這個(gè)名稱),不過我個(gè)人還是覺得從p-value的角度更好理解一些莫辨。