在樣本統(tǒng)計分析中邪驮,假設(shè)檢驗是最常見的一種數(shù)據(jù)分析形式笙隙,也是樣本分析中必不可缺的一部分。今天我們就從數(shù)據(jù)分析中的假設(shè)檢驗開始來分析下基于有限樣本的假設(shè)檢驗方法隔心。
首先白群,我們知道這一假設(shè)檢驗是基于有限樣本的,因而樣本的特性和樣本本身的偏差對于假設(shè)的影響是非常大的硬霍。所以帜慢,未來解決這一麻煩,某一天才數(shù)學(xué)家(好吧 唯卖,我忘了是誰粱玲。-_-||)想出了一個辦法來解決這一問題:Bootstrap方法。Bootstrap方法分為兩種拜轨,非參數(shù)Bootstrap方法和參數(shù)Bootstrap方法抽减。它們的區(qū)別是為了解決假設(shè)檢驗中總體樣本分布是否含有未知參數(shù),有未知參數(shù)則采用參數(shù)的Bootstrap方法橄碾,沒有參數(shù)就采用非參數(shù)Bootstrap方法卵沉。
好的,那么問題來了法牲。既然Bootstrap方法這么重要史汗,那什么是Bootstrap方法呢?
分開說皆串,所謂非參數(shù)bootstrap方法:設(shè)總體分布F未知淹办,但是已經(jīng)得到一個容量為n的來自F的數(shù)據(jù)樣本眉枕,自這一樣本按放回抽樣的方法抽取一個容量為n的樣本恶复,這種樣本被稱為bootstrap樣本。相繼地速挑,獨(dú)立地自原始樣本中取多個Bootstrap樣本的方法被稱為非參數(shù)的Boostrap方法
參數(shù)bootstrap方法:已知研究總體的分布為F(x谤牡;p),p未知±驯Γ現(xiàn)在有一個來自F(x翅萤;p)的樣本:X1,X2腊满,X3套么,....培己,Xn。利用這一樣本在F(x胚泌;p)下求出p的最大似然估計p^省咨,再以F(x;p^)產(chǎn)生足夠多(>1000)的樣本玷室,并以這些樣本再進(jìn)行非參數(shù)的bootstrap方法統(tǒng)計分析零蓉,稱為參數(shù)bootstrap方法
它們的目的就是在于解決實(shí)驗樣本系統(tǒng)性偏差(雖然并不能完全解決,(=_=)!!)穷缤,并減少非系統(tǒng)性偏差敌蜂。
接下來,假設(shè)津肛!在解決了樣本的問題之后章喉,我們繼續(xù)回到假設(shè)檢驗中。既然是假設(shè)檢驗身坐,那么第一步就應(yīng)該是假設(shè)囊陡,那我們怎么假設(shè)呢?
要回答這個問題就需要知道掀亥,到底有哪些數(shù)據(jù)(隨機(jī)變量)分布方式撞反?它們都有什么特點(diǎn)?
隨機(jī)變量的基礎(chǔ)分布主要有五種(注意搪花,是基礎(chǔ)分布遏片。):均勻分布、二項分布撮竿、指數(shù)分布吮便、泊松分布、正態(tài)分布幢踏。在這五種隨機(jī)變量分布中均勻分布和二項分布一般應(yīng)用的場景比較簡單髓需,所以呢,此處不做介紹房蝉。這里我們重點(diǎn)來討論正態(tài)分布僚匆、泊松分布和指數(shù)分布。
泊松分布:泊松分布:(λ^k)Exp(-k)/(K!)搭幻,?? 描述單位時間/空間內(nèi)咧擂,某一隨機(jī)事件的發(fā)生次數(shù);
指數(shù)分布:F(x)=aExp(-aX) 檀蹋,???? 一般用于設(shè)備可靠性松申,概率事件發(fā)生可能性的研究和描述;
正態(tài)分布:N(μ,σ2)? 贸桶,? 描述隨機(jī)變量的樣本數(shù)據(jù)集中于均值并隨方差而波動舅逸;
所以,在得到Bootstrap樣本數(shù)據(jù)后皇筛,我們應(yīng)該首先根據(jù)所選擇的事件本身的特征堡赔,決定應(yīng)該選取的假設(shè)分布。單位時間/空間內(nèi)的研究采用泊松分布设联,概率發(fā)生事件采用正態(tài)分布善已,設(shè)備可靠性以及事情在未來一段時間內(nèi)發(fā)生的可能性等的研究則采用指數(shù)分布進(jìn)行假設(shè)。
好的离例,接下來就是本文的重點(diǎn)了——假設(shè)檢驗换团。在確定了樣本,并且做出假設(shè)后就該是本文的主題了宫蛆,假設(shè)檢驗艘包。
假設(shè)檢驗的核心原理是小概率反證法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次試驗中基本上不會發(fā)生耀盗。反證法思想是先提出原假設(shè)Ho及其備擇假設(shè)H1想虎,在顯著性水平為a的條件下,確定該假設(shè)的拒絕域叛拷,一般其拒絕域為原假設(shè)與備擇假設(shè)的差值舌厨,若其大于顯著性水平則為拒絕原假設(shè)。
無偏性準(zhǔn)則:這是假設(shè)檢驗中最重要的原則忿薇,要求檢驗在備擇假設(shè)h1成立時作出正確判斷的概率不小于檢驗水平α裙椭,這就是說在h0不成立時拒絕h0的概率要不小于在h0成立時拒絕h0的概率,這種性質(zhì)稱為無偏性署浩,具有這種性質(zhì)的檢驗稱為無偏檢驗揉燃。
基于不同的樣本數(shù)據(jù)和總體分布,主要有以下幾種檢驗方法:Z-檢驗法筋栋、T-檢驗法炊汤、卡方檢驗、F-檢驗法弊攘、秩和檢驗等
其中Z-檢驗法:是一種基于大樣本的正態(tài)分布假設(shè)檢驗方法抢腐,條件是已知總體方差,期望肴颊,并且得到大樣本(樣本數(shù)大于30)時的假設(shè)檢驗
其檢驗原理如下氓栈,對某一服從正態(tài)分布的樣本X1、X2婿着、X3.....Xn,其期望為Xa,方差為S2竟宋。則其總體的期望為Xo提完,總體方差為σ2,在顯著性水平為α的條件下存在等式:T=|(Xa-Xo)/(α/√n)|丘侠,拒絕域為T>=Tα徒欣,Tα=Φ(α/2)
T-檢驗法:是指在已知總體期望,及樣本的期望蜗字、方差對總體進(jìn)行假設(shè)檢驗打肝。拒絕域為To=|X-Xa|/(σ/√n)>=T(α/2)[n-1],假設(shè)檢驗的判斷 依據(jù)是T分布(在接下來的復(fù)雜分布中會講到的)
χ-檢驗(也就是所謂的卡方檢驗):已知總體方差σ2挪捕、樣本方差S2及樣本均值μ粗梭,且總體均值μ0未知,其拒絕域為:χ^2o=(n-1)S^2/σ2>=χ2(α/2)[n-1]级零,其拒絕域的判斷依據(jù)χ^2分布(卡方分布)断医。
秩和檢驗:暫時不講,下篇文章說奏纪。
以上即是假設(shè)檢驗的最初步的知識鉴嗤,接下來分析下假設(shè)檢驗中常見的幾種復(fù)雜的分布,一般也用于對事件的復(fù)合分析序调。
χ分布:χ2=χ2(n)醉锅,一般用于描述多個隨機(jī)變量分布的線性相加之和
T分布:T=X/√(Y/n)??,? X=N(0,1)? ;??? Y=χ2(n)????发绢,??一般用于描述變量X對于事件Y的影響程度
F分布:F=(U/n1)/(V/n2)???荣挨,?? U=χ2(n1)????,? V=χ2(n2)朴摊;?? 一般用于描述不同變量對于事件發(fā)生的影響程度
OK默垄,時間有限,這篇文章就這么多吧甚纲!接下來應(yīng)該會以數(shù)據(jù)分析寫一整個的系列文章口锭,希望可以在這個過程中收獲更多!