基于有限樣本的假設(shè)檢驗方法分析

在樣本統(tǒng)計分析中邪驮,假設(shè)檢驗是最常見的一種數(shù)據(jù)分析形式笙隙,也是樣本分析中必不可缺的一部分。今天我們就從數(shù)據(jù)分析中的假設(shè)檢驗開始來分析下基于有限樣本的假設(shè)檢驗方法隔心。

首先白群,我們知道這一假設(shè)檢驗是基于有限樣本的,因而樣本的特性和樣本本身的偏差對于假設(shè)的影響是非常大的硬霍。所以帜慢,未來解決這一麻煩,某一天才數(shù)學(xué)家(好吧 唯卖,我忘了是誰粱玲。-_-||)想出了一個辦法來解決這一問題:Bootstrap方法。Bootstrap方法分為兩種拜轨,非參數(shù)Bootstrap方法和參數(shù)Bootstrap方法抽减。它們的區(qū)別是為了解決假設(shè)檢驗中總體樣本分布是否含有未知參數(shù),有未知參數(shù)則采用參數(shù)的Bootstrap方法橄碾,沒有參數(shù)就采用非參數(shù)Bootstrap方法卵沉。

好的,那么問題來了法牲。既然Bootstrap方法這么重要史汗,那什么是Bootstrap方法呢?

分開說皆串,所謂非參數(shù)bootstrap方法:設(shè)總體分布F未知淹办,但是已經(jīng)得到一個容量為n的來自F的數(shù)據(jù)樣本眉枕,自這一樣本按放回抽樣的方法抽取一個容量為n的樣本恶复,這種樣本被稱為bootstrap樣本。相繼地速挑,獨(dú)立地自原始樣本中取多個Bootstrap樣本的方法被稱為非參數(shù)的Boostrap方法

參數(shù)bootstrap方法:已知研究總體的分布為F(x谤牡;p),p未知±驯Γ現(xiàn)在有一個來自F(x翅萤;p)的樣本:X1,X2腊满,X3套么,....培己,Xn。利用這一樣本在F(x胚泌;p)下求出p的最大似然估計p^省咨,再以F(x;p^)產(chǎn)生足夠多(>1000)的樣本玷室,并以這些樣本再進(jìn)行非參數(shù)的bootstrap方法統(tǒng)計分析零蓉,稱為參數(shù)bootstrap方法

它們的目的就是在于解決實(shí)驗樣本系統(tǒng)性偏差(雖然并不能完全解決,(=_=)!!)穷缤,并減少非系統(tǒng)性偏差敌蜂。

接下來,假設(shè)津肛!在解決了樣本的問題之后章喉,我們繼續(xù)回到假設(shè)檢驗中。既然是假設(shè)檢驗身坐,那么第一步就應(yīng)該是假設(shè)囊陡,那我們怎么假設(shè)呢?

要回答這個問題就需要知道掀亥,到底有哪些數(shù)據(jù)(隨機(jī)變量)分布方式撞反?它們都有什么特點(diǎn)?

隨機(jī)變量的基礎(chǔ)分布主要有五種(注意搪花,是基礎(chǔ)分布遏片。):均勻分布、二項分布撮竿、指數(shù)分布吮便、泊松分布、正態(tài)分布幢踏。在這五種隨機(jī)變量分布中均勻分布和二項分布一般應(yīng)用的場景比較簡單髓需,所以呢,此處不做介紹房蝉。這里我們重點(diǎn)來討論正態(tài)分布僚匆、泊松分布和指數(shù)分布。

泊松分布:泊松分布:(λ^k)Exp(-k)/(K!)搭幻,?? 描述單位時間/空間內(nèi)咧擂,某一隨機(jī)事件的發(fā)生次數(shù);

指數(shù)分布:F(x)=aExp(-aX) 檀蹋,???? 一般用于設(shè)備可靠性松申,概率事件發(fā)生可能性的研究和描述;

正態(tài)分布:N(μ,σ2)? 贸桶,? 描述隨機(jī)變量的樣本數(shù)據(jù)集中于均值并隨方差而波動舅逸;

所以,在得到Bootstrap樣本數(shù)據(jù)后皇筛,我們應(yīng)該首先根據(jù)所選擇的事件本身的特征堡赔,決定應(yīng)該選取的假設(shè)分布。單位時間/空間內(nèi)的研究采用泊松分布设联,概率發(fā)生事件采用正態(tài)分布善已,設(shè)備可靠性以及事情在未來一段時間內(nèi)發(fā)生的可能性等的研究則采用指數(shù)分布進(jìn)行假設(shè)。

好的离例,接下來就是本文的重點(diǎn)了——假設(shè)檢驗换团。在確定了樣本,并且做出假設(shè)后就該是本文的主題了宫蛆,假設(shè)檢驗艘包。

假設(shè)檢驗的核心原理是小概率反證法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次試驗中基本上不會發(fā)生耀盗。反證法思想是先提出原假設(shè)Ho及其備擇假設(shè)H1想虎,在顯著性水平為a的條件下,確定該假設(shè)的拒絕域叛拷,一般其拒絕域為原假設(shè)與備擇假設(shè)的差值舌厨,若其大于顯著性水平則為拒絕原假設(shè)。

無偏性準(zhǔn)則:這是假設(shè)檢驗中最重要的原則忿薇,要求檢驗在備擇假設(shè)h1成立時作出正確判斷的概率不小于檢驗水平α裙椭,這就是說在h0不成立時拒絕h0的概率要不小于在h0成立時拒絕h0的概率,這種性質(zhì)稱為無偏性署浩,具有這種性質(zhì)的檢驗稱為無偏檢驗揉燃。

基于不同的樣本數(shù)據(jù)和總體分布,主要有以下幾種檢驗方法:Z-檢驗法筋栋、T-檢驗法炊汤、卡方檢驗、F-檢驗法弊攘、秩和檢驗等

其中Z-檢驗法:是一種基于大樣本的正態(tài)分布假設(shè)檢驗方法抢腐,條件是已知總體方差,期望肴颊,并且得到大樣本(樣本數(shù)大于30)時的假設(shè)檢驗

其檢驗原理如下氓栈,對某一服從正態(tài)分布的樣本X1、X2婿着、X3.....Xn,其期望為Xa,方差為S2竟宋。則其總體的期望為Xo提完,總體方差為σ2,在顯著性水平為α的條件下存在等式:T=|(Xa-Xo)/(α/√n)|丘侠,拒絕域為T>=Tα徒欣,Tα=Φ(α/2)

T-檢驗法:是指在已知總體期望,及樣本的期望蜗字、方差對總體進(jìn)行假設(shè)檢驗打肝。拒絕域為To=|X-Xa|/(σ/√n)>=T(α/2)[n-1],假設(shè)檢驗的判斷 依據(jù)是T分布(在接下來的復(fù)雜分布中會講到的)

χ-檢驗(也就是所謂的卡方檢驗):已知總體方差σ2挪捕、樣本方差S2及樣本均值μ粗梭,且總體均值μ0未知,其拒絕域為:χ^2o=(n-1)S^2/σ2>=χ2(α/2)[n-1]级零,其拒絕域的判斷依據(jù)χ^2分布(卡方分布)断医。

秩和檢驗:暫時不講,下篇文章說奏纪。

以上即是假設(shè)檢驗的最初步的知識鉴嗤,接下來分析下假設(shè)檢驗中常見的幾種復(fù)雜的分布,一般也用于對事件的復(fù)合分析序调。

χ分布:χ2=χ2(n)醉锅,一般用于描述多個隨機(jī)變量分布的線性相加之和

T分布:T=X/√(Y/n)??,? X=N(0,1)? ;??? Y=χ2(n)????发绢,??一般用于描述變量X對于事件Y的影響程度

F分布:F=(U/n1)/(V/n2)???荣挨,?? U=χ2(n1)????,? V=χ2(n2)朴摊;?? 一般用于描述不同變量對于事件發(fā)生的影響程度

OK默垄,時間有限,這篇文章就這么多吧甚纲!接下來應(yīng)該會以數(shù)據(jù)分析寫一整個的系列文章口锭,希望可以在這個過程中收獲更多!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末介杆,一起剝皮案震驚了整個濱河市鹃操,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌春哨,老刑警劉巖荆隘,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異赴背,居然都是意外死亡椰拒,警方通過查閱死者的電腦和手機(jī)晶渠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來燃观,“玉大人褒脯,你說我怎么就攤上這事±禄伲” “怎么了番川?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長脊框。 經(jīng)常有香客問我颁督,道長,這世上最難降的妖魔是什么浇雹? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任沉御,我火速辦了婚禮,結(jié)果婚禮上箫爷,老公的妹妹穿的比我還像新娘嚷节。我一直安慰自己,他們只是感情好虎锚,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布硫痰。 她就那樣靜靜地躺著,像睡著了一般窜护。 火紅的嫁衣襯著肌膚如雪效斑。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天柱徙,我揣著相機(jī)與錄音缓屠,去河邊找鬼。 笑死护侮,一個胖子當(dāng)著我的面吹牛敌完,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播羊初,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼滨溉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了长赞?” 一聲冷哼從身側(cè)響起晦攒,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎得哆,沒想到半個月后脯颜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡贩据,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年栋操,在試婚紗的時候發(fā)現(xiàn)自己被綠了闸餐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡讼庇,死狀恐怖绎巨,靈堂內(nèi)的尸體忽然破棺而出近尚,到底是詐尸還是另有隱情蠕啄,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布戈锻,位于F島的核電站歼跟,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏格遭。R本人自食惡果不足惜哈街,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望拒迅。 院中可真熱鬧骚秦,春花似錦、人聲如沸璧微。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽前硫。三九已至胞得,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間屹电,已是汗流浹背阶剑。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留危号,地道東北人牧愁。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像外莲,于是被迫代替她去往敵國和親猪半。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容