抽樣與區(qū)間估計
1.1秤茅、什么是抽樣
- 抽樣是一種方法彻秆,它使我們能夠基于子集(樣本)的統(tǒng)計信息來獲取總體信息懈词,而無需調查所有樣本。
個體:是收集數(shù)據(jù)的基本單位
總體:是所有感興趣的個體集合
樣本:是總體的一個子集
1.2辩诞、抽樣的步驟
第一步:確定調查總體:即明確調查的全部對象及其范圍坎弯。這是抽樣調查的前提和基礎。
第二步:確定抽樣框:抽樣框译暂,是指對可以選擇作為樣本的總體單位列出名冊或排序編號抠忘,以確定總體的抽樣范圍和結構。設計出了抽樣框后外永,便可采用抽簽的方式或按照隨機數(shù)表來抽選必要的單位數(shù)崎脉。(好的抽樣框應做到:完整而不重復。)常見的抽樣框:大學學生花名冊伯顶、城市黃頁里的電話列表囚灼、工商企業(yè)名錄。再舉一個例子:要從10000名職工中抽出200名組成一個樣本祭衩,則10000名職工的名冊灶体,就是抽樣框。
第三步:選擇抽樣方案
第四步:決定樣本量
第五步:實施抽樣
第六步:測算結果:這是抽樣調查的最后一個步驟掐暮,也是抽樣調查的目的的所在蝎抽。指用樣本指標推斷總體指標的結果。
1.3路克、不同類型的抽樣技術
概率抽樣:在概率抽樣中樟结,總體中的每個個體都有相等的被選中的機會。概率抽樣給了我們最好的機會去創(chuàng)造一個真正代表總體的樣本
非概率抽樣:在非概率抽樣中精算,所有元素被選中的機會都不相等瓢宦。因此,有一個顯著的風險殖妇,即最終得到一個不具代表性的樣本刁笙,它不會產生可推廣的結果
1.4、概率抽樣類型
- 1.41 簡單隨機抽樣:這是你一定要遇到的一種抽樣技術。在這里疲吸,每個人都是完全由隨機選擇的座每,人口中的每個成員都有被選擇的機會。這種技術的一大優(yōu)點是它是最直接的概率抽樣方法摘悴。但它有一個缺點峭梳,它可能不會選擇特別多我們真正感興趣的個體元素。蒙特卡羅方法采用重復隨機抽樣的方法對未知參數(shù)進行估計蹂喻。
- 1.42 系統(tǒng)抽樣:在這種類型的抽樣中葱椭,第一個個體是隨機選擇的,其他個體是使用固定的“抽樣間隔”選擇的口四。讓我們舉一個簡單的例子來理解這一點孵运。假設我們的總體大小是x,我們必須選擇一個樣本大小為n的樣本蔓彩,然后治笨,我們要選擇的下一個個體將是距離第一個個體的x/n個間隔豌熄。我們可以用同樣的方法選擇其余的肉康。系統(tǒng)抽樣比簡單隨機抽樣更方便。然而泣崩,如果我們在人群中選擇項目時存在一種潛在的模式更卒,這也可能導致偏差(盡管這種情況發(fā)生的幾率非常低)等孵。
- 1.43 分層抽樣:在這種類型的抽樣中,我們根據(jù)不同的特征蹂空,如性別俯萌、類別等,把人口分成子組(稱為層)腌闯。然后我們從這些子組中選擇樣本绳瘟。在這里,我們首先根據(jù)紅姿骏、黃糖声、綠、藍等不同的顏色將我們的種群分成不同的子組分瘦。然后蘸泻,從每一種顏色中,我們根據(jù)它們在人口中的比例選擇一個個體嘲玫。當我們想要從總體的所有子組中得到表示時悦施,我們使用這種類型的抽樣。然而去团,分層抽樣需要適當?shù)姆纸M特征的知識抡诞。
- 1.44 整群抽樣:在整群抽樣中穷蛹,我們使用總體的子組作為抽樣單位,而不是個體昼汗。全體樣本被分為子組肴熏,稱為群,并隨機選擇一個完整的群作為抽樣樣本顷窒。在上面的例子中蛙吏,我們將人口分為5個群。每個群由4個個體組成鞋吉,我們在樣本中選取了第4個群鸦做。我們可以根據(jù)樣本大小包含更多的群。當我們集中在一個特定領域或區(qū)域時谓着,就會使用這種類型的抽樣泼诱。整群抽樣更效率、便捷赊锚。
抽樣間額
1.5 非概率抽樣的類型
1.51 方便抽樣
顧名思義坷檩,樣本的確定主要基于便利。樣本中所包括的個體不是事先確定或按照已知概率選取的改抡。
1.52 判斷抽樣
在這種抽樣方法中,由對研究總體非常了解的人主觀確定選擇總體中他認為最具代表性的個體組成樣本系瓢。
例題:EAI公司總共有2500名員工阿纤,由種種原因,缺少了部分員工的工資明細夷陋。但目前要統(tǒng)計出公司的平均薪資欠拾,該怎么抽樣并統(tǒng)計。
- 第一步:確定調查總體:EAI公司2500名員工
- 第二步:確定抽樣框:抽樣框骗绕,員工編號清單
- 第三步:選擇系統(tǒng)抽樣藐窄。(為什么選擇系統(tǒng)抽樣?1酬土、有員工編號清單荆忍。2、一般而言撤缴,工資與工> 作年限成正比刹枉,系統(tǒng)抽樣可以盡可能消除工作年限的影響。)
- 第四步:樣本量為30屈呕,間額 = 2500/30
- 第五步:實施抽樣
- 第六步:測算結果
#制作數(shù)據(jù)集
listc =[]
listc2=[]
n =1
for i in range(30):
listc.append(n)
n+=int(2500/30)
for i in range(30):
1.6 點估計
為了估計總體參數(shù)微宝,計算相應的樣本特征 -- 樣本統(tǒng)計量
上述計算,我們完成了成為點估計的統(tǒng)計過程虎眨。我們稱樣本均值為總體均值的點估計量蟋软、稱樣本標準差為總體標準差的點估計量镶摘。
點估計值與總體參數(shù)的真實值在某稱程度上是有差異的。這與我們選擇的抽樣方法及抽樣樣本數(shù)有很大關系岳守。后面凄敢,我們會學習如果構造區(qū)間估計以便提供關于點估計值和總體參數(shù)差異大小的信息。
2棺耍、均值抽樣分布
在上節(jié)中贡未,我們說樣本均值是總體均值的點估計量。現(xiàn)在假定將選取30名員工組成一個抽樣的過程一而再再而三地進行下去蒙袍,每次都計算樣本均值俊卤。重復500次。
我們將抽取一個抽樣的過程看作一個試驗害幅,則樣本均值就是一個隨機變量消恍,我們稱樣本均值的概率分布為x-的抽樣分布
2.1 x-的數(shù)學期望
是試驗中每次可能結果的概率乘以其結果的總和,是最基本的數(shù)學特征之一以现。它反映隨機變量平均取值的大小狠怨。
當點估計量的期望值等于總體參數(shù)時,我們稱這個點估計量是無偏的邑遏。
- 思考:數(shù)學期望和平均值的區(qū)別
- 答:平均數(shù)是一個統(tǒng)計學概念佣赖,期望是一個概率論概念。實驗的多少是可以改變樣本平均數(shù)的记盒,> 而在你的分布不變的情況下憎蛤,數(shù)學期望是不變的。
2.2 x-的標準差
有限總體需要系數(shù)纪吮,該系數(shù)為有限總體修正系數(shù)俩檬,當n/N >0.05時,使用此修正系數(shù)
n抽樣的樣本數(shù)(30)碾盟,N總體樣本數(shù)(2500)
2.3棚辽、x-抽樣分布的形式
- x-抽樣分布是服從正態(tài)分布,意味著可以利用正態(tài)分布的特性冰肴,比如回答:“領導關心樣本均值介于51300 - 52300之間的概率為多少”
2.4 中心極限定理
從總體中抽取容量為n的簡單隨機樣本屈藐,當樣本容量很大時,它的x-的抽樣分布近似服從正態(tài)概率分布嚼沿。對于大多 數(shù)據(jù)應用估盘,假定樣本容量達到30時,就可看作正態(tài)分布了骡尽。當總體是嚴重偏態(tài)或較多異常點時遣妥,樣本容量需要達到50。
2.5 點估計的性質
2.51 無偏性:如果樣本統(tǒng)計量的期望值等于所估計的總體參數(shù)攀细,則稱該樣本統(tǒng)計量是相應總體參數(shù)的無偏估計量箫踩。
2.52 有效性:假定一個簡單隨機樣本由n個個體組成爱态,給出了總體同一參數(shù)的兩個不同的點估計量。這時境钟,我們傾向于采用標準誤差較小的點估計了锦担。有較小標準誤差的點估計量比其他點估計量相對有效。
2.53 一致性:粗略地講慨削,如果隨著樣本容量的怎大洞渔,點估計量的值和總體參數(shù)越來越接近,則稱該點估計量是一致的缚态。
當抽取一個簡單的隨機樣本磁椒,用樣本均值的值估計總體均值時,樣本均值恰好等于總體均值時小概率事件玫芦。
例子: 人事部經理認為樣本均值在總體均值+-500美元以內浆熔,樣本均值是總體均值的一個可接受的估計值。問桥帆,根據(jù)30名EAI管理人員組成的簡單隨機樣本医增,得到的樣本均值在總體均值附近+-500美元以內的概率有多大? (假定總體均值為51800美元老虫,總體標準差為4000美元)
- 那么均值抽樣分布的數(shù)學期望等于多少叶骨?均值抽樣分布的標準差等于多少?
- 答:數(shù)學期望 = 總體均值 = 51800祈匙。
- 因為n/N = 30/2500 = 0.012 < 0.05 邓萨,所以用無限總體的公式
- 均值抽樣分布的標準差 = 總體標準差/(樣本容量^(1/2)) = 4000/(30^(1/2)) = 730.3
- 說明,由30名EAI管理人員組成的一個簡單隨機樣本中菊卷,以0.5034的可靠性保證樣本均值x-在總> > 體均值附近+-500美元以內。
- 50%太低了宝剖,怎么解決洁闰? 答:增加抽樣樣本容量n
2.6 樣本容量與均值抽樣分布的關系
數(shù)學期望 = 總體均值 = 51800
有限,因為n/N = 100/2500 = 0.04 < 0.05 万细,所以用無限總體的公式
均值分布的標準差 = 4000/(100^(1/2)) = 400
隨著樣本容量從30名EAI管理人員增加到100名扑眉,樣本均值在總體均值附近+-50美元以內的概率從0.5034增加到0.7888
隨著樣本容量的增加,均值抽樣分布的標準誤差在減少赖钞,導致樣本均值落在總體均值附近某一特定范圍內的概率也越大腰素。
3、區(qū)間估計
點估計是用來估計總體參數(shù)的樣本統(tǒng)計量雪营,因為我們難以期望點估計能給出總體參數(shù)的十分精確值弓千,所以經常在點估計加減一個邊際誤差的值來計算區(qū)間內估計。
區(qū)間估計 = [點估計 - 邊際誤差,點估計 + 邊際誤差]
3.1 總體均值的區(qū)間估計:總體標準差已知的情況
為了對總體均值進行區(qū)間估計献起,必須利用總體標準差或者樣本標準差計算邊際誤差洋访,在大多數(shù)的應用中镣陕,總體標準差都是未知的。我們可以抽樣前根據(jù)大量有關歷史數(shù)據(jù)估計總體標準差姻政。
例題:某百貨公司每周選100名顧客組成一個簡單隨機樣本呆抑,目的在于了解他們每次購物的消費額。這個調查已進行很許多年汁展,根據(jù)歷史數(shù)據(jù)鹊碍,總標準誤差已知,σ=20美元食绿。最近一周侈咕,調查了100名顧客,得到樣本均值x- = 82美元炫欺。問乎完,如果計算邊際誤差以及建立總體均值的區(qū)間估計
置信系數(shù)95%,可得 a = (1- 0.95) /2 = 0.025
帶入公式品洛,區(qū)間估計為:
(82 + (-1.96) * 20/100(1/2) , 82 - (-1.96) * 20/100(1/2)) = (78.08,85.92)
所以我們說:有95%的把握相信區(qū)間 (78.08,85.92)包含總體均值u
我們稱這個區(qū)間在95%置信水平下建立树姨,其中數(shù)值0.95稱置信系數(shù),區(qū)間(78.08,85.92)稱作95%置信區(qū)間的區(qū)間估計
3.2 總體均值的區(qū)間估計:總體標準差未知的情況
在建立總體均值的區(qū)間估計時桥状,我們通常并沒有關于總體標準差的一個好的估計帽揪。當利用樣本標準差估計總體標準差時,邊際誤差和總體區(qū)間誤差估計都以t分布的概率分布為依據(jù)進行的辅斟。雖然t分布的數(shù)學推導是以假設抽樣總體服從正態(tài)分布為依據(jù)转晰,但研究表明在許多總體分布顯著偏離正態(tài)分布的情形下,利用t分布的效果還是相當不錯的士飒。
t分布
背景:William Sealy Gosset(戈塞特)查邢。他當年在愛爾蘭都柏林的一家酒廠工作,他當時想在采用較少的情況下(小樣本)酵幕,設計了一種后來被稱為t檢驗的方法來評價酒的質量扰藕。因為行業(yè)機密,酒廠不允許他的工作內容外泄芳撒,所以當他后來將其發(fā)表到至今仍十分著名的一本雜志《Biometrika》時邓深,就署了student的筆名。
簡述:t分布是由一類相似的概率分布組成的分布族笔刹,某個特定的t分布依賴于為自由度的參數(shù)芥备。當自由度分別為1,2舌菜,3 ...時萌壳,有且僅有唯一的t分布與之相對應。隨著自由度的增大,t分布與標準正態(tài)分布之間的差別變得越來越小讶凉。t分布的均值為0
圖像:自由度df越小染乌,t分布曲線越低平;自由度df越大懂讯,t分布曲線越接近標準正態(tài)分布(u分布)曲線
自由度 :自由度是計算 sum(x-mean(x))^2時所用到的信息的個數(shù)荷憋,一般而言就是"樣本數(shù) - 1"
例題:某公司考慮使用一種新型的計算機輔助程序來培訓員工維修機器,需要對該計算機輔助培訓所需時間的總體均值進行估計褐望。選取20名員工去完成這名培訓計算勒庄,得到樣本均值為51.5天,樣本標準差為6.84天瘫里,問:總體均值的區(qū)間估計是多少实蔽?置信水平為95%
解:公式里的均值,標準差谨读,n均已知局装。需要求置信水平為95%時,t分布的t值
帶入公式劳殖,區(qū)間估計為:
所以區(qū)間估計為(48.3,54.7)
所以我們說:有95%的把握相信區(qū)間 (48.3,54.7)包含總體均值u
3.3 樣本容量的確定
- 在這節(jié)中铐尚,我們重點講解如何確定足夠的樣本容量以達到所希望的邊際誤差。為解決這一方法如何計算哆姻。我們回到總體標準差已知時宣增,區(qū)間估計的公式
- 我們可以看到是Z(a/2)、總體標準差矛缨、樣本容量n共同確定了邊際誤差爹脾。一旦選擇了置信系數(shù)1-a,Z(a/2)就確定了箕昭。然后灵妨,如果總體標準差已知,我們就可以確定達到希望邊際誤差所需的樣本容量n落竹。以下是用于計算所需樣本容量n的公式闷串。 E = 邊際誤差
給定置信水平下,這一樣本容量能夠達到希望的邊際誤差
注意:在計算樣本容量時筋量,要總體標準是已知的。但假設總體標準差未知碉熄,在實踐中桨武,可選擇以下方法之一來確定總體標準差的值。
1锈津、根據(jù)以前研究中的數(shù)據(jù)(多次試驗)計算總體標準差的估計值
2呀酸、以樣本標準差作為總體標準差(單次試驗)
3、對總體標準差進行最優(yōu)猜測:可以分別取總體的最大值和最小值琼梆,兩者之差稱為極差性誉。一般建議用極差/4作為標準差的粗略估計
例題:美國汽車租賃成本的已有調查研究發(fā)現(xiàn)窿吩,租賃一輛中型汽車的平均費用大約為每天55美元,樣本標準差為9.65错览,現(xiàn)在需對租賃汽車費用進行總體均值的區(qū)間估計纫雁,置信水平為95%。問:當樣本容量至少為多少時倾哺,總體均值的邊際誤差為2美元轧邪。
帶入公式
Z(a/2)^2 = 1.96**2 = 3.841
總體標準差σ^2= 樣本標準差s^2 = 9.65**2 = 93.12
E^2 = 2**2 = 4
答:當樣本容量至少為90時,總體均值的邊際誤差為2美元羞海。當計算的樣本容量不是整數(shù)時忌愚,建議使用取下一位整數(shù)的樣本容量。
樣本容量的確定可以讓我們知道抽樣抽多少才合理却邓。