020二月第三周
? ? ? ?在實際工作中其垄,我們經(jīng)常需要通過抽樣評估玷过,來近似得到總體的一些特征情況爽丹。那么今天來討論下我們究竟抽取多少的樣本量筑煮,計算出數(shù)據(jù)特征,才能夠有統(tǒng)計學(xué)意義來近似總體特征粤蝎。
? ? ? ?此文的例子主要圍繞常見的兩種情況講解真仲,一、樣本均值中樣本量n的估計初澎,例如用戶“帖子平均質(zhì)量”的評估? 二秸应、樣本比率中的樣本量n的估計 ,例如網(wǎng)站“帖子作弊率”的評估?碑宴。
一软啼、樣本均值類問題的樣本量估計
? ? ? 用戶“帖子平均質(zhì)量”的評估為例,我們?yōu)榱说玫浇谔淤|(zhì)量均指延柠,不可能把所有的至少上萬的數(shù)據(jù)(總體)都評估一遍祸挪,那么我們就需要從總體中抽一部分出來(樣本),根據(jù)樣本的帖子質(zhì)量均值情況來估計總體的質(zhì)量均值贞间。那么抽取多少樣本量贿条,算出來的質(zhì)量均值才能代表總體帖子質(zhì)量均值呢?
1公式直接應(yīng)用:
? ? ? ?此處先給出公式榜跌,可直接應(yīng)用闪唆,想了解原理,請看第二部分钓葫。
? ? ? ?公式
n:需估計的樣本量
z:為標(biāo)準(zhǔn)正態(tài)分布的上α分位點悄蕾,當(dāng)置信度為95%時,z=1.96础浮,置信度為90%時帆调,z=1.65,(一般互聯(lián)網(wǎng)的估計中豆同,我們采用置信度90%即可)
:為總體方差番刊,如果總體方差未知,可以通過之前研究的數(shù)據(jù)計算其估計值影锈, 或者先選取一個初始樣本芹务,以初始樣本的方差作為估計值。
E:為可接受的誤差鸭廷,即可接受的樣本值與總體值的差枣抱,例如,你希望的樣本值大概率落在區(qū)間( ±1%)內(nèi)辆床,則可接受的誤差為1%佳晶。
舉例:帖子質(zhì)量得分為1-10分,我們希望抽取部分樣本讼载,置信度為95%? z=1.96轿秧,總體方差估計值為2中跌,E可接受誤差為0.1分,則我們需要抽取的樣本量
n=1.96*1.96*2*2/0.1*0.1=1536個
2原理解讀
問題:抽多少樣本量n菇篡,樣本參數(shù)近似總體參數(shù)可信程度高
抽樣誤差:
當(dāng)我們抽10個帖子漩符,質(zhì)量均值是7分,經(jīng)驗告訴我們結(jié)果不太可信驱还,量太少陨仅,誤差大
當(dāng)我們抽100個帖子,質(zhì)量均值還是7分铝侵,可能覺總體均值就是7分左右了,差的不多了
當(dāng)我們抽1000個帖子触徐,質(zhì)量均值還是7分咪鲜,我們認(rèn)為大概率就是7分了,誤差很小
為什么三次抽樣撞鹉,結(jié)果都是7分疟丙,但隨著樣本量的增加,人們認(rèn)為結(jié)果的可信程度增加了呢鸟雏,或者說誤差就小了呢享郊。這里的誤差,就是抽樣誤差(因樣本存在變異孝鹊,由抽樣導(dǎo)致的樣本與總體的差異)炊琉,抽樣誤差=總體值-樣本值, 總體值我們永遠拿不到又活,所以我們需要找到其他方式苔咪,來表達抽樣誤差的大小,則可以解決結(jié)果是否可信柳骄,若抽樣誤差小团赏,則可以認(rèn)為結(jié)果可信,樣本值是可以近似代表總體值的耐薯。
問題:現(xiàn)在抽多少量的問題舔清,變成了判斷抽樣誤差大小
理論假設(shè)實驗:先設(shè)總體服從正態(tài)分布,通過重復(fù)的抽樣多次曲初, 樣本均數(shù)的分布也服從一定的規(guī)律体谒,樣本均數(shù)構(gòu)成的統(tǒng)計量服從(記住就好了),樣本均數(shù)的均數(shù)和總體均數(shù)一樣复斥,樣本均數(shù)的方差是總體方差的n分之一(抽出n個樣本营密,波動肯定比總體小)目锭,樣本均數(shù)的標(biāo)準(zhǔn)差為,表示的是樣本均數(shù)抽樣誤差離散程度的大小评汰,即樣本均數(shù)回推總體均數(shù) 時抽樣誤差的大小纷捞。? ? 總結(jié):總體的樣本均數(shù)的標(biāo)準(zhǔn)差,就是抽樣誤差E=被去。?抽樣誤差的大小取決于兩個維度①總體標(biāo)準(zhǔn)差 ②樣本量的大小主儡,樣本量越大,抽樣誤差越小惨缆。
根據(jù)中心極限定理: 設(shè)隨機變量X1……Xn相互獨立糜值,服從統(tǒng)一分布,總體期望E(X)=,方差D(X)=,則隨機變量之和的標(biāo)準(zhǔn)化變量服從標(biāo)準(zhǔn)正態(tài)分布坯墨。 如下
~N(0,1)? ?即?~N(0,1) 寂汇,
同除以n 有~N(0,1)? ? 【中心極限定理,當(dāng)n較大捣染,樣本均數(shù)~N( ,) 】
根據(jù)標(biāo)準(zhǔn)正態(tài)分布的上分位點的定義 P(X>)=?骄瓣,則有
?P(>)=? ,則有>? ? ? 耍攘,則有n=?, 即得到樣本量估計的公式??? (其中誤差E為樣本均值-總體均值)
二榕栏、樣本比率類型問題的樣本量估計
? ? ? ?以網(wǎng)站“帖子作弊率”的評估為例,帖子作弊與否的總體(作弊蕾各,非作弊)實際上是服從0-1分布扒磁,我們?yōu)榱说玫浇谔幼鞅茁剩豢赡馨阉械闹辽偕先f的數(shù)據(jù)(總體)都評估一遍式曲,那么我們就需要從總體中抽一部分出來(樣本)妨托,根據(jù)樣本的作弊率情況來估計總體的作弊率。那么抽取多少樣本量检访,算出來的作弊率才能代表總提交的作弊率呢始鱼?
1公式直接應(yīng)用:
? ? ? ?0-1分布的樣本量是根據(jù)以下公式計算估計的??n=
n:需估計的樣本量
z:為標(biāo)準(zhǔn)正態(tài)分布的上α分位點,當(dāng)置信度為95%時脆贵,z=1.96医清,置信度為90%時,z=1.65卖氨,(一般互聯(lián)網(wǎng)的估計中会烙,我們采用置信度90%即可)
p:為總體概率的計劃值,抽樣前P是未知的筒捺,可以用以前經(jīng)驗作為計劃值柏腻,或者選取一個初始樣本,以初始樣本的概率作為計劃值系吭,? 例如根據(jù)之前經(jīng)驗五嫂,總體的帖子提交作弊率為3%,則p=3%? ,q=1-p=97%沃缘。當(dāng)完全無法估計p時躯枢,可以讓計劃值P取0.5,這時q也為0.5槐臀,p*q能取得最大值锄蹂,同時n也能取得最大值。
E:為誤差水慨,即樣本值與總體值的差得糜,例如,你希望樣本值大概率落在區(qū)間(總體p±1%)內(nèi)晰洒,則誤差為1%
? ? ? ?下圖中是一些舉例朝抖,例如當(dāng)作弊率為1%左右時,至少要抽n=2.6w個case進行評估谍珊,才能使得作弊率的置信度為90%槽棍,誤差在P*10%左右。這表示:做一次抽樣抬驴,抽取樣本量2.6w,得到樣本值P'缆巧,從而得到一個置信區(qū)間(a,b)布持,這個區(qū)間包含總體P的可信程度為90%。
又例如當(dāng)作弊率為3%陕悬,誤差一般我們可以容忍1%题暖,則我們可以抽取樣本量n為1000左右即可,這樣通過該樣本算出的可信區(qū)間約在(2%捉超,4%)左右胧卤,表明這個區(qū)間包含總體作弊率的概率為90%。
? ? ? ? 可以看出當(dāng)p越小拼岳,誤差E的大小同為10%*P枝誊,所需要的n越大,現(xiàn)實中也可以理解惜纸,當(dāng)一個事件發(fā)生的概率很小時叶撒,我們需要抽很多才能抽到該事件,且經(jīng)驗上抽越多我們才能認(rèn)為抽樣估計是準(zhǔn)確的耐版。?
2原理解讀
參考一部分的原理
例:作弊率的總體X服從(0,1)分布祠够,(0,1)分布的期望為p,方差為p(1-p)
根據(jù)中心極限定理知(當(dāng)n充分大時粪牲,隨機變量X1...Xn的均值趨近于正態(tài)分布古瓤,隨機變量X1...Xn的和的標(biāo)準(zhǔn)化變量趨近于標(biāo)準(zhǔn)正態(tài)分布 )
?~N(0,1),即服從標(biāo)準(zhǔn)正態(tài)分布
即?~N(0,1),根據(jù)標(biāo)準(zhǔn)正太分布的上分位點定義落君,
有p{?}=1-? ? ? ?褐隆,?,? ? ?
上式公式變換得? ??? ?,? 得到我們的公式 (q=1-p)。
(本文主要依賴于中心極限定理准验,可參考https://blog.csdn.net/xiuxin121/article/details/78756143)