數(shù)據(jù)分析師基礎(chǔ)篇--樣本量估計(實例講解)

020二月第三周

? ? ? ?在實際工作中其垄,我們經(jīng)常需要通過抽樣評估玷过,來近似得到總體的一些特征情況爽丹。那么今天來討論下我們究竟抽取多少的樣本量筑煮,計算出數(shù)據(jù)特征,才能夠有統(tǒng)計學(xué)意義來近似總體特征粤蝎。

? ? ? ?此文的例子主要圍繞常見的兩種情況講解真仲,一、樣本均值中樣本量n的估計初澎,例如用戶“帖子平均質(zhì)量”的評估? 二秸应、樣本比率中的樣本量n的估計 ,例如網(wǎng)站“帖子作弊率”的評估?碑宴。

一软啼、樣本均值類問題的樣本量估計

? ? ? 用戶“帖子平均質(zhì)量”的評估為例,我們?yōu)榱说玫浇谔淤|(zhì)量均指延柠,不可能把所有的至少上萬的數(shù)據(jù)(總體)都評估一遍祸挪,那么我們就需要從總體中抽一部分出來(樣本),根據(jù)樣本的帖子質(zhì)量均值情況來估計總體的質(zhì)量均值贞间。那么抽取多少樣本量贿条,算出來的質(zhì)量均值才能代表總體帖子質(zhì)量均值呢?

1公式直接應(yīng)用:

? ? ? ?此處先給出公式榜跌,可直接應(yīng)用闪唆,想了解原理,請看第二部分钓葫。

? ? ? ?公式n=\frac{z^2*\delta ^2}{E^2 }

n:需估計的樣本量

z:為標(biāo)準(zhǔn)正態(tài)分布的上α分位點悄蕾,當(dāng)置信度為95%時,z=1.96础浮,置信度為90%時帆调,z=1.65,(一般互聯(lián)網(wǎng)的估計中豆同,我們采用置信度90%即可)

 \delta ^2:為總體方差番刊,如果總體方差未知,可以通過之前研究的數(shù)據(jù)計算其估計值影锈, 或者先選取一個初始樣本芹务,以初始樣本的方差作為估計值。

E:為可接受的誤差鸭廷,即可接受的樣本值與總體值的差枣抱,例如,你希望的樣本值大概率落在區(qū)間( \mu ±1%)內(nèi)辆床,則可接受的誤差為1%佳晶。

舉例:帖子質(zhì)量得分為1-10分,我們希望抽取部分樣本讼载,置信度為95%? z=1.96轿秧,總體方差估計值為2中跌,E可接受誤差為0.1分,則我們需要抽取的樣本量

n=1.96*1.96*2*2/0.1*0.1=1536個

2原理解讀

問題:抽多少樣本量n菇篡,樣本參數(shù)近似總體參數(shù)可信程度高

抽樣誤差:

當(dāng)我們抽10個帖子漩符,質(zhì)量均值是7分,經(jīng)驗告訴我們結(jié)果不太可信驱还,量太少陨仅,誤差大

當(dāng)我們抽100個帖子,質(zhì)量均值還是7分铝侵,可能覺總體均值就是7分左右了,差的不多了

當(dāng)我們抽1000個帖子触徐,質(zhì)量均值還是7分咪鲜,我們認(rèn)為大概率就是7分了,誤差很小

為什么三次抽樣撞鹉,結(jié)果都是7分疟丙,但隨著樣本量的增加,人們認(rèn)為結(jié)果的可信程度增加了呢鸟雏,或者說誤差就小了呢享郊。這里的誤差,就是抽樣誤差(因樣本存在變異孝鹊,由抽樣導(dǎo)致的樣本與總體的差異)炊琉,抽樣誤差=總體值-樣本值, 總體值我們永遠拿不到又活,所以我們需要找到其他方式苔咪,來表達抽樣誤差的大小,則可以解決結(jié)果是否可信柳骄,若抽樣誤差小团赏,則可以認(rèn)為結(jié)果可信,樣本值是可以近似代表總體值的耐薯。

問題:現(xiàn)在抽多少量的問題舔清,變成了判斷抽樣誤差大小

理論假設(shè)實驗:先設(shè)總體服從正態(tài)分布,通過重復(fù)的抽樣多次曲初, 樣本均數(shù)的分布也服從一定的規(guī)律体谒,樣本均數(shù)構(gòu)成的統(tǒng)計量服從(記住就好了),樣本均數(shù)的均數(shù)和總體均數(shù)一樣 E(\bar{X})=\mu 复斥,樣本均數(shù)的方差是總體方差的n分之一D(\bar{X})=\frac{\delta ^2}{n} (抽出n個樣本营密,波動肯定比總體小)目锭,樣本均數(shù)的標(biāo)準(zhǔn)差為\frac{\delta}{\sqrt{n} } ,表示的是樣本均數(shù)抽樣誤差離散程度的大小评汰,即樣本均數(shù)回推總體均數(shù) 時抽樣誤差的大小纷捞。? ? 總結(jié):總體的樣本均數(shù)的標(biāo)準(zhǔn)差,就是抽樣誤差E=\frac{\delta}{\sqrt{n} } 被去。?抽樣誤差的大小取決于兩個維度①總體標(biāo)準(zhǔn)差 ②樣本量的大小主儡,樣本量越大,抽樣誤差越小惨缆。

根據(jù)中心極限定理: 設(shè)隨機變量X1……Xn相互獨立糜值,服從統(tǒng)一分布,總體期望E(X)=\mu ,方差D(X)=\delta^2,則隨機變量之和\sum_{i=1}^n X_{i}的標(biāo)準(zhǔn)化變量服從標(biāo)準(zhǔn)正態(tài)分布坯墨。 如下

\frac{\sum_{i=1}^nX_{i} -E(\sum_{i=1}^nX_{i}  )}{\sqrt{D(\sum_{i=1}^nX_{i}  )} } ~N(0,1)? ?即?\frac{ n\bar{X}-n\mu }{\delta\sqrt{n}} ~N(0,1) 寂汇,

同除以n 有\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } ~N(0,1)? ? 【中心極限定理,當(dāng)n較大捣染,樣本均數(shù)\bar{X}~N( \mu ,{\frac{\delta }{\sqrt{n} } } ) 】

根據(jù)標(biāo)準(zhǔn)正態(tài)分布的上\alpha 分位點的定義 P(X>z_{\alpha } )=\alpha ?骄瓣,則有

?P(\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } >)=\alpha ? ,則有\frac{\bar{X}-\mu} {\frac{\delta }{\sqrt{n} } } >? ? ? 耍攘,則有n=\frac{z_{\alpha} ^2*\delta ^2  }{(\bar{X}- \mu)^2 } ?, 即得到樣本量估計的公式??n=\frac{z^2*\delta ^2}{E^2 } ? (其中誤差E為樣本均值-總體均值)

二榕栏、樣本比率類型問題的樣本量估計

? ? ? ?以網(wǎng)站“帖子作弊率”的評估為例,帖子作弊與否的總體(作弊蕾各,非作弊)實際上是服從0-1分布扒磁,我們?yōu)榱说玫浇谔幼鞅茁剩豢赡馨阉械闹辽偕先f的數(shù)據(jù)(總體)都評估一遍式曲,那么我們就需要從總體中抽一部分出來(樣本)妨托,根據(jù)樣本的作弊率情況來估計總體的作弊率。那么抽取多少樣本量检访,算出來的作弊率才能代表總提交的作弊率呢始鱼?

1公式直接應(yīng)用:

? ? ? ?0-1分布的樣本量是根據(jù)以下公式計算估計的??n=\frac{z^2 *p*q} {E^2 }

n:需估計的樣本量

z:為標(biāo)準(zhǔn)正態(tài)分布的上α分位點,當(dāng)置信度為95%時脆贵,z=1.96医清,置信度為90%時,z=1.65卖氨,(一般互聯(lián)網(wǎng)的估計中会烙,我們采用置信度90%即可)

p:為總體概率的計劃值,抽樣前P是未知的筒捺,可以用以前經(jīng)驗作為計劃值柏腻,或者選取一個初始樣本,以初始樣本的概率作為計劃值系吭,? 例如根據(jù)之前經(jīng)驗五嫂,總體的帖子提交作弊率為3%,則p=3%? ,q=1-p=97%沃缘。當(dāng)完全無法估計p時躯枢,可以讓計劃值P取0.5,這時q也為0.5槐臀,p*q能取得最大值锄蹂,同時n也能取得最大值。

E:為誤差水慨,即樣本值與總體值的差得糜,例如,你希望樣本值大概率落在區(qū)間(總體p±1%)內(nèi)晰洒,則誤差為1%

? ? ? ?下圖中是一些舉例朝抖,例如當(dāng)作弊率為1%左右時,至少要抽n=2.6w個case進行評估谍珊,才能使得作弊率的置信度為90%槽棍,誤差在P*10%左右。這表示:做一次抽樣抬驴,抽取樣本量2.6w,得到樣本值P'缆巧,從而得到一個置信區(qū)間(a,b)布持,這個區(qū)間包含總體P的可信程度為90%。

又例如當(dāng)作弊率為3%陕悬,誤差一般我們可以容忍1%题暖,則我們可以抽取樣本量n為1000左右即可,這樣通過該樣本算出的可信區(qū)間約在(2%捉超,4%)左右胧卤,表明這個區(qū)間包含總體作弊率的概率為90%。

? ? ? ? 可以看出當(dāng)p越小拼岳,誤差E的大小同為10%*P枝誊,所需要的n越大,現(xiàn)實中也可以理解惜纸,當(dāng)一個事件發(fā)生的概率很小時叶撒,我們需要抽很多才能抽到該事件,且經(jīng)驗上抽越多我們才能認(rèn)為抽樣估計是準(zhǔn)確的耐版。?

2原理解讀

參考一部分的原理

例:作弊率的總體X服從(0,1)分布祠够,(0,1)分布的期望為p,方差為p(1-p)

根據(jù)中心極限定理知(當(dāng)n充分大時粪牲,隨機變量X1...Xn的均值\bar{X}趨近于正態(tài)分布古瓤,隨機變量X1...Xn的和的標(biāo)準(zhǔn)化變量趨近于標(biāo)準(zhǔn)正態(tài)分布

\frac{\sum_{i=1}^nX_{i}  -E(\sum_{i=1}^nX_{i})}{\sqrt{D(\sum_{i=1}^nX_{i})} } ?~N(0,1),即服從標(biāo)準(zhǔn)正態(tài)分布

\frac{n \bar{X}-np}{\sqrt{npq} } ?~N(0,1),根據(jù)標(biāo)準(zhǔn)正太分布的上\alpha 分位點定義落君,

有p{-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z?}=1-\alpha ? ? ? ?褐隆,-z<\frac{n \bar{X }-np}{\sqrt{npq} } < z?,? ? ?

上式公式變換得? ??n=\frac{z^2 *p*q}{ \bar{E }} ? ?,? 得到我們的公式 (q=1-p)。

(本文主要依賴于中心極限定理准验,可參考https://blog.csdn.net/xiuxin121/article/details/78756143

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末饱狂,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子朝氓,更是在濱河造成了極大的恐慌魔市,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赵哲,死亡現(xiàn)場離奇詭異待德,居然都是意外死亡,警方通過查閱死者的電腦和手機枫夺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進店門将宪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人橡庞,你說我怎么就攤上這事较坛。” “怎么了扒最?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵丑勤,是天一觀的道長。 經(jīng)常有香客問我吧趣,道長法竞,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任强挫,我火速辦了婚禮岔霸,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘俯渤。我一直安慰自己呆细,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布八匠。 她就那樣靜靜地躺著侦鹏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪臀叙。 梳的紋絲不亂的頭發(fā)上略水,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天,我揣著相機與錄音劝萤,去河邊找鬼渊涝。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的跨释。 我是一名探鬼主播胸私,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鳖谈!你這毒婦竟也來了岁疼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤缆娃,失蹤者是張志新(化名)和其女友劉穎捷绒,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贯要,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡暖侨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了崇渗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片字逗。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖宅广,靈堂內(nèi)的尸體忽然破棺而出葫掉,到底是詐尸還是另有隱情,我是刑警寧澤跟狱,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布挖息,位于F島的核電站,受9級特大地震影響兽肤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜绪抛,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一资铡、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧幢码,春花似錦笤休、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至贞铣,卻和暖如春闹啦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背辕坝。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工窍奋, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓琳袄,卻偏偏與公主長得像江场,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子窖逗,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 《R語言與統(tǒng)計分析》的讀書筆記 本書的重點內(nèi)容及感悟: 第三章 概率與分布 1址否、隨機抽樣 通過sample()來實...
    格式化_001閱讀 6,647評論 1 12
  • 1. 簡述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系。 回歸分析和相關(guān)分析都是研究兩個或兩個以上變量之間關(guān)系的方法碎紊。 廣義上說...
    安也也閱讀 8,687評論 0 3
  • 數(shù)據(jù)分析方法分為四大類: 1佑附、單純的數(shù)據(jù)加工方法 a.描述性統(tǒng)計分析(集中、離中趨勢分析和數(shù)據(jù)分布) b.相關(guān)性分...
    重生之魂閱讀 2,808評論 0 3
  • 我想給我一個黑夜矮慕, 全然不顧所有的愛與恨帮匾。 不再懷念過往, 也不再考慮未來痴鳄。 我想把自己變的渺小瘟斜, 只夠棲息在你的...
    夜有風(fēng)聲語閱讀 551評論 1 13
  • 最近,我一直在想這樣一個問題痪寻,我的脾氣一直都很壞螺句,我忽然間想到了一個問題,是不是我的名字出了問題橡类,因為魏...
    作家阿彪閱讀 216評論 0 0