中心極限定理:
1.大量相互獨(dú)立的隨機(jī)變量,在采樣次數(shù)足夠大的時(shí)候(一般要超過(guò)30次以上)膘螟,其均值或者和的分布以正態(tài)分布為極限成福,中心極限定理的有趣的地方在于,無(wú)論隨機(jī)變量呈現(xiàn)出什么分布荆残,只要你抽取次數(shù)無(wú)限大奴艾,抽取樣本的均值就接近于正態(tài)分布。對(duì)内斯,mark一下重點(diǎn)就是:1.樣本的平均值約等于總體的平均值蕴潦;2.不管總體是什么分布像啼,但是樣本的均值都會(huì)圍繞在總體的整體平均值周圍并呈現(xiàn)正態(tài)分布。
eg:比如你投6枚篩子潭苞,對(duì)每次的6個(gè)數(shù)求平均xn忽冻,則x1--xn的分布就滿足與正態(tài)分布
那中心極限定理的用處是什么呢?? eg:你要預(yù)測(cè)總統(tǒng)的一件事情發(fā)生的概率此疹,比如查驗(yàn)食品合格率僧诚,你只需要抽查部分就可判斷整體合格率,這就用到中心極限定理了蝗碎,因?yàn)闃颖镜木捣植际窃诳傮w樣本的均值附近呈現(xiàn)正態(tài)分布湖笨,這樣你就知道有68%的樣本在總體平均值的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)波動(dòng),有95%的樣本平均值在總體平均值的兩個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)蹦骑,99.7%的在總體平均值三個(gè)標(biāo)準(zhǔn)差單位內(nèi)波動(dòng)慈省,如果一個(gè)樣本均值與總體均值的差大于三個(gè)標(biāo)準(zhǔn)差,那么我們可以說(shuō)這個(gè)樣本不屬于這個(gè)總體眠菇,所以這就是我們拿樣本均值估計(jì)總體均值的原因所在(當(dāng)然自我感覺其實(shí)在計(jì)算一下標(biāo)準(zhǔn)差對(duì)估計(jì)的評(píng)估效果會(huì)好一點(diǎn))边败。
那么什么是標(biāo)準(zhǔn)差?
標(biāo)準(zhǔn)差是用來(lái)估計(jì)樣本波動(dòng)大小和數(shù)據(jù)的離散程度
設(shè)均數(shù)為A琼锋,A=(x1+x2+x3+......+xn)/n,那么標(biāo)準(zhǔn)差D=√{[(x1-A)^2+(x2-A)^2+(x3-A)^2+......+(xn-A)^2]/n}祟昭,不過(guò)現(xiàn)在一般說(shuō)的是除以n-1缕坎。
正態(tài)分布:
引于百科:若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ^2的正態(tài)分布篡悟,記為N(μ谜叹,σ^2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置搬葬,其標(biāo)準(zhǔn)差σ決定了分布的幅度荷腊。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。好急凰,mark重點(diǎn)就是:如果一個(gè)隨機(jī)變量女仰,不斷抽取隨機(jī)變量,得到的n個(gè)值的平均值收斂于n趨向于無(wú)窮時(shí)候的期望抡锈,這個(gè)其實(shí)也是基于中心極限定理的疾忍,所以當(dāng)n足夠大的時(shí)候,可以直接用樣本均值估計(jì)總體均值床三。
eg:對(duì)一個(gè)總體抽取n次一罩,總共n個(gè)數(shù)值面對(duì)n個(gè)數(shù)值求平均值,則即n個(gè)數(shù)值的平均值趨向于總體平均值
正態(tài)分布性質(zhì):
1.正態(tài)分布呈鐘型撇簿,主要性質(zhì)為有68%的樣本在總體平均值的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)波動(dòng)聂渊,有95%的樣本平均值在總體平均值的兩個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)差购,99.7%的在總體平均值三個(gè)標(biāo)準(zhǔn)差單位內(nèi)波動(dòng)。
2.如果一個(gè)隨機(jī)變量受到許多因素的影響汉嗽,并且其中任何一個(gè)因素都不對(duì)其產(chǎn)生決定性影響欲逃,那么該隨機(jī)變量一般都服從正態(tài)分布。
3.u一定時(shí)诊胞,標(biāo)準(zhǔn)差越大暖夭,曲線越矮胖,標(biāo)準(zhǔn)差越小撵孤,曲線越瘦高迈着。
4.正態(tài)曲線下面的面積意義代表變量值落在此區(qū)域的概率,所以正態(tài)曲線下方面積為1.