即使你不normal,平均值也normal--神奇的中心極限定理

0.寫在前面

統(tǒng)計(jì)學(xué)知識刷起來讶隐。其實(shí)這又是一個系列起胰,晦澀難懂沒人看的那種。但這樣的知識確實(shí)非常有價值巫延,能夠帶給我以及認(rèn)真學(xué)習(xí)的讀者們實(shí)打?qū)嵉倪M(jìn)步效五,所以不管閱讀量高低,我都寫炉峰。 這一篇是講中心極限定理的畏妖。啥子意思呢?

中心極限定理指的是給定一個任意分布的總體疼阔。每次從這些總體中隨機(jī)抽取 n 個抽樣戒劫,一共抽 m 次。 然后把這 m 組抽樣分別求出平均值婆廊。 這些平均值的分布接近正態(tài)分布迅细。

用statquest小哥的話說:even if you’re not normal,the average is normal.

不管總體符合什么分布(除了無法計(jì)算均值的分布以外),均值都符合正態(tài)分布淘邻,所以不考慮原數(shù)據(jù)的分布茵典。神奇!課程中以均勻分布和指數(shù)分布為例宾舅,論證了這一定理统阿。

在B站搜索statquest即可找到視頻哦。

在用R語言實(shí)現(xiàn)了一下老師在視頻中畫的圖~非常好耍筹我。

1.準(zhǔn)備數(shù)據(jù)

rm(list = ls())
library(ggplot2)
library(patchwork)
df = data.frame(x = 1:100,
               y1 = dnorm(1:100,50,20),
               y2 = dunif(1:100,1,100),
               y3 = dexp(1:100,0.06))
set.seed(1004)
rn1 = rnorm(100,50,20)
set.seed(1004)
rn2 = runif(100,1,100)
set.seed(1004)
rn3 = rexp(100,0.06)
rn = data.frame(x = 1:100,
                rn1 = rn1,
                rn2 = rn2,
                rn3 = rn3)
head(df)
##   x           y1         y2         y3
## 1 1 0.0009918677 0.01010101 0.05650587
## 2 2 0.0011197265 0.01010101 0.05321523
## 3 3 0.0012609110 0.01010101 0.05011621
## 4 4 0.0014163519 0.01010101 0.04719767
## 5 5 0.0015869826 0.01010101 0.04444909
## 6 6 0.0017737296 0.01010101 0.04186058
head(rn)
##   x      rn1      rn2       rn3
## 1 1 37.84318 27.89301 12.995556
## 2 2 65.35258 25.35061 28.127434
## 3 3 46.71456 78.08598  4.341248
## 4 4 49.42446 97.92214  0.180288
## 5 5 50.27116 44.04110 14.291344
## 6 6 35.68566 91.49909 36.579238

兩個數(shù)據(jù)框砂吞,一個是符合某分布的某個數(shù)值大小的概率,一個是符合某分布的具體數(shù)值崎溃,兩個數(shù)據(jù)框的二三四列分別是正態(tài)分布、均勻分布和指數(shù)分布盯质。

2.三種分布的圖

#1.正態(tài)分布
p1 = ggplot(df,aes(x = x,y = y1))+
  geom_line()+theme_classic()
#2.均勻分布
p2 = ggplot(df,aes(x = x,y = y2))+
  geom_line()+theme_classic()
#3.指數(shù)分布
p3 = ggplot(df,aes(x = x,y = y3))+
  geom_line()+theme_classic()
p1+p2+p3

3.正態(tài)分布數(shù)據(jù)的均值分布

#畫均值豎線
a1 = p1
n = c()
for(i in 1:100){
  n[[i]] = mean(sample(rn$rn1,50))
  a1 = a1 + geom_vline(xintercept = n[[i]],color = "red",size = 0.3,alpha = 0.3)
}
#畫直方圖
dat = data.frame(n = n)
b1 = ggplot(dat,aes(x = n,y = ..density..))+
  geom_histogram(color = "#D0505D",
                 fill = "#D0505D",
                 alpha = 0.4,binwidth = 1)+
  theme_classic()+
  scale_y_continuous(expand = c(0,0))
#加正態(tài)曲線
y = data.frame(
  x = seq(40,62,0.2),
  y1 = dnorm(seq(40,62,0.2),50,2))
b1 = b1 + geom_line(aes(x = x,y = y1),data = y)
a1 + b1

結(jié)論:正態(tài)分布數(shù)據(jù)的均值符合正態(tài)分布

4.均勻分布數(shù)據(jù)的均值分布

#畫均值豎線
a2 = p2
n = c()
for(i in 1:100){
  n[[i]] = mean(sample(rn$rn2,50))
  a2 = a2 + geom_vline(xintercept = n[[i]],color = "red",size = 0.3,alpha = 0.3)
}
#畫直方圖
dat = data.frame(n = n)
b2 = ggplot(dat,aes(x = n,y = ..density..))+
  geom_histogram(color = "#D0505D",
                 fill = "#D0505D",
                 alpha = 0.4,binwidth = 1)+
  theme_classic()+
  scale_y_continuous(expand = c(0,0))
#加正態(tài)曲線
y = data.frame(
  x = 40:62,
  y1 = dnorm(40:62,50,3))
b2 = b2 + geom_line(aes(x = x,y = y1),data = y)
a2 + b2

結(jié)論:均勻分布數(shù)據(jù)的均值符合正態(tài)分布

3.指數(shù)分布數(shù)據(jù)的均值分布

#畫均值豎線
a3 = p3
n = c()
for(i in 1:100){
  n[[i]] = mean(sample(rn$rn3,50))
  a3 = a3 + geom_vline(xintercept = n[[i]],color = "red",size = 0.3,alpha = 0.3)
}
#畫直方圖
dat = data.frame(n = n)
b3 = ggplot(dat,aes(x = n,y = ..density..))+
  geom_histogram(color = "#D0505D",
                 fill = "#D0505D",
                 alpha = 0.4,binwidth = 1)+
  theme_classic()+
  scale_y_continuous(expand = c(0,0))
#加正態(tài)曲線
y = data.frame(
  x = seq(11,22,0.1),
  y1 = dnorm(seq(11,22,0.1),16.5,1.5))

b3 = b3 + geom_line(aes(x = x,y = y1),data = y)
a3 + b3

結(jié)論:指數(shù)分布數(shù)據(jù)的均值也也耶符合正態(tài)分布

6.最后來個全家福吧~

(p1+p2+p3)/(a1+a2+a3)/(b1+b2+b3)

R語言真是學(xué)統(tǒng)計(jì)的好玩具袁串!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市呼巷,隨后出現(xiàn)的幾起案子囱修,更是在濱河造成了極大的恐慌,老刑警劉巖王悍,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件破镰,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)鲜漩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門源譬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人孕似,你說我怎么就攤上這事踩娘。” “怎么了喉祭?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵养渴,是天一觀的道長。 經(jīng)常有香客問我泛烙,道長理卑,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任蔽氨,我火速辦了婚禮藐唠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘孵滞。我一直安慰自己中捆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布坊饶。 她就那樣靜靜地躺著泄伪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪匿级。 梳的紋絲不亂的頭發(fā)上蟋滴,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音痘绎,去河邊找鬼津函。 笑死,一個胖子當(dāng)著我的面吹牛孤页,可吹牛的內(nèi)容都是我干的尔苦。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼行施,長吁一口氣:“原來是場噩夢啊……” “哼允坚!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蛾号,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤稠项,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后鲜结,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體展运,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡活逆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了拗胜。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蔗候。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖挤土,靈堂內(nèi)的尸體忽然破棺而出琴庵,到底是詐尸還是另有隱情,我是刑警寧澤仰美,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布迷殿,位于F島的核電站,受9級特大地震影響咖杂,放射性物質(zhì)發(fā)生泄漏庆寺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一诉字、第九天 我趴在偏房一處隱蔽的房頂上張望懦尝。 院中可真熱鬧,春花似錦壤圃、人聲如沸陵霉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽踊挠。三九已至,卻和暖如春冲杀,著一層夾襖步出監(jiān)牢的瞬間效床,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工权谁, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留剩檀,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓旺芽,卻偏偏與公主長得像沪猴,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子采章,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345