知識(shí)清單
- 二項(xiàng)分布
- 性質(zhì)
- 應(yīng)用
- Poison分布
- 性質(zhì)
- 應(yīng)用
- 負(fù)二項(xiàng)分布
- 性質(zhì)
- 應(yīng)用
1. 二項(xiàng)分布
二項(xiàng)分布(binomial distribution)助被,是指只有兩種可能結(jié)果的n此獨(dú)立重復(fù)實(shí)驗(yàn)中,出現(xiàn)陽(yáng)性次數(shù)X的一種概論分布
1.1 適用條件
- [x] 每次試驗(yàn)只會(huì)發(fā)生兩種對(duì)立的可能結(jié)果之一株扛,即分別發(fā)生兩種結(jié)果的概率之和恒為1
- [x] 每次試驗(yàn)產(chǎn)生某種結(jié)果(如“陽(yáng)性”)的概率固定不變
- [x] 重復(fù)試驗(yàn)是獨(dú)立的
1.2 性質(zhì)
- [x] X的均數(shù)與方差
- [x] 率p的均值和方差
- [x] n -> 無(wú)窮大养距,而pi不太靠近0或1時(shí)诉探,二項(xiàng)分布近似正態(tài)分布;n -> 無(wú)窮大棍厌,而pi靠近0時(shí)肾胯,二項(xiàng)分布近似Poision分布
1.3 應(yīng)用
1.3.1 總體率的區(qū)間估計(jì)與假設(shè)檢驗(yàn)(精確檢驗(yàn))
n<=50的小樣本只能直接查表(如13名手術(shù)患者進(jìn)行治療,6人痊愈耘纱,估計(jì)其痊愈率的95%可信區(qū)間敬肚,并與一療效為50%的治療方案有無(wú)差異?)
# 數(shù)據(jù)
> ratio <- 6/13
> x <- 6
> n <- 13
# 檢驗(yàn)
> library(Hmisc)
> binconf(x, n, alpha=0.05, method="exact")
PointEst Lower Upper
0.4615385 0.1922324 0.7486545
> binconf(x, n, alpha=0.05, method="wilson")
PointEst Lower Upper
0.4615385 0.2320607 0.708562
> binconf(x, n, alpha=0.05, method="all")
PointEst Lower Upper
Exact 0.4615385 0.1922324 0.7486545
Wilson 0.4615385 0.2320607 0.7085620
Asymptotic 0.4615385 0.1905457 0.7325312
>
> binom.test(x, n, p = 0.5,
+ alternative = "two.sided",
+ conf.level = 0.95)
Exact binomial test
data: x and n
number of successes = 6, number of trials = 13, p-value = 1
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.1922324 0.7486545
sample estimates:
probability of success
0.4615385
參考:
https://stat.ethz.ch/R-manual/R-devel/library/stats/html/binom.test.html
https://stackoverflow.com/questions/21719578/confidence-interval-for-binomial-data-in-r
n較大束析、p和1-p均不太小艳馒,np和n(1-p)均大于5時(shí),可近似正態(tài)分布
計(jì)算1-alpha的可信區(qū)間可以近似為:
如100人接受藥物治療后55人有效员寇,估計(jì)有效率95%可信區(qū)間
> x <- 55
> n <- 100
> Sp <- sqrt(x/n*(1-x/n)/n)
> x/n + c(-1, 1)*qnorm(p=0.975)*Sp
[1] 0.452493 0.647507
> library(Hmisc)
> binconf(x, n, alpha=0.05, method="all")
PointEst Lower Upper
Exact 0.55 0.4472802 0.6496798
Wilson 0.55 0.4524460 0.6438546
Asymptotic 0.55 0.4524930 0.6475070
> binom.test(x, n, 0.5,
+ alternative="two.sided",
+ conf.level=0.95)
Exact binomial test
data: x and n
number of successes = 55, number of trials = 100, p-value = 0.3682
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.4472802 0.6496798
sample estimates:
probability of success
0.55
1.3.2 樣本率與總體率的比較
直接法
分單側(cè)(優(yōu)或劣問(wèn)題)和雙側(cè)(是否相同問(wèn)題)弄慰,這兩種情況的算法截然不同【但是單側(cè)和雙側(cè)的基本思想與t檢驗(yàn)這些都相同的, 即雙側(cè)檢驗(yàn)計(jì)算小于當(dāng)前事件概率的所有小概率事件之和得出p值蝶锋,單側(cè)檢驗(yàn)計(jì)算小于當(dāng)前事件并且值大于或者小于當(dāng)前X值的事件概率之和得出p值】陆爽,下面以例題代碼演示
- 單側(cè)檢驗(yàn)
# 單側(cè)檢驗(yàn)
# 例:手術(shù)方式1的成功率為0.55
# 手術(shù)方式2進(jìn)行試驗(yàn),10例成功9例
# 問(wèn):手術(shù)方式2是否優(yōu)于手術(shù)方式1牲览?
# H0為手術(shù)方式2的成功率=0.55
# H1為手術(shù)方式2的成功率高于0.55
# 繪圖代碼
size = 10 # 獨(dú)立重復(fù)試驗(yàn)次數(shù)
prob = 0.55 # 每次成功的概率
test_x = 9 # 實(shí)際成功次數(shù)
x_range <- seq(0, size, by=1)
p_range <- dbinom(prob=prob, size=size, x=x_range)
data <- data.frame(x_range=x_range,
p_range=p_range,
test_type =factor(
as.numeric(p_range<=(p_range[x_range==test_x]))+as.numeric(x_range>=test_x),
levels=c(0, 1, 2), labels=c("not test", "left tail", "right tail")))
library(ggplot2)
p <- ggplot(data, aes(x_range, p_range, color=test_type))+geom_line(aes(x_range, p_range), color="gray55") +
geom_point(size=3) + geom_vline(aes(xintercept=test_x), color="blue", lwd=1, alpha=0.4) +
geom_hline(aes(yintercept=p_range[x_range==test_x]), color="green", lwd=1, alpha=0.4) +
scale_x_continuous(breaks=x_range)+xlab("X")+ylab("Probability")+ggtitle(label=paste("X~B(", size, " ,", prob, ")", sep=""))+
theme_classic()
p
> # 單側(cè)檢驗(yàn)(優(yōu)于0.55)p值計(jì)算
> # 即僅計(jì)算上圖中右尾部分墓陈,為sum(P(X>=9))
> size = 10 # 獨(dú)立重復(fù)試驗(yàn)次數(shù)
> prob = 0.55 # 每次成功的概率
> test_x = 9 # 實(shí)際成功次數(shù)
> x_range <- seq(0, size, by=1)
> p_range <- dbinom(prob=prob, size=size, x=x_range)
> p_value <- sum(p_range[x_range>=size])
> p_value
[1] 0.002532952
- 雙側(cè)側(cè)檢驗(yàn)
把上題中的問(wèn)題改為兩種手術(shù)方法有無(wú)差異,則使用雙側(cè)檢驗(yàn)第献,p值為sum(P(X=i)) where P(X=i) <= P(X=9)贡必,而不是t檢驗(yàn)中簡(jiǎn)單的單側(cè)檢驗(yàn)乘2,因?yàn)?strong>二項(xiàng)分布可能是不對(duì)稱的
> # 雙側(cè)p值計(jì)算
> # 計(jì)算上圖中左尾和右尾概率之和庸毫,sum(P(X=i)) where P(X=i) <= P(X=9))
> size = 10 # 獨(dú)立重復(fù)試驗(yàn)次數(shù)
> prob = 0.55 # 每次成功的概率
> test_x = 9 # 實(shí)際成功次數(shù)
> x_range <- seq(0, size, by=1)
> p_range <- dbinom(prob=prob, size=size, x=x_range)
> p_value <- sum(p_range[p_range<=p_range[x_range==test_x]])
> p_value
[1] 0.02775935
正態(tài)近似法
條件:n較大仔拟,p和1-p均不太小,np和n(1-p)均大于5飒赃,二項(xiàng)分布可近似正態(tài)分布利花,其u值計(jì)算公式為
1.3.3 兩樣本率的比較
條件:n1與n2均較大科侈,p1、p2炒事、1-p1和1-p2均不太型握弧(n1p1、n1(1-p1)挠乳、n2p2权薯、n2(1-p2)均大于5),可利用樣本率的分布近似正態(tài)分布且獨(dú)立兩正態(tài)變量之差也服從正態(tài)分布的性質(zhì)睡扬,采用近似正態(tài)法對(duì)兩總體率進(jìn)行統(tǒng)計(jì)檢驗(yàn)盟蚣,u的計(jì)算公式為:
})
1.3.4 非遺傳疾病的家族聚集性
- clustering in families系指改疾病發(fā)生在家族成員間是否有傳染性,如果沒(méi)有傳染性卖怜,則家族成員是否患病獨(dú)立屎开,否則存在家族聚集性
- 以相同成員數(shù)目n的家庭為樣本,對(duì)每個(gè)家庭出現(xiàn)X個(gè)患者的概率分布是否服從二項(xiàng)分布進(jìn)行檢驗(yàn)马靠,從而分析其聚集性
- 實(shí)際資料與二項(xiàng)分布進(jìn)行擬和優(yōu)度的卡方檢驗(yàn)得出p值
1.3.5 做群檢驗(yàn)
- 群檢驗(yàn)?zāi)康模簽榱私鉀Q檢驗(yàn)大批標(biāo)本的陽(yáng)性率問(wèn)題
- 具體做法:把N個(gè)標(biāo)本分為n個(gè)群奄抽,每個(gè)群m個(gè)標(biāo)本,即N=n*m甩鳄。檢驗(yàn)每個(gè)群是否為陽(yáng)性群(一旦檢測(cè)到陽(yáng)性就停止檢測(cè)當(dāng)前群)如孝,只有陰性群才需要檢測(cè)所有標(biāo)本,可以大大減少檢測(cè)數(shù)目
-
通過(guò)陽(yáng)性群率計(jì)算陽(yáng)性率:假設(shè)受檢的n個(gè)群中娩贷,X個(gè)群為陽(yáng)性群,則X/n可作為陽(yáng)性群率的估計(jì)锁孟,記每個(gè)標(biāo)本陽(yáng)性率為pi彬祖,則
2. Poisson分布
Poisson分布是二項(xiàng)分布的一種極端情況,已發(fā)展為描述小概率事件發(fā)生規(guī)律的一種重要分布品抽,如分析發(fā)病率低的非傳染性疾病發(fā)病或人數(shù)分布等储笑、單位時(shí)間或面積、空間某罕見(jiàn)事物的分布圆恤,對(duì)應(yīng)概率為
\lambda
為總體均數(shù)突倍,e=2.71828為一常數(shù)
2.1 適用條件
假定在某觀測(cè)單位內(nèi),某事件(如“陽(yáng)性”)平均發(fā)生次數(shù)為lambda盆昙,且規(guī)定改觀測(cè)單位可等分為充分多的n粉羽历,其樣本計(jì)數(shù)為X(X=0, 1, 2,···),則在滿足該條件時(shí)淡喜,有X~P(lambda):
- 普通性
在充分小的觀測(cè)單位上X的取值最多為1 - 獨(dú)立增量性
每個(gè)觀測(cè)單位上X的取值與前面各觀測(cè)單位無(wú)關(guān) - 平穩(wěn)性
X的取值只與觀測(cè)單位的大小有關(guān)秕磷,而與觀測(cè)單位的位置無(wú)關(guān),即每一次使用陽(yáng)性發(fā)生的概率都應(yīng)相同炼团,為pi=lambda/x澎嚣,這樣陽(yáng)性數(shù)X的取值只與重復(fù)試驗(yàn)的次數(shù)相關(guān)疏尿,為合計(jì)的陽(yáng)性總數(shù),可看作是大量獨(dú)立試驗(yàn)的總結(jié)果
2.2 性質(zhì)和圖形
- 總體均數(shù)與總體方差相等
- n很大pi很小易桃,且npi=lambda時(shí)褥琐,二項(xiàng)分布近似Poisson分布
- lambda增大時(shí),Poisson分布漸近正態(tài)分布晤郑,lambda>=20時(shí)可作為正態(tài)分布
- Possion分布具有可加性(和正態(tài)分布類似)敌呈,但不具有可乘性(可由X取值和均數(shù),方差看出)
- Poisson分布的圖形贩汉,若lambda時(shí)整數(shù)驱富,則在X=lambda和X=lambda-1處有最大概率
lambda <- 1:6
x <- 1:(2*max(lambda+1))
data <- data.frame(x=rep(x, times=length(lambda)),
lambda=factor(rep(lambda, each=length(x))),
prob=dpois(x, rep(lambda, each=length(x))))
library(ggplot2)
ggplot(data, aes(x=x, y=prob, color=lambda, group=lambda))+
geom_point(size=2)+geom_line(lwd=1)+
scale_x_continuous(breaks=floor(seq(min(x), max(x), by=((max(x)-min(x))/20))))
2.3 Poisson分布的應(yīng)用
2.3.1 總體均數(shù)的區(qū)間估計(jì)
查表法(X<=50)
例:1立升空氣測(cè)得粉塵粒子數(shù)為21,估計(jì)改車間平均每立升空氣粉塵顆粒的95%和99%可信區(qū)間
> exactci::poisson.exact(21, plot=T, conf.level=0.95)
Exact two-sided Poisson test (central method)
data: 21 time base: 1
number of events = 21, time base = 1, p-value < 2.2e-16
alternative hypothesis: true event rate is not equal to 1
95 percent confidence interval:
12.99933 32.10073
sample estimates:
event rate
21
> exactci::poisson.exact(21, plot=T, conf.level=0.99)
Exact two-sided Poisson test (central method)
data: 21 time base: 1
number of events = 21, time base = 1, p-value < 2.2e-16
alternative hypothesis: true event rate is not equal to 1
99 percent confidence interval:
11.06923 35.94628
sample estimates:
event rate
21
> poisson.test(20, alternative="two.sided", conf.level=0.95)
Exact Poisson test
data: 20 time base: 1
number of events = 20, time base = 1, p-value < 2.2e-16
alternative hypothesis: true event rate is not equal to 1
95 percent confidence interval:
12.21652 30.88838
sample estimates:
event rate
20
> poisson.test(20, alternative="two.sided", conf.level=0.99)
Exact Poisson test
data: 20 time base: 1
number of events = 20, time base = 1, p-value < 2.2e-16
alternative hypothesis: true event rate is not equal to 1
99 percent confidence interval:
10.35327 34.66800
sample estimates:
event rate
20
參考:
https://artax.karlin.mff.cuni.cz/r-help/library/exactci/html/poisson.exact.html
近似正態(tài)法(X>50)
計(jì)算1-alpha的可信區(qū)間可以近似為:
其結(jié)果意義為平均每個(gè)單位陽(yáng)性數(shù)的1-alpha可行區(qū)間匹舞。
2.3.2 樣本均數(shù)與總體均數(shù)的比較
有二項(xiàng)分布相同有直接法和近似正態(tài)法兩種褐鸥,其分界為lambda>=20
# 例某病發(fā)病率為0.008,
# 120名吸煙孕婦生育的120名小孩中有4人患病赐稽,
# 判斷吸煙是否會(huì)增加后代患病率叫榕?
# 單側(cè)檢驗(yàn)
> pi = 0.008
> n = 120
> X = 4
> lambda = n * pi
> sum(dpois(x=seq(X, n, by=1), lambda=lambda))
[1] 0.01663305
> poisson.test(x=4, r=lambda, alternative="greater")
Exact Poisson test
data: 4 time base: 1
number of events = 4, time base = 1, p-value = 0.01663
alternative hypothesis: true event rate is greater than 0.96
95 percent confidence interval:
1.366318 Inf
sample estimates:
event rate
4
> exactci::poisson.exact(x=4, r=lambda, alternative="greater", plot=TRUE)
Exact one-sided Poisson rate test
data: 4 time base: 1
number of events = 4, time base = 1, p-value = 0.01663
alternative hypothesis: true event rate is greater than 0.96
95 percent confidence interval:
1.366318 Inf
sample estimates:
event rate
4
正態(tài)近似法(lambda>=20),u的計(jì)算公式為:
2.3.3 兩樣本均數(shù)的比較(正態(tài)近似)
1. 兩樣本觀察單位數(shù)相等
-
X1 + X2 >= 20時(shí)
-
5 < X + X2 < 20時(shí)
2. 兩樣本觀察單位數(shù)不相等
-
X1 + X2 >= 20時(shí)
-
5 < X + X2 < 20時(shí)
其中
3. 負(fù)二項(xiàng)分布
概率論中姊舵,負(fù)二項(xiàng)分布(帕斯卡分布)的期望到底是哪個(gè)晰绎?
最近在看隨機(jī)過(guò)程,看到負(fù)二項(xiàng)分布這部分括丁,X~NB(k,p)荞下,發(fā)現(xiàn)其期望有兩種說(shuō)法,有的說(shuō)是EX=k/p史飞,有的說(shuō)是EX=k(1-p)/p尖昏。有點(diǎn)懵,還望大神答疑解惑?
負(fù)二項(xiàng)分布NB(k,p)构资, 我在不同的教材和wiki上見(jiàn)過(guò)四種定義
- 每次成功率為p的實(shí)驗(yàn)抽诉,達(dá)到k次成功所需的試驗(yàn)次數(shù) (i.e. 最小值為k)
- 每次成功率為p的實(shí)驗(yàn),達(dá)到k次成功前的失敗次數(shù) (i.e. 最小值為0)
- 每次失敗率為p的實(shí)驗(yàn)吐绵,達(dá)到k次成功所需的試驗(yàn)次數(shù)
- 每次失敗率為p的實(shí)驗(yàn)迹淌,達(dá)到k次成功前的失敗次數(shù)
目測(cè)題主看到的第一種期望是定義1,第二個(gè)答案是定義2己单。具體計(jì)算另一個(gè)回答已經(jīng)寫(xiě)了唉窃。
作者:張雨萌
鏈接:https://www.zhihu.com/question/54435013/answer/139334781
來(lái)源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)荷鼠,非商業(yè)轉(zhuǎn)載請(qǐng)注明出處句携。
各種分布的關(guān)系圖:
來(lái)源:
http://www.math.wm.edu/~leemis/chart/UDR/UDR.html