前面我們介紹了多種離散型概率分布,大家可以點擊下方鏈接來回顧:
今天介紹另一個離散型概率分布:負(fù)二項分布(Negative binomial distribution)延窜。在實際生活中,我們可以使用負(fù)二項分布描述某種機(jī)器在壞掉前科展,能夠工作的天數(shù)的分布低缩;某運(yùn)動員在獲取r個獎牌前失敗次數(shù)的分布等等。
1. 定義
負(fù)二項分布也基于伯努利試驗涩禀,其定義有下面兩種形式:
在一系列伯努利試驗中料滥,失敗次數(shù)到達(dá)指定次數(shù)時,成功次數(shù)的離散概率分布
在一系列伯努利試驗中艾船,成功次數(shù)到達(dá)指定次數(shù)(記為r)時葵腹,失敗次數(shù)(記為k)的離散概率分布
這兩種定義只是將“成功”和“失敗”對調(diào),其本質(zhì)上沒差別屿岂。由于R中相關(guān)函數(shù)都采用第二種形式践宴,因此下面將以第二種形式為例。其概率質(zhì)量函數(shù)為:
其中:
k是失敗的次數(shù)爷怀,為自變量阻肩,取值范圍為0, 1, 2, 3, ...
r是成功的次數(shù),為固定值运授。當(dāng)r=1時烤惊,負(fù)二項分布退化為幾何分布
p是伯努利試驗成功的概率,失敗概率則為1-p
在負(fù)二項分布的概率質(zhì)量函數(shù)中吁朦,由于k+r次伯努利試驗為獨(dú)立同分布柒室,每個成功r次、失敗k次的事件的概率為逗宜。由于第r次成功一定是最后一次試驗雄右,所以應(yīng)該在k+r-1次試驗中選擇k次失敗剥啤,即組合數(shù)
作為系數(shù)。
2. 性質(zhì)
從負(fù)二項分布的概率質(zhì)量函數(shù)可以看出不脯,其概率分布依賴參數(shù)p和r府怯。負(fù)二項分布的期望值和方差為:
3. R中的相關(guān)函數(shù)
R中也有四個函數(shù)可用于負(fù)二項分布,分別是:
dnbinom(x, size, prob)
:返回發(fā)生x次失敗事件的概率pnbinom(q, size, prob)
:返回累積概率qnbinom(p, size, prob)
:返回相應(yīng)分位點x防楷,詳情見下面的例子rnbinom(n, size, prob)
:返回每組發(fā)生失敗事件的次數(shù)
這四個函數(shù)都有size
和prob
牺丙,分別對應(yīng)于成功次數(shù)r和成功概率p。下面通過一個例子來了解如何使用它們:
某位運(yùn)動員打算獲得4個冠軍后退役复局,假設(shè)每次比賽奪冠的概率為0.8冲簿,求該運(yùn)動員獲得4個冠軍前所經(jīng)歷失敗次數(shù)的概率分布?
分析:從題意可知亿昏,這個過程可用負(fù)二項分布來描述峦剔,其中成功次數(shù)r=4,成功概率p=0.8角钩。
結(jié)果:
下表給出了在運(yùn)動員獲得4個冠軍前吝沫,發(fā)生0到6次失敗的概率分布為:
從表格結(jié)果可以看出,該運(yùn)動員至少經(jīng)歷一次失敗的概率高達(dá)59%
(= 1-P(k=0))递礼。
下面我們利用R中的函數(shù)來計算相關(guān)量:
第一個問題:在該運(yùn)動員獲得4個冠軍前惨险,發(fā)生0次,1次和2次失敗的概率分別是多少脊髓?此時要用到dnbinom(x, size, prob)
函數(shù)辫愉,其中x
參數(shù)指定失敗的次數(shù),函數(shù)返回相應(yīng)概率将硝,結(jié)果為:
> dnbinom(0:2, 4, 0.8)
[1] 0.40960 0.32768 0.16384
第二個問題:至多發(fā)生2次失敗的概率是多少恭朗?此時要用到pnbinom(x, size, prob)
函數(shù),其中q
參數(shù)指定至多失敗的次數(shù)(這里為2)依疼,函數(shù)返回相應(yīng)累積概率痰腮,結(jié)果為:
> pnbinom(2, 4, 0.8)
[1] 0.90112
第三個問題:90%概率下該運(yùn)動員至多失敗幾次?此時要用到qnbinom(x, size, prob)
函數(shù)涛贯,其中p
參數(shù)指定概率(這里是0.9)诽嘉,函數(shù)返回相應(yīng)分位點x(即F(x)≥0.9對應(yīng)的最小x值)蔚出,結(jié)果為:
> qnbinom(0.9, 4, 0.8)
[1] 2
結(jié)果表明弟翘,90%概率下至多失敗2次
最后一個問題:重復(fù)10萬組模擬,每組失敗的次數(shù)是多少骄酗?這時就要用到rnbinom(x, size, prob)
函數(shù)稀余,其中n
參數(shù)指定模擬的組數(shù)(這里為100000),函數(shù)返回每組發(fā)生的次數(shù)趋翻,結(jié)果為:
> set.seed(123)
> ns <- rnbinom(100000, 4, 0.8)
> table(ns)
ns
0 1 2 3 4 5 6 7 8 9 10
41123 32677 16291 6608 2295 714 208 60 16 6 2
> mean(ns) ##失敗次數(shù)的平均值
[1] 0.99703
> var(ns) ##失敗次數(shù)的方差
[1] 1.246154
> 4*(1-0.8)/0.8 ##均值的理論值
[1] 1
> 4*(1-0.8)/0.8^2 ##方差的理論值
[1] 1.25
模擬10萬組睛琳,41123組沒有發(fā)生失敗,與理論上40.96%不發(fā)生失敗很接近。此外均值和方差也與理論值很接近师骗。
負(fù)二項分布的介紹就到此結(jié)束历等,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持本公眾號辟癌。
感謝您的閱讀寒屯!想了解更多有關(guān)技巧,請關(guān)注我的微信公眾號“R語言和Python學(xué)堂”黍少,我將定期更新相關(guān)文章寡夹。