前面我們介紹了多種離散型概率分布起愈,大家可以點(diǎn)擊下方鏈接來回顧:
今天要給大家介紹另一個常見的離散型概率分布:泊松分布(Poisson distribution)译仗。它由法國數(shù)學(xué)家西莫恩·德尼·泊松 (1781–1840) 于1837年發(fā)表抬虽,在實際生活中有著非常廣泛的應(yīng)用。
1. 定義和現(xiàn)實應(yīng)用
泊松概率分布描述的是在某段時間或某個空間內(nèi)發(fā)生隨機(jī)事件次數(shù)的概率纵菌,簡而言之就是:根據(jù)過去某個隨機(jī)事件在某段時間或某個空間內(nèi)發(fā)生的平均次數(shù)阐污,預(yù)測該隨機(jī)事件在未來同樣長的時間或同樣大的空間內(nèi)發(fā)生k次的概率。其概率質(zhì)量函數(shù)為:
其中:
- λ是過去某段時間或某個空間內(nèi)隨機(jī)事件發(fā)生的平均次數(shù)
- e = 2.71828...咱圆,是自然常數(shù)
- k的取值為 0, 1, 2, 3, 4, ...
- k! = k x (k-1) x (k-2) x ... x 2 x 1笛辟,是k的階乘
由于泊松分布適用于描述某段時間(或某個空間)內(nèi)隨機(jī)事件發(fā)生的次數(shù),因此它常用于預(yù)測某些事件的發(fā)生序苏。例如:某家醫(yī)院在一定時間內(nèi)到達(dá)的人數(shù)手幢;超市收銀臺在某段時間內(nèi)的結(jié)賬人數(shù);某段時間內(nèi)發(fā)生自然災(zāi)害的次數(shù)忱详;某段時間內(nèi)DNA序列的變異數(shù)围来;放射性原子核在一段時間內(nèi)的衰變數(shù)等等。
2. 泊松分布的推導(dǎo)
泊松分布的概率質(zhì)量函數(shù)可以由二項分布的概率質(zhì)量函數(shù)推導(dǎo)而來匈睁,下面是推導(dǎo)過程监透。
二項分布的概率質(zhì)量函數(shù)為:
其中n代表伯努利試驗的次數(shù);p代表試驗成功的概率软舌,則1-p為試驗失敗的概率才漆;k代表n次試驗中成功的次數(shù),則失敗次數(shù)為n-k佛点。
假定在過去的歷史中醇滥,某個隨機(jī)事件在固定長度時間段發(fā)生的平均次數(shù)為λ黎比,那么就可以將固定長度的時間分成n等份;在每等份的時間內(nèi)鸳玩,隨機(jī)事件發(fā)生的概率可以表示為λ/n阅虫。若n趨于無窮大,也就是這段時間被分成無數(shù)的小段,那么λ/n的值將趨近于0氛雪,也就是在每個等份的時間內(nèi)翩隧,該隨機(jī)事件發(fā)生兩次或兩次以上是不可能的。根據(jù)以上假設(shè)條件购城,在固定長度時間內(nèi),隨機(jī)事件發(fā)生k次的概率服從二項概率分布虐译,可以表示為:
由上可知瘪板,在二項分布的伯努利試驗中,如果試驗次數(shù)n很大漆诽,成功概率p很小侮攀,且乘積λ= np比較適中,則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近厢拭。事實上兰英,二項分布可以看作泊松分布在離散時間上的對應(yīng)物。
3. 泊松分布的性質(zhì)
從泊松分布的概率質(zhì)量函數(shù)可以看出供鸠,λ是泊松分布所依賴的唯一參數(shù)畦贸,隨著歷史平均次數(shù)λ的不同,泊松分布的概率分布形態(tài)也將隨之改變回季。如下圖家制,隨著λ的增大,泊松分布的形態(tài)也由右偏分布 (尾巴在右邊) 逐漸變?yōu)閷ΨQ分布泡一。
在實際情況中颤殴,當(dāng)λ很大時,可以用正態(tài)分布近似地處理泊松分布問題
泊松分布的期望值與方差相等鼻忠,同為參數(shù)λ涵但,即:E(X)=Var(X)=λ (具體推導(dǎo)過程可參考泊松分布的中文維基百科詞條)。對于這個性質(zhì)帖蔓,也可通過二項分布的期望值和方差進(jìn)行推導(dǎo)矮瘟,我們知道二項分布的期望值和方差分別為np和npq,則泊松分布的期望值和方差為:
上式推導(dǎo)利用了λ/n的值趨近于0的這個性質(zhì)
4. R中的相關(guān)函數(shù)
R中也有四個函數(shù)可用于泊松分布塑娇,分別是:
dpois(x, lambda)
:返回發(fā)生x次隨機(jī)事件的概率ppois(q, lambda)
:返回累積概率qpois(p, lambda)
:返回相應(yīng)分位點(diǎn)x澈侠,詳情見下面的例子rpois(n, lambda)
:返回每組發(fā)生隨機(jī)事件的次數(shù)
這四個函數(shù)都有lambda
,對應(yīng)于隨機(jī)事件發(fā)生的平均次數(shù)λ埋酬。下面通過一個例子來了解如何使用它們:
根據(jù)歷史數(shù)據(jù)哨啃,某條河(比如:長江)100年平均要發(fā)生一次洪水烧栋,那么接下來的100年發(fā)生0次,1次和2次洪水的概率分別是多少呢拳球?
分析:由于是過去很長時間的數(shù)據(jù)總結(jié)审姓,因此可以認(rèn)為這條河發(fā)生洪水的概率是穩(wěn)定的,因此這條河發(fā)生洪水次數(shù)的概率服從泊松分布祝峻,且λ=1魔吐。
結(jié)果:
下表給出了在未來100年內(nèi),這條河發(fā)生0到6次洪水的概率:
從表格結(jié)果可以看出莱找,未來100年內(nèi)這條河發(fā)生洪水的概率高達(dá)63.2%
(= 1-P(k=0))酬姆,因此對于這條河要不斷加強(qiáng)和完善防洪工程措施。
下面我們利用R中的函數(shù)來計算相關(guān)量:
第一個問題:未來100年內(nèi)宋距,發(fā)生0次轴踱,1次和2次洪水的概率分別是多少?此時要用到dpois(x, lambda)
函數(shù)谚赎,其中x
參數(shù)指定發(fā)生的次數(shù),函數(shù)返回相應(yīng)概率诱篷,結(jié)果為:
> dpois(0:2, 1)
[1] 0.3678794 0.3678794 0.1839397
第二個問題:至多發(fā)生1次洪水的概率是多少壶唤?此時要用到ppois(q, lambda)
函數(shù),其中q
參數(shù)指定至多發(fā)生的次數(shù)(這里為1)棕所,函數(shù)返回相應(yīng)累積概率闸盔,結(jié)果為:
> ppois(1, 1)
[1] 0.7357589
第三個問題:90%概率下這條河至多能發(fā)生幾次洪水?此時要用到qpois(p, lambda)
函數(shù)琳省,其中p
參數(shù)指定概率(這里是0.9)迎吵,函數(shù)返回相應(yīng)分位點(diǎn)x(即F(x)≥0.9對應(yīng)的最小x值),結(jié)果為:
> qpois(0.9, 1)
[1] 2
結(jié)果表明针贬,90%概率下至多發(fā)生2次洪水
最后一個問題:重復(fù)10000組模擬击费,每組發(fā)生洪水的次數(shù)是多少?這時就要用到rpois(n, lambda)
函數(shù)桦他,其中n
參數(shù)指定模擬的組數(shù)(這里為10000)蔫巩,函數(shù)返回每組發(fā)生的次數(shù),結(jié)果為:
> set.seed(123)
> ns <- rpois(10000, 1)
> table(ns)
ns
0 1 2 3 4 5 6 7
3652 3757 1831 580 145 26 8 1
> mean(ns) ##發(fā)生次數(shù)的平均值
[1] 0.9924
> var(ns) ##發(fā)生次數(shù)的方差
[1] 0.9760398
模擬1萬組快压,3652組沒有發(fā)生洪水圆仔,與理論上36.78%不發(fā)生洪水很接近。此外均值和方差也與理論值 (λ=1)很接近蔫劣。
泊松分布的介紹就到此結(jié)束坪郭,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持本公眾號脉幢。
感謝您的閱讀歪沃!想了解更多有關(guān)技巧信姓,請關(guān)注我的微信公眾號“R語言和Python學(xué)堂”,我將定期更新相關(guān)文章绸罗。