作者: 阮一峰
大學時烤咧,我一直覺得統(tǒng)計學很難偏陪,還差點掛科。
工作以后才發(fā)現(xiàn)煮嫌,難的不是統(tǒng)計學笛谦,而是我們的教材寫得不好。比起高等數學昌阿,統(tǒng)計概念其實容易理解多了饥脑。
我舉一個例子,什么是泊松分布和指數分布懦冰?恐怕大多數人都說不清楚好啰。
我可以在10分鐘內,讓你毫不費力地理解這兩個概念儿奶。
一、泊松分布
日常生活中鳄抒,大量事件是有固定頻率的闯捎。
- 某醫(yī)院平均每小時出生3個嬰兒
- 某公司平均每10分鐘接到1個電話
- 某超市平均每天銷售4包xx牌奶粉
- 某網站平均每分鐘有2次訪問
它們的特點就是,我們可以預估這些事件的總數许溅,但是沒法知道具體的發(fā)生時間瓤鼻。已知平均每小時出生3個嬰兒,請問下一個小時贤重,會出生幾個茬祷?
有可能一下子出生6個,也有可能一個都不出生并蝗。這是我們沒法知道的祭犯。
泊松分布就是描述某段時間內,事件具體的發(fā)生概率滚停。
上面就是泊松分布的公式沃粗。等號的左邊,P 表示概率键畴,N表示某種函數關系最盅,t 表示時間,n 表示數量,1小時內出生3個嬰兒的概率涡贱,就表示為 P(N(1) = 3) 咏删。等號的右邊,λ 表示事件的頻率问词。
接下來兩個小時督函,一個嬰兒都不出生的概率是0.25%,基本不可能發(fā)生戏售。
接下來一個小時侨核,至少出生兩個嬰兒的概率是80%。
泊松分布的圖形大概是下面的樣子灌灾。
可以看到搓译,在頻率附近,事件的發(fā)生概率最高锋喜,然后向兩邊對稱下降些己,即變得越大和越小都不太可能。每小時出生3個嬰兒嘿般,這是最可能的結果段标,出生得越多或越少,就越不可能炉奴。
二逼庞、指數分布
指數分布是事件的時間間隔的概率。下面這些都屬于指數分布瞻赶。
- 嬰兒出生的時間間隔
- 來電的時間間隔
- 奶粉銷售的時間間隔
- 網站訪問的時間間隔
指數分布的公式可以從泊松分布推斷出來赛糟。如果下一個嬰兒要間隔時間 t ,就等同于 t 之內沒有任何嬰兒出生砸逊。
反過來璧南,事件在時間 t 之內發(fā)生的概率,就是1減去上面的值师逸。
接下來15分鐘司倚,會有嬰兒出生的概率是52.76%。
接下來的15分鐘到30分鐘篓像,會有嬰兒出生的概率是24.92%动知。
指數分布的圖形大概是下面的樣子。
可以看到员辩,隨著間隔時間變長拍柒,事件的發(fā)生概率急劇下降,呈指數式衰減屈暗。想一想拆讯,如果每小時平均出生3個嬰兒脂男,上面已經算過了,下一個嬰兒間隔2小時才出生的概率是0.25%种呐,那么間隔3小時宰翅、間隔4小時的概率,是不是更接近于0爽室?
三汁讼、總結
一句話總結:泊松分布是單位時間內獨立事件發(fā)生次數的概率分布,指數分布是獨立事件的時間間隔的概率分布阔墩。
請注意是"獨立事件"嘿架,泊松分布和指數分布的前提是,事件之間不能有關聯(lián)啸箫,否則就不能運用上面的公式耸彪。