0x00 前言
在統(tǒng)計學(xué)中炕置,隨機(jī)變量就是指一個隨機(jī)的事件結(jié)果的取值X,比如一次拋硬幣隨機(jī)事件會出現(xiàn)兩種情況男韧,一個正面一個反面讹俊,或隨機(jī)拔下一根頭發(fā)的長度都是隨機(jī)變量。
概率呢煌抒,就是指一個隨機(jī)事件,在發(fā)生前都不能確定它的結(jié)果是什么厕倍,但是我們可以判斷每一種結(jié)果發(fā)生的可能性大小寡壮,這個數(shù)值就是概率。概率分類就是通過結(jié)果的概率確定方法不同來分類的讹弯,可以分為古典概率和條件概率况既。
古典概率的定義就是一次隨機(jī)事件它的結(jié)果種類可知,且它每種結(jié)果的概率都相等组民,所以古典事件每種結(jié)果出現(xiàn)的概率可以表示為:棒仍。條件概率即是事件A在事件B發(fā)生的前提下發(fā)生的概率,表示為:
臭胜。
而概率分布就是隨機(jī)變量與其概率對應(yīng)關(guān)系的函數(shù)莫其,根據(jù)數(shù)據(jù)(隨機(jī)變量)連續(xù)性的不同癞尚,可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量,因此事件發(fā)生的結(jié)果對應(yīng)的概率分布也就分為離散型概率分布和連續(xù)型概率分布乱陡。
0x01 離散型概率分布
離散型概率分布的種類有很多浇揩,比較常見的有拋硬幣的結(jié)果與對應(yīng)概率形成的分布——伯努利分布(零一分布)、n重伯努利試驗形成的二項分布憨颠、二項分布的極限分布(n->∞和p->0)泊松分布胳徽、二項分布不放回抽樣版超幾何分布、二項分布第一次成功版幾何分布等爽彤。
1.伯努利分布(零一分布)
只有兩種可能結(jié)果的隨機(jī)試驗對應(yīng)的概率分布养盗,如拋硬幣試驗。
它的概率質(zhì)量函數(shù)是:
? ??????????????????????????
2.二項分布
重復(fù)n次相同的伯努利試驗形成的結(jié)果與對應(yīng)概率的分布适篙,像n次拋硬幣往核。
特點如下:
①每次試驗只有兩種結(jié)果,且兩個結(jié)果只會出現(xiàn)一次匙瘪。
②每次試驗都是獨立試驗铆铆,每次的試驗結(jié)果不受其他次試驗結(jié)果的影響。
③每次試驗前丹喻,如果成功的概率是p薄货,那么失敗的概率就是1-p。
那么進(jìn)行n次伯努利試驗碍论,成功x次的概率(二項分布的概率質(zhì)量函數(shù))為:
? ??????????????????????????????
由公式可以看出二項分布的概率質(zhì)量函數(shù)是由試驗次數(shù)n和單次試驗成功的概率p決定的谅猾。
二項分布的均值為:
二項分布的方差為:
3.泊松分布
泊松分布考慮的是在連續(xù)時間或空間上發(fā)生隨機(jī)事件次數(shù)的概率。簡單點理解就是鳍悠,基于過去某個連續(xù)的時間或者空間內(nèi)發(fā)生的平均次數(shù)税娜,預(yù)測該隨機(jī)事件在未來同樣長的時間或空間內(nèi)發(fā)生n次的概率。
其概率質(zhì)量函數(shù)由二項分布推導(dǎo)藏研,假設(shè)某個時間內(nèi)隨機(jī)事件發(fā)生的次數(shù)為敬矩,將這段時間n等分,那么隨機(jī)事件發(fā)生的概率就是
蠢挡。如果n趨于無窮弧岳,那么概率就無限趨近于0,也就是說业踏,在每個等分中隨機(jī)事件想發(fā)生兩次或兩次以上是不可能的禽炬。根據(jù)以上假定條件,在這段時間內(nèi)勤家,該隨機(jī)事件發(fā)生k次的概率服從二項分布腹尖,則
泊松分布是關(guān)于歷史平均次數(shù)的函數(shù),隨著歷史平均次數(shù)的不同伐脖,泊松分布的形態(tài)也將改變热幔。
泊松分布的均值和方差也可以通過二項分布的均值和方差進(jìn)行推導(dǎo)乐设,
均值:
方差:
4.超幾何分布
超幾何分布是指在有限總體中進(jìn)行無放回抽樣(總體數(shù)量不斷減少),每次試驗開始前概率都會發(fā)生變化断凶。
超幾何分布的概率質(zhì)量函數(shù)即為:
以上公式表示在有限總體N中伤提,符合要求的數(shù)值有m個,如果從總體中抽取n個认烁,有k個是符合要求個案的概率肿男。
表示從剩余N-m個個案中抽取n-k個個案的方法數(shù)目。
實際應(yīng)用中却嗡,只要數(shù)據(jù)總體的個案數(shù)目是樣本容量的10倍以上舶沛,即N>10n,就可以用二項分布近似描述超幾何分布
0x02 連續(xù)型隨機(jī)變量
1.指數(shù)分布
指數(shù)分布描述的是兩次隨機(jī)事件發(fā)生的時間間隔的概率分布情況窗价,這里的時間間隔指的是一次隨機(jī)事件發(fā)生到下一次隨機(jī)事件再發(fā)生的時間間隔如庭。放在二維坐標(biāo)內(nèi)理解,縱軸表示概率密度撼港,橫軸代表時間間隔長度坪它,因為時間間隔長度可以取任意連續(xù)的數(shù)值,所以指數(shù)分布是一種連續(xù)型的概率分布帝牡。常見應(yīng)用如往毡,某醫(yī)院平均每10分鐘出生一個嬰兒,求接下來5分鐘內(nèi)有嬰兒出生的概率靶溜。
指數(shù)分布與泊松分布互補(bǔ)开瞭。泊松分布能夠根據(jù)過去單位時間內(nèi)隨機(jī)事件的平均發(fā)生次數(shù),推斷未來相同的單位時間內(nèi)隨機(jī)事件發(fā)生不同次數(shù)的概率罩息。而指數(shù)分布的作用是根據(jù)隨機(jī)事件發(fā)生一次的平均等待時間來推斷某個時間內(nèi)嗤详,隨機(jī)事件發(fā)生的概率。
指數(shù)概率分布是連續(xù)型概率分布瓷炮,所以概率函數(shù)應(yīng)該是概率密度函數(shù)葱色,公式定義為:
x表示給定時間的長度,表示隨機(jī)事件發(fā)生一次的平均等待時間娘香,
是
的倒數(shù)冬筒,可解釋為單位時間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。
2.均勻分布
均勻概率分布是古典概率分布的連續(xù)形式茅主,是指隨機(jī)事件的可能結(jié)果是連續(xù)型數(shù)據(jù)變量,所有的連續(xù)型數(shù)據(jù)結(jié)果所對應(yīng)的概率相等土榴。
如果將離散數(shù)據(jù)結(jié)果換成連續(xù)型數(shù)據(jù)結(jié)果的取值區(qū)域诀姚,并且所有的連續(xù)型數(shù)據(jù)結(jié)果發(fā)生的概率相等,則離散型的古典概率分布就轉(zhuǎn)換成為連續(xù)型的均勻概率分布玷禽。
3.正態(tài)分布
如果某個隨機(jī)變量x服從正態(tài)分布赫段,它的均值(算術(shù)平均值)和標(biāo)準(zhǔn)差是決定正態(tài)分布的兩個參數(shù)呀打。均值表示數(shù)據(jù)集合的集中趨勢,而方差則表示數(shù)據(jù)集合的離散程度糯笙,正態(tài)分布的概率密度函數(shù)就由均值和方差兩個自變量構(gòu)成:
表示均值贬丛;
表示標(biāo)準(zhǔn)差。
正太分布的概率密度函數(shù)曲線呈鐘型给涕,因此也被稱為鐘形曲線(類似于寺廟里面的大鐘豺憔,因此而得名)。通常所說的標(biāo)準(zhǔn)正態(tài)分布曲線就是指,標(biāo)準(zhǔn)差
的正態(tài)分布够庙。
如上圖所示恭应,紅色曲線即為標(biāo)準(zhǔn)正態(tài)分布曲線。
正態(tài)分布中一些值得注意的地方:
1.概率密度函數(shù)關(guān)于平均值對稱
2.平均值與它的眾數(shù)以及中位數(shù)同一數(shù)值
3.函數(shù)曲線下68.3%的面積在平均數(shù)左右一個標(biāo)準(zhǔn)差的范圍內(nèi)
4.95.4%的數(shù)據(jù)會落在平均數(shù)左右兩個標(biāo)準(zhǔn)差的范圍內(nèi)
5.99.7%的數(shù)據(jù)會落在平均數(shù)左右三個標(biāo)準(zhǔn)差的范圍內(nèi)耘眨,所以以上三條經(jīng)驗法則被形象地稱為六西格瑪法則
6.99.9%的數(shù)據(jù)會落在平均數(shù)左右四個標(biāo)準(zhǔn)差的范圍內(nèi)
7.函數(shù)曲線的拐點為離平均數(shù)一個標(biāo)準(zhǔn)差的位置