一风喇、前言
概率分布(probabilitydistribution)或簡稱分布(distribution)阵赠,是概率論的一個(gè)概念腊敲。
具有相同分布函數(shù)的隨機(jī)變量一定是同分布的叹括,因此可以用分布函數(shù)來描述一個(gè)分布瀑晒,但更常用的描述手段是概率密度函數(shù)(probability density function,pdf)绍坝。
二、基本概念
1. 隨機(jī)變量
隨機(jī)變量(random variable)表示隨機(jī)試驗(yàn)各種結(jié)果的實(shí)值單值函數(shù)苔悦。隨機(jī)事件不論與數(shù)量是否直接有關(guān)轩褐,都可以數(shù)量化,即都能用數(shù)量化的方式表達(dá)玖详。
隨機(jī)事件數(shù)量化的好處是可以用數(shù)學(xué)分析的方法來研究隨機(jī)現(xiàn)象把介。例如某一時(shí)間內(nèi)公共汽車站等車乘客人數(shù)勤讽,電話交換臺(tái)在一定時(shí)間內(nèi)收到的呼叫次數(shù),燈泡的壽命等等拗踢,都是隨機(jī)變量的實(shí)例脚牍。
隨機(jī)變量是隨機(jī)試驗(yàn)樣本空間上的單值實(shí)數(shù)函數(shù),分為離散型隨機(jī)變量 與 連續(xù)型隨機(jī)變量巢墅。
離散型隨機(jī)變量:取值可以一一列舉诸狭,有限個(gè)或者可列舉的無限多個(gè)。
連續(xù)型隨機(jī)變量:取值不能一一列舉君纫,可能取值連續(xù)的充滿了某一區(qū)間驯遇。
2.古典概率
1)概率的定義
表示一個(gè)事件發(fā)生的可能性的大小的數(shù)。
2)古典概率的定義
如果試驗(yàn)中可能出現(xiàn)的基本事件數(shù)有n個(gè)蓄髓,而事件A包含的基本事件數(shù)為m個(gè)叉庐,A的概率。
3)特征
- 有限性
所有基本事件是有限個(gè)会喝。 - 等可能性
各基本事件發(fā)生的可能性是相等的陡叠。
3. 條件概率
條件概率是指事件A在另外一個(gè)事件B已經(jīng)發(fā)生條件下的發(fā)生概率。條件概率表示為:P(A|B)肢执,讀作“在B的條件下A的概率”匾竿。
若只有兩個(gè)事件A,B蔚万,則條件概率公式
4. 離散變量
離散型(discrete)隨機(jī)變量即在一定區(qū)間內(nèi)變量取值為有限個(gè)或可數(shù)個(gè)岭妖。例如某地區(qū)某年人口的出生數(shù)、死亡數(shù)反璃,某藥治療某病病人的有效數(shù)昵慌、無效數(shù)等。離散型隨機(jī)變量通常依據(jù)概率質(zhì)量函數(shù)分類淮蜈,主要分為:伯努利隨機(jī)變量斋攀、二項(xiàng)隨機(jī)變量、幾何隨機(jī)變量和泊松隨機(jī)變量梧田。
5. 連續(xù)變量
連續(xù)型(continuous)隨機(jī)變量即在一定區(qū)間內(nèi)變量取值有無限個(gè)淳蔼,或數(shù)值無法一一列舉出來。例如某地區(qū)男性健康成人的身長值裁眯、體重值鹉梨,一批傳染性肝炎患者的血清轉(zhuǎn)氨酶測定值等。有幾個(gè)重要的連續(xù)隨機(jī)變量常常出現(xiàn)在概率論中穿稳,如:均勻隨機(jī)變量存皂、指數(shù)隨機(jī)變量、伽馬隨機(jī)變量和正態(tài)隨機(jī)變量逢艘。
6. 期望值
在概率論和統(tǒng)計(jì)學(xué)中旦袋,期望值(或數(shù)學(xué)期望骤菠、或均值,亦簡稱期望疤孕,物理學(xué)中稱為期待值)是指在一個(gè)離散性隨機(jī)變量試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和商乎。
換句話說,期望值是隨機(jī)試驗(yàn)在同樣的機(jī)會(huì)下重復(fù)多次的結(jié)果計(jì)算出的等同“期望”的平均值祭阀。
三鹉戚、離散變量概率分布
離散變量的分布函數(shù)的值域是離散的,比如只取整數(shù)值的隨機(jī)變量就是屬于離散分布的柬讨。
1. 伯努利分布
又稱0-1分布,如果隨機(jī)變量X只取0和1兩個(gè)值崩瓤,并且相應(yīng)的概率為:
則稱隨機(jī)變量X服從參數(shù)為p的伯努利分布袍啡,若令q=1一p踩官,則X的概率函數(shù)可寫
為:
例子
- 拋一次硬幣是正面向上嗎?
- 剛出生的小孩是個(gè)女孩嗎境输?
2. 二項(xiàng)分布
假設(shè)某個(gè)試驗(yàn)是伯努利試驗(yàn)蔗牡,其成功概率用p表示,那么失敗的概率為q=1-p嗅剖。進(jìn)行n次這樣的試驗(yàn)辩越,成功了x次,則失敗次數(shù)為n-x信粮,發(fā)生這種情況的概率可用下面公式來計(jì)算:
我們稱上面的公式為二項(xiàng)分布(Binomial distribution)的概率質(zhì)量函數(shù)黔攒。其中
二項(xiàng)分布的應(yīng)用
- 將硬幣拋n次,就是n重伯努利試驗(yàn)强缘;
- 拋一顆骰子督惰,若A表示得到“1點(diǎn)”,非A表示得到“非1點(diǎn)”旅掂。
例子
在擲3次骰子中赏胚,不出現(xiàn)6點(diǎn)的概率是:f(3,0,1/6)=(1/6)^0 * (5/6)^3=0.579。
3.泊松分布
泊松近似是二項(xiàng)分布的一種極限形式商虐。其強(qiáng)調(diào)如下的試驗(yàn)前提:一次抽樣的概率值p相對(duì)很小觉阅,而抽取次數(shù)n值又相對(duì)很大。因此泊松分布又被稱之為罕有事件分布秘车。泊松分布指出典勇,如果隨機(jī)一次試驗(yàn)出現(xiàn)的概率為p,那么在n次試驗(yàn)中出現(xiàn)k次的概率按照泊松分布應(yīng)該為:
其中數(shù)學(xué)常數(shù)e = 2.71828…(自然對(duì)數(shù)的底數(shù))
在實(shí)踐中如果遇到n值很大導(dǎo)致二項(xiàng)分布難于計(jì)算時(shí)叮趴,可以考慮使用泊松分布痴柔,但前提是n*p必須趨于一個(gè)有限極限。采用泊松分布的一個(gè)不太嚴(yán)格的規(guī)則是:
- n >= 100
- p <= 0.1
應(yīng)用
一本書一頁中的印刷錯(cuò)誤數(shù)疫向;
某地區(qū)在一天內(nèi)郵遞遺失的信件數(shù)咳蔚;
某一醫(yī)院在一天內(nèi)的急診病人數(shù)豪嚎;
某一地區(qū)一個(gè)時(shí)間間隔內(nèi)發(fā)生交通事故的次數(shù)。
例子
某工廠在生產(chǎn)零件時(shí)谈火,每200個(gè)成品中會(huì)有1個(gè)次品侈询,那么在100個(gè)零件中最多出現(xiàn)2個(gè)次品的概率按照泊松分布應(yīng)該是:
f(100,0,1/200) + f(100,1,1/200) + f(100,2,1/200) = 0.986
四、連續(xù)變量概率分布
1. 正態(tài)分布
定義
正態(tài)分布(Normal distribution)糯耍,也稱“常態(tài)分布”扔字,又名高斯分布(Gaussian distribution)。
公式
若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ温技、方差為σ2的正態(tài)分布革为,記為N(μ,σ2)舵鳞。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置震檩,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布蜓堕。
曲線
正態(tài)曲線呈鐘型抛虏,兩頭低,中間高套才,左右對(duì)稱因其曲線呈鐘形迂猴,因此人們又經(jīng)常稱之為鐘形曲線。
正態(tài)分布曲線
正態(tài)分布中一些值得注意的量:
- 密度函數(shù)關(guān)于平均值對(duì)稱
- 平均值與它的眾數(shù)(statistical mode)以及中位數(shù)(median)同一數(shù)值背伴。
- 函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個(gè)標(biāo)準(zhǔn)差σ范圍內(nèi)沸毁。
- 95.449974%的面積在平均數(shù)左右兩個(gè)標(biāo)準(zhǔn)差2σ的范圍內(nèi)。
- 99.730020%的面積在平均數(shù)左右三個(gè)標(biāo)準(zhǔn)差3σ的范圍內(nèi)傻寂。
- 99.993666%的面積在平均數(shù)左右四個(gè)標(biāo)準(zhǔn)差4σ的范圍內(nèi)息尺。
- 函數(shù)曲線的拐點(diǎn)(inflection point)為離平均數(shù)一個(gè)標(biāo)準(zhǔn)差σ 距離的位置。
2. 均勻分布
定義
在概率論和統(tǒng)計(jì)學(xué)中崎逃,均勻分布也叫矩形分布掷倔,它是對(duì)稱概率分布,在相同長度間隔的分布概率是等可能的个绍。 均勻分布由兩個(gè)參數(shù)a和b定義勒葱,它們是數(shù)軸上的最小值和最大值,通嘲褪粒縮寫為U(a凛虽,b)。
均勻分布的特征是數(shù)據(jù)在一個(gè)區(qū)間中均勻地分布广恢,最小值為 a凯旋,最大值為 b。概率密度函數(shù)是:
分布函數(shù):
3. 指數(shù)分布
定義
在概率理論和統(tǒng)計(jì)學(xué)中,指數(shù)分布(也稱為負(fù)指數(shù)分布)是描述泊松過程中的事件之間的時(shí)間的概率分布至非,即事件以恒定平均速率連續(xù)且獨(dú)立地發(fā)生的過程钠署。 這是伽馬分布的一個(gè)特殊情況。 它是幾何分布的連續(xù)模擬荒椭,它具有無記憶(Memoryless Property谐鼎,又稱遺失記憶性)的關(guān)鍵性質(zhì)。 除了用于分析泊松過程外趣惠,還可以在其他各種環(huán)境中找到狸棍。
公式
其中λ > 0是分布的一個(gè)參數(shù),常被稱為率參數(shù)(rate parameter)味悄。即每單位時(shí)間內(nèi)發(fā)生某事件的次數(shù)草戈。指數(shù)分布的區(qū)間是[0,∞)。 如果一個(gè)隨機(jī)變量X呈指數(shù)分布侍瑟,則可以寫作:X~ E(λ)唐片。
曲線
4. 貝塔(beta)分布
定義
貝塔分布(Beta Distribution) 是一個(gè)作為伯努利分布和二項(xiàng)式分布的共軛先驗(yàn)分布的密度函數(shù),在機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)學(xué)中有重要應(yīng)用丢习。在概率論中牵触,貝塔分布淮悼,也稱Β分布咐低,是指一組定義在(0,1) 區(qū)間的連續(xù)概率分布。
公式
在概率論中袜腥,貝塔分布见擦,也稱B分布,是指一組定義在 區(qū)間的連續(xù)概率分布羹令,有兩個(gè)參數(shù) 鲤屡。
使用要點(diǎn)
- 先驗(yàn)概率就是事情尚未發(fā)生前,我們對(duì)該事發(fā)生概率的估計(jì)福侈。利用過去歷史資料計(jì)算得到的先驗(yàn)概率酒来,稱為客觀先驗(yàn)概率; 當(dāng)歷史資料無從取得或資料不完全時(shí)肪凛,憑人們的主觀經(jīng)驗(yàn)來判斷而得到的先驗(yàn)概率堰汉,稱為主觀先驗(yàn)概率。例如拋一枚硬幣頭向上的概率為0.5伟墙,這就是主觀先驗(yàn)概率翘鸭。
- 后驗(yàn)概率是指通過調(diào)查或其它方式獲取新的附加信息,利用貝葉斯公式對(duì)先驗(yàn)概率進(jìn)行修正戳葵,而后得到的概率就乓。
- 先驗(yàn)概率和后驗(yàn)概率的區(qū)別:先驗(yàn)概率不是根據(jù)有關(guān)自然狀態(tài)的全部資料測定的,而只是利用現(xiàn)有的材料(主要是歷史資料)計(jì)算的;后驗(yàn)概率使用了有關(guān)自然狀態(tài)更加全面的資料生蚁,既有先驗(yàn)概率資料噩翠,也有補(bǔ)充資料。另外一種表述:先驗(yàn)概率是在缺乏某個(gè)事實(shí)的情況下描述一個(gè)變量邦投;而后驗(yàn)概率是在考慮了一個(gè)事實(shí)之后的條件概率绎秒。
- 共軛分布(conjugacy):后驗(yàn)概率分布函數(shù)與先驗(yàn)概率分布函數(shù)具有相同形式。
5. 卡方分布
定義
若n個(gè)相互獨(dú)立的隨機(jī)變量ξ?尼摹、ξ?见芹、……、ξn 蠢涝,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布)玄呛,則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和
規(guī)律稱為χ2分布(chi-square distribution)和二,其中參數(shù)n稱為自由度徘铝,正如正態(tài)分布中均值或方差不同就是另一個(gè)χ2正態(tài)分布一樣,自由度不同就是另一個(gè)分布惯吕。記為 Q~χ2(k). 卡方分布是由正態(tài)分布構(gòu)造而成的一個(gè)新的分布惕它,當(dāng)自由度n很大時(shí),χ2分布近似為正態(tài)分布废登。 對(duì)于任意正整數(shù)k淹魄, 自由度為 k的卡方分布是一個(gè)隨機(jī)變量X的機(jī)率分布。
卡方分布是指樣本方差和總體方差之間的比值關(guān)系堡距。
如果樣本量為n的樣本集取自方差為σ 的正態(tài)分布總體甲锡,對(duì)每一個(gè)樣本都計(jì)算他的卡方值(χ2),那么卡方值將構(gòu)成樣本方差和總體方差的卡方分布羽戒。
卡方分布是右偏的缤沦,但是當(dāng)樣本量,即自由度增加時(shí)易稠,會(huì)逐漸趨向于正態(tài)分布缸废。
6. F分布
定義