常見概率分布
Bernoulli分布
Bernoulli分布是單個二值隨機(jī)變量分布, 單參數(shù)∈[0,1]控制,給出隨機(jī)變量等于1的概率. 基本形式為:
其期望為:
其方差為:
Multinoulli分布也叫范疇分布, 是單個k值隨機(jī)分布,經(jīng)常用來表示對象分類的分布. 其中是有限值.Multinoulli分布由向量參數(shù)化,每個分量表示第個狀態(tài)的概率, 且.
適用范圍: 伯努利分布適合對離散型隨機(jī)變量建模.
高斯分布
高斯也叫正態(tài)分布(Normal Distribution), 概率度函數(shù)如下:
其中, 和分別是均值和方差, 中心峰值x坐標(biāo)由給出, 峰的寬度受控制, 最大點在處取得, 拐點為
正態(tài)分布中设凹,±1闪朱、±2、±3下的概率分別是68.3%锄开、95.5%称诗、99.73%,這3個數(shù)最好記住。
此外, 令高斯分布即簡化為標(biāo)準(zhǔn)正態(tài)分布:
對概率密度函數(shù)高效求值:
其中再榄,通過參數(shù)來控制分布精度。
何時采用正態(tài)分布
問: 何時采用正態(tài)分布?
答: 缺乏實數(shù)上分布的先驗知識, 不知選擇何種形式時, 默認(rèn)選擇正態(tài)分布總是不會錯的, 理由如下:
- 中心極限定理告訴我們, 很多獨立隨機(jī)變量均近似服從正態(tài)分布, 現(xiàn)實中很多復(fù)雜系統(tǒng)都可以被建模成正態(tài)分布的噪聲, 即使該系統(tǒng)可以被結(jié)構(gòu)化分解.
- 正態(tài)分布是具有相同方差的所有概率分布中, 不確定性最大的分布, 換句話說, 正態(tài)分布是對模型加入先驗知識最少的分布.
正態(tài)分布的推廣:
正態(tài)分布可以推廣到空間, 此時稱為多位正態(tài)分布, 其參數(shù)是一個正定對稱矩陣:
對多為正態(tài)分布概率密度高效求值:
此處,是一個精度矩陣猬腰。
指數(shù)分布
深度學(xué)習(xí)中, 指數(shù)分布用來描述在點處取得邊界點的分布, 指數(shù)分布定義如下:
指數(shù)分布用指示函數(shù)來使取負(fù)值時的概率為零猜敢。
Laplace 分布
一個聯(lián)系緊密的概率分布是 Laplace 分布(Laplace distribution),它允許我們在任意一點 處設(shè)置概率質(zhì)量的峰值
Dirac分布和經(jīng)驗分布
Dirac分布可保證概率分布中所有質(zhì)量都集中在一個點上. Diract分布的狄拉克函數(shù)(也稱為單位脈沖函數(shù))定義如下:
Dirac 分布經(jīng)常作為 經(jīng)驗分布(empirical distribution)的一個組成部分出現(xiàn)
, 其中, m個點是給定的數(shù)據(jù)集, 經(jīng)驗分布將概率密度賦給了這些點.
當(dāng)我們在訓(xùn)練集上訓(xùn)練模型時, 可以認(rèn)為從這個訓(xùn)練集上得到的經(jīng)驗分布指明了采樣來源.
適用范圍: 狄拉克δ函數(shù)適合對連續(xù)型隨機(jī)變量的經(jīng)驗分布.
期望懈费、方差博脑、協(xié)方差票罐、相關(guān)系數(shù)
期望
在概率論和統(tǒng)計學(xué)中寨闹,數(shù)學(xué)期望(或均值,亦簡稱期望)是試驗中每次可能結(jié)果的概率乘以其結(jié)果的總和沈善。它反映隨機(jī)變量平均取值的大小椭蹄。
- 線性運算:
- 推廣形式:
- 函數(shù)期望:設(shè)為的函數(shù)绳矩,則的期望為
- 離散函數(shù):
- 連續(xù)函數(shù):
注意:
- 函數(shù)的期望大于等于期望的函數(shù)(Jensen不等式),即
- 一般情況下割以,乘積的期望不等于期望的乘積应媚。
- 如果和相互獨立,則消玄。
方差
概率論中方差用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度丢胚。方差是一種特殊的期望。定義為:
方差性質(zhì):
1)
2)常數(shù)的方差為0;
3)方差不滿足線性性質(zhì);
4)如果和相互獨立,
協(xié)方差
協(xié)方差是衡量兩個變量線性相關(guān)性強度及變量尺度兔跌。 兩個隨機(jī)變量的協(xié)方差定義為:
方差是一種特殊的協(xié)方差浮定。當(dāng)時层亿,。
協(xié)方差性質(zhì):
1)獨立變量的協(xié)方差為0方灾。
2)協(xié)方差計算公式:
3)特殊情況:
相關(guān)系數(shù)
相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的量。兩個隨機(jī)變量的相關(guān)系數(shù)定義為:
相關(guān)系數(shù)的性質(zhì):
1)有界性洞慎。相關(guān)系數(shù)的取值范圍是 [-1,1]嘿棘,可以看成無量綱的協(xié)方差。
2)值越接近1焦人,說明兩個變量正相關(guān)性(線性)越強重父。越接近-1,說明負(fù)相關(guān)性越強矿辽,當(dāng)為0時郭厌,表示兩個變量沒有相關(guān)性。