3.9 常用概率分布
3.9.1 Bernoulli 分布
Bernoulli分布 (Bernoulli distribution)是單個二值型隨機變量的分布摇零。相關(guān)性質(zhì):
P (x = 1) = φ
P (x = 0) = 1 ? φ
二項分布(Binomial distribution)將伯努利試驗獨立地重復(fù)n次稱為n重伯努利試驗
P(x = x) = φ^x · (1 ? φ)^1?x
E[x] = φ
Var(x) = φ(1 ? φ)
3.9.2 Multinoulli 分布
Multinoulli 分布 (multinoulli distribution) 或者分類分布 (categorical distribution) 是指在具有 k 個不同狀態(tài)的單個離散型隨機變量上的分布锥咸,k 是有限的忌愚。比如扔骰子
3.9.3 高斯分布
正態(tài)分布 (normal distribution)夹纫,也稱為高斯分布 (Gaussian distribution)
中心極限定理(central limit theorem):大量相互獨立隨機變量的均值經(jīng)適當(dāng)標(biāo)準(zhǔn)化后依分布收斂于正態(tài)分布铝条。
3.9.4 指數(shù)分布和 Laplace 分布
指數(shù)分布 (exponential distribution):
3.9.5 Dirac 分布和經(jīng)驗分布
在一些情況下靖苇,我們想要所有的概率都集中在一個點上。這可以通過Dirac delta 函數(shù) (Dirac delta function)δ(x) 定義概率密度函數(shù)來實現(xiàn):p(x) = δ(x ? μ)
Dirac delta 函數(shù)被定義成除了 0 以外的其他點的值都為 0班缰,但是積分為 1贤壁。
Dirac 分布經(jīng)常作為經(jīng)驗分布 (empirical distribution)的一個組成部分出現(xiàn):
經(jīng)驗分布將概率密度1/m 賦給 m 個點 x(1) , . . . , x(m) 中的每一個,這些點是給定的數(shù)據(jù)集或者采樣的集合埠忘。Dirac delta 函數(shù)只對定義連續(xù)型隨機變量的經(jīng)驗分布是必要的脾拆。對于離散型隨機變量,情況更加簡單:經(jīng)驗分布可以被定義成一個Multinoulli 分布莹妒,對于每一個可能的輸入名船,其概率可以簡單地設(shè)為在訓(xùn)練集上那個輸入值的經(jīng)驗頻率 (empirical frequency)。
3.9.6 分布的混合
高斯混合模型 (Gaussian Mixture Model)(https://zhuanlan.zhihu.com/p/31103654)
3.10 常用函數(shù)的一些性質(zhì)
logistic sigmoid函數(shù):
softplus 函數(shù) (softplus function)
3.11 貝葉斯規(guī)則
貝葉斯規(guī)則 (Bayes’ rule)
3.12 連續(xù)型變量的技術(shù)細節(jié)
**
3.13 信息論
(《數(shù)學(xué)之美》關(guān)于信息論的說法很生動)
自信息 (self-information):
I(x) = ? logP(x)(大多數(shù)材料是以2為底蜓席,但在《deep learning》以自然對數(shù)為底)
香農(nóng)熵 (Shannon entropy)來對整個概率分布中的不確定性總量進行量化
條件熵:在已知第二個隨機變量X的值的前提下即彪,隨機變量 Y的信息熵還有多少驳庭≈饨唬基于X條件的Y的信息熵,用H(Y|X)表示唆缴。
3.14 結(jié)構(gòu)化概率模型
用圖來表示概率分布的因子分解鳍征,我們把它稱為結(jié)構(gòu)化概率模型 (structured probabilistic model)或者圖模型 (graphical model)。
有兩種主要的結(jié)構(gòu)化概率模型:有向的和無向的面徽。
有向 (directed) 模型艳丛,也稱貝葉斯網(wǎng)絡(luò),使用帶有有向邊的圖趟紊,它們用條件概率分布來表示因子分解氮双。
無向 (undirected) 模型,也稱馬爾可夫隨機場霎匈,使用帶有無向邊的圖戴差。
無向圖中的一個全連通子圖,稱為團(Clique)铛嘱,即團內(nèi)的所有節(jié)點之間都連邊暖释。無向模型中的每個團 C(i) 都伴隨著一個因子 φ(i)(C(i))。 這些因子僅僅是函數(shù)墨吓,并不是概率分布球匕。每個因子的輸出都必須是非負的,但是并沒有像概率分布中那樣要求因子的和或者積分為 1肛真。用常數(shù) Z 來得到歸一化的概率分布谐丢。
用書中的兩個例子來說明下:
圖中有三個團(a,b,c),(b,d),(c,e),因此得到此圖對應(yīng)的概率分布可以分解為: