概率論
概率論為定量的描述不確定性提供了一個(gè)數(shù)學(xué)框架衣摩,伴隨而來(lái)的是一整套標(biāo)準(zhǔn)的的描述不確定性的定理和表示方式偿警。通過(guò)概率論來(lái)定量描述不確定性乳绕,使得對(duì)于頻率和概率的描述不再因人而異擎椰,而是可以像程序語(yǔ)言一樣在不同的程序員和計(jì)算機(jī)之間可以準(zhǔn)確的被傳遞和解釋鹅巍,這使得我們?cè)诹私庖粋€(gè)事件的時(shí)候胸遇,不會(huì)被“非趁嵯悖”夺颤,“相當(dāng)”,“極其”... 等定性的描述語(yǔ)言所困惑枪汪。
在人工智能相關(guān)應(yīng)用中要面臨很多的不確定性問(wèn)題涌穆,在這個(gè)領(lǐng)域概率論主要應(yīng)用在以下兩個(gè)方面:
需要算法可以基于目前呈現(xiàn)給它的信息根據(jù)概率理論進(jìn)行推理
從業(yè)人員可以使用概率工具來(lái)分析人工智能系統(tǒng)的表現(xiàn)
頻率概率 frequentist probability:通過(guò)一個(gè)比率來(lái)描述一個(gè)或多個(gè)事件在多次重復(fù)實(shí)驗(yàn)中發(fā)生的概率,例如在 10000 次鍵盤敲擊中料饥,有多少次輸入由于沒(méi)有激發(fā)電容而導(dǎo)致輸入失敗。
貝葉斯概率 Bayesian probability:通過(guò)一個(gè)概率來(lái)給出一個(gè)事件屬于某一性質(zhì)的置信程度 degree of belief朱监,例如某個(gè)來(lái)訪的病人以多大的概率患有某種疾病岸啡。
隨機(jī)變量
隨機(jī)變量是一個(gè)可以隨機(jī)取得不同值的變量,在本書中隨機(jī)變量用不加任何修飾的小寫字母 x 來(lái)表示赫编,其可能的取值用 x1巡蘸,x2... xn 來(lái)表示奋隶。當(dāng)隨機(jī)變量的結(jié)果是一個(gè)向量時(shí),用黑體小寫字母 x 表示悦荒,其可能的一個(gè)取值則用斜黑體字母表示 x唯欣。
隨機(jī)變量本身只是對(duì)變量的所有可能的取值狀態(tài)的一個(gè)描述,即 x = xi搬味,i =
1境氢,... ,n碰纬。而對(duì)于隨機(jī)變量取得各個(gè)值的概率萍聊,則需要使用概率分布 Probability distributions 來(lái)描述。例如對(duì)于診斷一個(gè)疾病來(lái)說(shuō)悦析,診斷結(jié)果這個(gè)隨機(jī)變量最簡(jiǎn)單的取值就是有(1)或沒(méi)有(0)某種疾病寿桨,而疾病發(fā)生的概率則需要采用概率分布來(lái)描述,例如如果流行病學(xué)數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn)患病率為 10%强戴,則 P(1) = 10%, P(0) = 90%亭螟。
根據(jù)取值的分布情況,可以將隨機(jī)變量分為離散型隨機(jī)變量和連續(xù)性隨機(jī)變量骑歹,離散型隨機(jī)變量的取值是一個(gè)個(gè)獨(dú)立的分類或狀態(tài)预烙,而連續(xù)性隨機(jī)變量的取值則是任意實(shí)數(shù)×晟玻基于取值情況的差異默伍,離散型隨機(jī)變量和連續(xù)性隨機(jī)變量的概率分布情況也用不同的方式來(lái)描述。
概率分布
離散型隨機(jī)變量的概率分布用概率分布函數(shù) Probability mass function衰琐,PMF 來(lái)表示也糊,離散型隨機(jī)變量的概率分布函數(shù)用大寫斜體字母 P 表示。概率分布函數(shù)建立了一個(gè)從隨機(jī)變量取值到取得這個(gè)值的概率之間的一個(gè)函數(shù)關(guān)系:
這個(gè)函數(shù)的定義域 domain 是隨機(jī)變量的所有可能取值
對(duì)于任意一個(gè)取值來(lái)說(shuō)羡宙,0 ≤ P(xi) ≤ 1
對(duì)于所有取值來(lái)說(shuō)狸剃,ΣP(xi) = 1
連續(xù)性隨機(jī)變量的概率分布用概率密度函數(shù) Probability density function,PDF 來(lái)表示狗热,連續(xù)性隨機(jī)變量的概率密度函數(shù)用小寫斜體字母 p 來(lái)表示钞馁。概率密度函數(shù)在某個(gè)取值范圍內(nèi)的積分代表隨機(jī)變量的取值在這個(gè)范圍內(nèi)的概率。概率密度函數(shù)的要求如下:
這個(gè)函數(shù)的定義域 domain 是隨機(jī)變量的所有可能取值
對(duì)于任意一個(gè)取值來(lái)說(shuō)匿刮,0 ≤ P(xi) 僧凰,注意這里不需要 ≤ 1,并且在實(shí)際應(yīng)用中熟丸,連續(xù)型隨機(jī)變量取得任意一個(gè)具體數(shù)值的概率都為 0
∫ p(x)dx = 1
邊緣概率 Marginal probability
有時(shí)我們知道了一組隨機(jī)變量的聯(lián)合概率分布情況训措,而如果想知道只沿著其中一個(gè)變量方向的概率變化情況,則需要使用邊緣概率分布〖“邊緣概率”這個(gè)命名實(shí)際上來(lái)源于在紙面上手動(dòng)計(jì)算概率分布的過(guò)程:如果在計(jì)算聯(lián)合概率分布時(shí)將所有 x 的取值作為行怀大,將所有 y 的取值作為列,則 x 取某一特定值的概率將可以在行的右側(cè)邊緣加總得到呀闻。
對(duì)于離散型隨機(jī)變量化借,如果已知 P(x, y),則 P(x = xi) = ΣyP(x=xi,y=yi)捡多,即加總 x = xi 時(shí) y 沿 y 軸變化時(shí)的全部取值的概率
對(duì)于連續(xù)性隨機(jī)變量蓖康,上述計(jì)算需要改成 ∫ p(x, y)dy
條件概率 Conditional probability
在某隨機(jī)事件已發(fā)生的情況下,求另一個(gè)具有一定相關(guān)性的隨機(jī)事件發(fā)生的概率稱為條件概率 局服,例如對(duì)于隨機(jī)變量 x, y钓瞭,當(dāng) x 取 xi 時(shí),求 y 取 yi 的概率淫奔,這一計(jì)算的數(shù)學(xué)表示及計(jì)算公式為:
P(y = yi | x = xi) = P(x = xi, y = yi) / P(x = xi)
條件概率的鏈?zhǔn)椒▌t
多維隨機(jī)變量的聯(lián)合概率分布可以分解為基于一個(gè)隨機(jī)變量的條件概率的形式山涡,例如對(duì)于三個(gè)隨機(jī)變量:由于 P(a, b, c) = P(a| b, c)P(b, c),而 P(b, c) = P(b| c)P(c)唆迁,因此 P(a, b, c) = P(a| b, c)P(b| c)P(c)鸭丛。
獨(dú)立分布 Independence 和條件獨(dú)立 Conditional independence
如果對(duì)于兩個(gè)隨機(jī)變量 x,y, 如果對(duì)于其各自的任意取值唐责,都有 P(x = xi, y = yi) = P(x = xi)P(y = yi)鳞溉,則稱這兩個(gè)隨機(jī)變量 x,y 彼此獨(dú)立鼠哥,記做 x ⊥ y
如果對(duì)于兩個(gè)隨機(jī)變量 x熟菲,y 和第三個(gè)隨機(jī)變量 z,如果對(duì)于x朴恳,y抄罕,z 各自的任意取值,都有 P(x = xi, y = yi | z = zi ) = P(x = xi | z = zi)P(y = yi | z = zi)于颖,則稱這兩個(gè)隨機(jī)變量 x呆贿,y 在給定隨機(jī)變量 z 下條件獨(dú)立,記做 x ⊥ y | z
期望 Expectation森渐,方差 Variance 和協(xié)方差 Covariance
在一般性的期望做入、方差和協(xié)方差定義時(shí),都討論的是隨機(jī)變量本身的期望同衣、方差和協(xié)方差竟块,這里作者直接討論的是隨機(jī)變量的函數(shù)的期望、方差和協(xié)方差耐齐。為了便于理解浪秘,一并給出隨機(jī)變量本身的期望前弯、方差和協(xié)方差公式。
期望
隨機(jī)變量自身的期望計(jì)算公式為:
- Ex = x? = Σxi / n秫逝,其中 i = 1, ... , n
如果隨機(jī)變量 x 的概率分布為 P(x),則對(duì)于 x 的一個(gè)函數(shù) ?(x)询枚,其在這個(gè)概率分布下的期望值記為 Ex~P[?(x)]违帆,在不至混淆的情況下可以簡(jiǎn)記為其計(jì)算方法為 Ex[?(x)]:
離散型隨機(jī)變量:Ex~P[?(x)] = ΣP(x)?(x),即加總 x 所有可能取值的概率與相應(yīng)取值下的 ?(x) 的乘積
連續(xù)型隨機(jī)變量:Ex~P[?(x)] = ∫P(x)?(x)dx
從計(jì)算可以看出金蜀,由于隨機(jī)變量的概率分布取值為一個(gè)標(biāo)量刷后,因此期望的計(jì)算是線性的,所以有:
- Ex[α?(x) + βg(x)] = αEx[?(x)] + βEx[g(x)]
方差
方差則衡量的是隨機(jī)變量圍繞均值變化的離散程度渊抄,方差越小則分布越集中尝胆,其本質(zhì)是一個(gè)期望值。隨機(jī)變量自身的方差計(jì)算公式為:
- Var(x) = E[(xi - x?)2] = Σ(xi - x?)2 / n 护桦,其中 i = 1, ... , n
注意這個(gè) n 是針對(duì)樣本的總體 Population 而言的含衔,在實(shí)際計(jì)算中,我們計(jì)算的都是來(lái)自總體的部分樣本的方差二庵,假設(shè)樣本的數(shù)量為 m贪染,如果需要借此來(lái)估計(jì)總體的方差,則分母需要用 m - 1 做校正催享。其原因在于我們有理由相信樣本本身的分布相對(duì)總體來(lái)說(shuō)會(huì)更加集中杭隙,因此可以將這個(gè)結(jié)果做一定程度的放大來(lái)逼近總體的方差值。方差的平方根稱為標(biāo)準(zhǔn)差 Standard deviation因妙。
對(duì)于隨機(jī)變量的某個(gè)函數(shù) ?(x) 來(lái)說(shuō)痰憎,其方差則可以表示為 Var(?(x)) = Ex[(?(x) - Ex[?(x)])2]。
協(xié)方差
上述期望和方差的定義都是針對(duì)單一隨機(jī)變量的攀涵,而協(xié)方差衡量的是兩個(gè)隨機(jī)變量之間的線性相關(guān)性铣耘。
兩個(gè)隨機(jī)變量樣本集 x,y 的協(xié)方差計(jì)算公式為:
- Cov(x, y) = Σ(xi - x?)(yi - y?) / n - 1汁果,其中 i = 1, ... , n涡拘,n - 1 為考慮樣本集對(duì)于總體的一個(gè)校正
相應(yīng)的隨機(jī)變量的函數(shù) ?(x),g(y) 的協(xié)方差計(jì)算公式為:
- Cov(?(x), g(y)) = E[(?(x) - E[?(x)])(g(y) - E[g(y)])
從這個(gè)計(jì)算過(guò)程可知:
協(xié)方差的絕對(duì)值越大代表兩個(gè)變量圍繞各自均值同步偏離的程度越大据德,也即相關(guān)性越強(qiáng)
如果結(jié)果是正的鳄乏,則代表兩個(gè)隨機(jī)變量的多個(gè)取值圍繞各自的均值總體上變化方向是一致的,即同時(shí)增加或減小棘利,加總項(xiàng)中相同方向變化的項(xiàng)多于相反方向變化的項(xiàng)
如果結(jié)果是負(fù)值橱野,則代表隨機(jī)變量的多個(gè)取值圍繞各自均值的變化方向總體上是相反的,加總項(xiàng)中常出現(xiàn)的是一個(gè)變量的取值在均值的一側(cè)善玫,而另一個(gè)變量的取值在均值的另一側(cè)水援。這里還可以參考 GRAYLAMB的回答
相關(guān)系數(shù)
盡管一定程度上協(xié)方差的絕對(duì)值對(duì)于相關(guān)性可以做一個(gè)判斷密强,但由于相關(guān)性的計(jì)算值與相應(yīng)的變量的量綱有關(guān),因此同樣的一組數(shù)據(jù)蜗元,采用不同的量綱計(jì)算得到的協(xié)方差的結(jié)果不同或渤,因此為了消除掉量綱的影響,定義了相關(guān)系數(shù)奕扣,其計(jì)算公式為:
- ρ(x, y) = Cov(x, y) / (σx σy)
其中 σ 為方差薪鹦,相關(guān)系數(shù)的計(jì)算剔除了兩個(gè)隨機(jī)變量各自的標(biāo)準(zhǔn)差在協(xié)方差中的影響,使得相關(guān)系數(shù)只衡量?jī)蓚€(gè)隨機(jī)變量的多個(gè)取值圍繞各自均值的變化方向的相關(guān)性惯豆,其取值范圍為 [-1, 1]:
當(dāng) ρ = 1 時(shí)池磁,說(shuō)明在所有取值上兩個(gè)隨機(jī)變量圍繞均值的變化方向均相同,當(dāng) ρ = -1 時(shí)反之
當(dāng) ρ = 0 或者非常接近 0 時(shí)楷兽,說(shuō)明兩個(gè)隨機(jī)變量不具有線性相關(guān)性地熄,但不一定相互獨(dú)立,也可能具有其他的相關(guān)性芯杀,除此之外端考,還要注意相關(guān)關(guān)系并不意味著因果關(guān)系
當(dāng) 0 < ρ < 1 時(shí),說(shuō)明兩個(gè)隨機(jī)變量的多個(gè)取值圍繞均值變化的方向有時(shí)是一致的揭厚,有時(shí)是不一致的
協(xié)方差矩陣
當(dāng)將多個(gè)隨機(jī)變量構(gòu)成一個(gè)向量 x 時(shí)跛梗,可以通過(guò)計(jì)算這個(gè)向量中各個(gè)隨機(jī)變量之間的協(xié)方差,并構(gòu)造一個(gè)協(xié)方差矩陣:Cov(x) i,j = Cov(xi, xj)棋弥,這個(gè)矩陣的對(duì)角線上的元素為向量中各個(gè)隨機(jī)變量的方差核偿,即 Cov(xi, xi) = Var(xi)。
幾種常見(jiàn)的分布
正態(tài)分布 Normal distribution
中心極限定理 Central limit theorem:從總體中多次隨機(jī)抽取 n 個(gè)隨機(jī)變量并計(jì)算其均值顽染,這些均值在 n 較大時(shí)呈正態(tài)分布漾岳。中心極限定理的另一個(gè)解讀方式是從總體中多次抽取 n 個(gè)隨機(jī)變量并求和,這個(gè)加總的值符合正態(tài)分布粉寞。