版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處,商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者(huxingfei097@163.com)待德,謝謝合作狭归!
-
基礎(chǔ)概念:
? 邏輯:
??邏輯可以在給定某些命題是真或假的假設(shè)下,判斷另外一些命題是真還是假鹦马。
? 概率:
??概率可以在給定一些命題的似然后虱岂,計(jì)算其他命題為真的似然。 -
隨機(jī)變量:
??隨機(jī)變量是指可以隨機(jī)地取不同值的變量菠红。通常用無(wú)格式字體中小寫(xiě)字母表示隨機(jī)變量本身第岖,用手寫(xiě)體中的小寫(xiě)字母來(lái)表示隨機(jī)變量能夠取到的值(注:markdown中暫未發(fā)現(xiàn)如何打出手寫(xiě)體字母,故以斜體代替)试溯,如蔑滓,x1和x2都是隨機(jī)變量 x 可能的取值。對(duì)于向量類(lèi)型的變量 x遇绞,它的一個(gè)可能取值為 x键袱。
??隨機(jī)變量可以是離散或者連續(xù)的。離散型隨機(jī)變量擁有有限多個(gè)或者可數(shù)無(wú)限多的狀態(tài)摹闽,注意:這些狀態(tài)不一定要是整數(shù)值蹄咖,可能只是被命名的狀態(tài)而非數(shù)值,如付鹿,狀態(tài)1澜汤,狀態(tài)2,狀態(tài)3...連續(xù)型隨機(jī)變量伴隨著實(shí)數(shù)值 -
概率分布:
??概率分布用來(lái)描述隨機(jī)變量或者一簇隨機(jī)變量在每一個(gè)可能取到的狀態(tài)的可能性大小舵匾。描述概率分布的方式取決于隨機(jī)變量是離散的還是連續(xù)的俊抵。
??離散型變量與概率質(zhì)量函數(shù):
???離散型變量的概率分布可以用概率質(zhì)量函數(shù)(PMF,也稱(chēng)作概率分布律)來(lái)描述坐梯。概率質(zhì)量函數(shù)將隨機(jī)變量能夠取到的每個(gè)狀態(tài)映射到隨機(jī)變量取得該狀態(tài)的概率徽诲,P(x)表示 x = x的概率,也可以寫(xiě)作P(x = x) 吵血。通常使用~來(lái)表示一個(gè)隨機(jī)變量所服從的分布:x ~ P(x)谎替。
???P(x = x,y = y)稱(chēng)為聯(lián)合概率分布,表示 x = x 和 y = y 同時(shí)發(fā)生的概率蹋辅,也可簡(jiǎn)寫(xiě)為 P(x,y)钱贯。
???概率質(zhì)量函數(shù)需要滿足以下條件:
???① P的定義域必須是變量 x 所有可能狀態(tài)的集合。
???② ? x∈x晕翠,0 ≤ P(x) ≤ 1
???③ Σx∈xP(x) = 1喷舀,該性質(zhì)稱(chēng)為歸一化的
??連續(xù)型隨機(jī)變量與概率密度函數(shù):
??? 連續(xù)型隨機(jī)變量的概率分布稱(chēng)之為概率密度函數(shù)(PDF)砍濒。概率密度函數(shù) p 需滿足以下條件:
???① p 的定義域必須是變量 x 所有可能狀態(tài)的集合。
???② ? x∈x硫麻,p(x) ≥ 0爸邢。注意,并不要求 p(x) ≤ 1拿愧。
???③ ∫ p(x)dx = 1杠河。
???求 x 落在某集合(區(qū)域)中的概率通過(guò) p(x) 對(duì)該集合(區(qū)域)進(jìn)行積分得到。 -
邊緣概率:
??通過(guò)一組變量的聯(lián)合概率分布可以求出其中一個(gè)子集的概率分布浇辜。這種定義在自己上的概率分布被稱(chēng)為邊緣概率分布券敌。
??對(duì)于離散型隨機(jī)變量 x 和 y,已知 P(x,y)柳洋,常采用 求和法 來(lái)計(jì)算:
??????? x∈x待诅,P(x = x) = Σy P(x = x,y = y)
??對(duì)于連續(xù)型變量,使用 積分法 來(lái)計(jì)算邊緣概率:
??????p(x) = ∫ p(x,y) dy -
條件概率:
??條件概率是在給定其他事件發(fā)生的情況下某個(gè)事件發(fā)生的概率熊镣。P(x = x| y = y)表示在x = x的情況下卑雁,y = y 發(fā)生的概率,計(jì)算公式如下:
??????P(x = x| y = y) = P(x = x绪囱,y = y)] / P(x = x)
條件概率只有在P(x = x)>0 時(shí)有意義测蹲,不能計(jì)算永遠(yuǎn)不會(huì)發(fā)生的事件上的條件概率。
??條件概率的鏈?zhǔn)椒▌t(也叫乘法法則):任何多維隨機(jī)變量的聯(lián)合概率分布鬼吵,都可以分解成只有一個(gè)變量的條件概率相乘的形式:
?P(x(1)扣甲,x(2),...齿椅,x(n)) = P(x(1)) ∏ni=2P(x(i)|x(1)琉挖,...,x(i-1))(∏媒咳,連乘符號(hào))
??
?? 例如一個(gè)三維隨機(jī)變量有如下推導(dǎo)過(guò)程:
??????P(a,b,c) = P(a | b,c)P(b,c)
??????P(b,c) = P(b | c)P(c)
??????P(a,b,c) = P(a | b,c) P(b | c) P(c) -
獨(dú)立性和條件獨(dú)立性:
?? 兩個(gè)隨機(jī)變量 x 和 y粹排,如果他們的概率分布可以表示成兩個(gè)因子的乘積形式,并且一個(gè)因子只包含 x涩澡,另外一個(gè)一個(gè)只包含 y,我們就稱(chēng)這兩個(gè)隨機(jī)變量是相互獨(dú)立:
?? ?? x∈x坠敷,y∈y妙同,p(x = x, y = y) = p(x = x) p(y = y)
?? 如果關(guān)于 x 和 y的條件概率分布對(duì)于 z 的每一個(gè)值都可以寫(xiě)成乘積的形式,那么這兩個(gè)隨機(jī)變量 x 和 y在給定隨機(jī)變量 z 時(shí)是條件獨(dú)立的:
??? x∈x膝迎,y∈y粥帚,z∈z p(x = x, y = y | z=z) = p(x = x | z=z) p(y = y | z=z)
?? 也可以采用一種簡(jiǎn)化形式表示獨(dú)立性和條件獨(dú)立性:x⊥y,表示 x 和 y獨(dú)立限次;x⊥y|z 表示 x 和 y 在給定 z 時(shí)獨(dú)立芒涡。 -
期望柴灯、方差和協(xié)方差:
?? 函數(shù) f(x) 關(guān)于某分布 P(x) 的期望或期望值是指,當(dāng) x 是由 P產(chǎn)生费尽,f 作用于 x 時(shí)赠群,f(x)的平均值。對(duì)于離散型隨機(jī)變量可以采用求和法:
??????Ex~P[ f(x) ] = ΣxP(x) f(x)
對(duì)于連續(xù)型隨機(jī)變量旱幼,可以通過(guò)積分得到:
??????Ex~p[ f(x) ] = ∫ P(x) f(x) dx
??方差 衡量的是隨機(jī)變量的取值與期望值之間的差異:
??????var(f(x)) = E [ ( f(x) - E[f(x)] )2 ]
方差比較小的時(shí)候查描,隨機(jī)變量的取值在期望值附近,比較穩(wěn)定柏卤。方差的平方根稱(chēng)為標(biāo)準(zhǔn)差冬三。
??協(xié)方差 用來(lái)衡量不同變量之間的線性相關(guān)性,如果把每一個(gè)變量看作是一個(gè)維度上的值缘缚,也可以認(rèn)為協(xié)方差是度量各個(gè)維度偏離其均值的程度勾笆。方差是協(xié)方差的一個(gè)特列。
?????Cov( f(x),g(y) ) = E[ (f(x) - E[f(x)])] E[ (g(y) - E[g(y)])]
協(xié)方差為0桥滨,則變量之間是非線性相關(guān)的窝爪。注意,兩個(gè)相互獨(dú)立该园,則協(xié)方差為零酸舍,如果協(xié)方差非零,則一定是相關(guān)的里初。
?? 協(xié)方差矩陣 隨機(jī)向量 x∈Rn的協(xié)方差矩陣是一個(gè) n * n的矩陣啃勉,矩陣中的元素滿足:
????? Cov(x) i,j = Cov(xi,xj) -
常用概率分布:
??Bernoulli分布(伯努利分布、零一分布双妨、兩點(diǎn)分布) 是一個(gè)二值隨機(jī)變量的分布淮阐。隨機(jī)變量取值只有 0 或者 1:
????? P(x = 1) = ф,?P(x = 0) = 1 - ф
????? Ex[x] = ф,?varx(x) = ф(1 - ф)
??Multinoulli分布(范疇分布)是指具有k個(gè)不同狀態(tài)的單個(gè)離散型隨機(jī)變量上的分布。Multinoulli分布由向量p∈[0刁品,1]k -1參數(shù)化泣特,其中每個(gè)分量p i表示第 i 個(gè)狀態(tài)的概率。第 k 個(gè)狀態(tài)的概率可以通過(guò) 1 - 1Tp給出挑随。Multinoulli分布常用來(lái)表示對(duì)象分類(lèi)的分布状您,因此通常不計(jì)算期望和方差。 -
高斯分布(正態(tài)分布):
??高斯分布是機(jī)器學(xué)習(xí)中最常用的分布兜挨。在先驗(yàn)知識(shí)不足的時(shí)候膏孟,正態(tài)分布是默認(rèn)比較好的選擇。并且由中心極限定律可知很多獨(dú)立隨機(jī)變量的和近似服從正態(tài)分布拌汇。
高斯分布公式 | 高斯分布的概率密度函數(shù)圖像 |
?? 多維正態(tài)分布:
-
指數(shù)分布和Laplace分布:
?? 在深度學(xué)習(xí)中界逛,常常需要一個(gè)在 x = 0處取得邊界點(diǎn)的分布昆稿,可以使用指數(shù)分布:
??????p(x;λ) = λ1x≥0 exp(-λx)
指示函數(shù) 1x≥0 表示 x取得負(fù)值時(shí)的概率為0。
??Laplace分布允許在任意一點(diǎn) μ 處設(shè)置概率分布的峰值:
Laplace公式 | Laplace分布圖像 |
-
Dirac分布和經(jīng)驗(yàn)分布:
??在一些情況下仇奶,可能會(huì)希望概率分布中的所有質(zhì)量集中在一個(gè)點(diǎn)上貌嫡,這個(gè)時(shí)候可以使用Dirac delta函數(shù)δ(x)來(lái)實(shí)現(xiàn)(該函數(shù)做了偏移):
??????p(x) = δ(x - μ)
Dirac delta函數(shù)被定義成除0以外所有點(diǎn)的值都為0,但是積分為1该溯,是一種依據(jù)積分性質(zhì)定義的廣義函數(shù)岛抄。
??Dirac分布常常作為經(jīng)驗(yàn)分布的一個(gè)組成部分出現(xiàn): -
常用函數(shù)的有用性質(zhì):
?? logistic sigmoid函數(shù)
公式 | 圖像 |
??softplus函數(shù),softplus函數(shù)是 max(0,x)函數(shù)的平滑形式:
公式 | 圖像 |
-
貝葉斯規(guī)則:
????P(x|y) = ( P(x) P(y|x) )/P(y)
其中:
????P(y) = Σx( P(y|x)P(x) ) -
信息論:
? ?自信息:I(x) = -㏑P(x)实昨,單位是奈特洞豁。一奈特是以 1/e 的概率觀測(cè)到一個(gè)事件時(shí)獲取到的信息量。自信息只處理單個(gè)的輸出荒给。
?? 香農(nóng)熵:用來(lái)對(duì)整個(gè)概率分布中的不確定性總量進(jìn)行量化:H(x) = Ex~P[I(x)] = -Ex~P[ln P(x)]丈挟。也記作H(P)。換句話說(shuō)志电,一個(gè)分布的香農(nóng)熵是指遵循這個(gè)分布的事件所產(chǎn)生的期望信息總量曙咽。確定性的熵、分布具有較低的熵挑辆,接近均勻分布的概率分布具有較高的熵例朱。當(dāng) x 是連續(xù)的時(shí)候,香農(nóng)熵被稱(chēng)為微分熵鱼蝉。
? ?KL散度:對(duì)于同一個(gè)隨機(jī)變量 x 有兩個(gè)單獨(dú)的概率分布 P(x) 和 Q(x)茉继,可以使用KL散度來(lái)衡量?jī)蓚€(gè)分布的差異:
?交叉熵: 和KL散度很相似:H(P,Q) = H(P) + DKL(P || Q) - 在信息論中認(rèn)為limx→0 x (ln x) = 0
-
結(jié)構(gòu)化模型:
?? 機(jī)器學(xué)習(xí)(深度學(xué)習(xí))的算法中常常會(huì)涉及在非常多的隨機(jī)變量上的概率分布,為了通過(guò)分解來(lái)減少參數(shù)從而降低計(jì)算的復(fù)雜度氯哮,提出了使用圖論中“圖”的概念际跪,使用圖來(lái)分解概率分布時(shí),稱(chēng)為結(jié)構(gòu)化模型或者圖模型喉钢。采用的圖主要有兩種:有向圖和無(wú)向圖姆打,區(qū)別在于途中頂點(diǎn)相連邊是否有有方向。特別地肠虽,有向模型對(duì)于分布中的每一個(gè)隨機(jī)變量 xi 都包含著一個(gè)影響因子
參考資料:
? 《深度學(xué)習(xí)》
本系列相關(guān)文章
深度學(xué)習(xí)(四):數(shù)值計(jì)算基礎(chǔ)
深度學(xué)習(xí)(二):主成分分析算法
深度學(xué)習(xí)(一):線性代數(shù)基礎(chǔ)
深度學(xué)習(xí)新手幔戏,文章若有疏漏,歡迎及時(shí)指正税课!