深度學(xué)習(xí)（三）：概率與信息論基礎(chǔ)

版權(quán)聲明:本文為博主原創(chuàng)文章，轉(zhuǎn)載請(qǐng)注明出處，商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者(huxingfei097@163.com)待德，謝謝合作狭归！

基礎(chǔ)概念：
? 邏輯：
??邏輯可以在給定某些命題是真或假的假設(shè)下，判斷另外一些命題是真還是假鹦马。
? 概率：
??概率可以在給定一些命題的似然后虱岂，計(jì)算其他命題為真的似然。
隨機(jī)變量：
??隨機(jī)變量是指可以隨機(jī)地取不同值的變量菠红。通常用無(wú)格式字體中小寫(xiě)字母表示隨機(jī)變量本身第岖，用手寫(xiě)體中的小寫(xiě)字母來(lái)表示隨機(jī)變量能夠取到的值（注：markdown中暫未發(fā)現(xiàn)如何打出手寫(xiě)體字母，故以斜體代替）试溯，如蔑滓，x₁和x₂都是隨機(jī)變量 x 可能的取值。對(duì)于向量類(lèi)型的變量 x遇绞，它的一個(gè)可能取值為 x键袱。
??隨機(jī)變量可以是離散或者連續(xù)的。離散型隨機(jī)變量擁有有限多個(gè)或者可數(shù)無(wú)限多的狀態(tài)摹闽，注意：這些狀態(tài)不一定要是整數(shù)值蹄咖，可能只是被命名的狀態(tài)而非數(shù)值，如付鹿，狀態(tài)1澜汤，狀態(tài)2，狀態(tài)3...連續(xù)型隨機(jī)變量伴隨著實(shí)數(shù)值
概率分布：
??概率分布用來(lái)描述隨機(jī)變量或者一簇隨機(jī)變量在每一個(gè)可能取到的狀態(tài)的可能性大小舵匾。描述概率分布的方式取決于隨機(jī)變量是離散的還是連續(xù)的俊抵。
??離散型變量與概率質(zhì)量函數(shù)：
???離散型變量的概率分布可以用概率質(zhì)量函數(shù)（PMF，也稱(chēng)作概率分布律）來(lái)描述坐梯。概率質(zhì)量函數(shù)將隨機(jī)變量能夠取到的每個(gè)狀態(tài)映射到隨機(jī)變量取得該狀態(tài)的概率徽诲，P(x)表示 x = x的概率，也可以寫(xiě)作P(x = x) 吵血。通常使用～來(lái)表示一個(gè)隨機(jī)變量所服從的分布：x ～ P(x)谎替。
???P(x = x,y = y)稱(chēng)為聯(lián)合概率分布，表示 x = x 和 y = y 同時(shí)發(fā)生的概率蹋辅，也可簡(jiǎn)寫(xiě)為 P(x,y)钱贯。
???概率質(zhì)量函數(shù)需要滿足以下條件：
???① P的定義域必須是變量 x 所有可能狀態(tài)的集合。
???② ? x∈x晕翠，0 ≤ P(x) ≤ 1
???③ Σ_x∈xP(x) = 1喷舀，該性質(zhì)稱(chēng)為歸一化的
??連續(xù)型隨機(jī)變量與概率密度函數(shù)：
??? 連續(xù)型隨機(jī)變量的概率分布稱(chēng)之為概率密度函數(shù)(PDF)砍濒。概率密度函數(shù) p 需滿足以下條件：
???① p 的定義域必須是變量 x 所有可能狀態(tài)的集合。
???② ? x∈x硫麻，p(x) ≥ 0爸邢。注意，并不要求 p(x) ≤ 1拿愧。
???③ ∫ p(x)dx = 1杠河。
???求 x 落在某集合（區(qū)域）中的概率通過(guò) p(x) 對(duì)該集合（區(qū)域）進(jìn)行積分得到。
邊緣概率：
??通過(guò)一組變量的聯(lián)合概率分布可以求出其中一個(gè)子集的概率分布浇辜。這種定義在自己上的概率分布被稱(chēng)為邊緣概率分布券敌。
??對(duì)于離散型隨機(jī)變量 x 和 y，已知 P(x,y)柳洋，常采用 求和法 來(lái)計(jì)算：
??????? x∈x待诅，P(x = x) = Σ_y P(x = x,y = y)
??對(duì)于連續(xù)型變量，使用 積分法 來(lái)計(jì)算邊緣概率：
??????p(x) = ∫ p(x,y) dy
條件概率：
??條件概率是在給定其他事件發(fā)生的情況下某個(gè)事件發(fā)生的概率熊镣。P(x = x| y = y)表示在x = x的情況下卑雁，y = y 發(fā)生的概率，計(jì)算公式如下：
??????P(x = x| y = y) = P(x = x绪囱，y = y)] / P(x = x)
條件概率只有在P(x = x)＞0 時(shí)有意義测蹲，不能計(jì)算永遠(yuǎn)不會(huì)發(fā)生的事件上的條件概率。
??條件概率的鏈?zhǔn)椒▌t(也叫乘法法則)：任何多維隨機(jī)變量的聯(lián)合概率分布鬼吵，都可以分解成只有一個(gè)變量的條件概率相乘的形式：
?P(x⁽¹⁾扣甲，x⁽²⁾，...齿椅，x⁽ⁿ⁾) = P(x⁽¹⁾) ∏ⁿ_i=2P(x⁽ⁱ⁾|x⁽¹⁾琉挖，...，x^(i-1))(∏媒咳，連乘符號(hào))
??
?? 例如一個(gè)三維隨機(jī)變量有如下推導(dǎo)過(guò)程：
??????P(a,b,c) = P(a | b,c)P(b,c)
??????P(b,c) = P(b | c)P(c)
??????P(a,b,c) = P(a | b,c) P(b | c) P(c)
獨(dú)立性和條件獨(dú)立性：
?? 兩個(gè)隨機(jī)變量 x 和 y粹排，如果他們的概率分布可以表示成兩個(gè)因子的乘積形式，并且一個(gè)因子只包含 x涩澡，另外一個(gè)一個(gè)只包含 y，我們就稱(chēng)這兩個(gè)隨機(jī)變量是相互獨(dú)立：
?? ?? x∈x坠敷，y∈y妙同，p(x = x, y = y) = p(x = x) p(y = y)
?? 如果關(guān)于 x 和 y的條件概率分布對(duì)于 z 的每一個(gè)值都可以寫(xiě)成乘積的形式，那么這兩個(gè)隨機(jī)變量 x 和 y在給定隨機(jī)變量 z 時(shí)是條件獨(dú)立的：
??? x∈x膝迎，y∈y粥帚，z∈z p(x = x, y = y | z=z) = p(x = x | z=z) p(y = y | z=z)
?? 也可以采用一種簡(jiǎn)化形式表示獨(dú)立性和條件獨(dú)立性：x⊥y，表示 x 和 y獨(dú)立限次；x⊥y|z 表示 x 和 y 在給定 z 時(shí)獨(dú)立芒涡。
期望柴灯、方差和協(xié)方差：
?? 函數(shù) f(x) 關(guān)于某分布 P(x) 的期望或期望值是指，當(dāng) x 是由 P產(chǎn)生费尽，f 作用于 x 時(shí)赠群，f(x)的平均值。對(duì)于離散型隨機(jī)變量可以采用求和法：
??????E_x～P[ f(x) ] = Σ_xP(x) f(x)
對(duì)于連續(xù)型隨機(jī)變量旱幼，可以通過(guò)積分得到：
??????E_x～p[ f(x) ] = ∫ P(x) f(x) dx
??方差衡量的是隨機(jī)變量的取值與期望值之間的差異：
??????var(f(x)) = E [ ( f(x) - E[f(x)] )² ]
方差比較小的時(shí)候查描，隨機(jī)變量的取值在期望值附近，比較穩(wěn)定柏卤。方差的平方根稱(chēng)為標(biāo)準(zhǔn)差冬三。
??協(xié)方差 用來(lái)衡量不同變量之間的線性相關(guān)性，如果把每一個(gè)變量看作是一個(gè)維度上的值缘缚，也可以認(rèn)為協(xié)方差是度量各個(gè)維度偏離其均值的程度勾笆。方差是協(xié)方差的一個(gè)特列。
?????Cov( f(x),g(y) ) = E[ (f(x) - E[f(x)])] E[ (g(y) - E[g(y)])]
協(xié)方差為0桥滨，則變量之間是非線性相關(guān)的窝爪。注意，兩個(gè)相互獨(dú)立该园，則協(xié)方差為零酸舍，如果協(xié)方差非零，則一定是相關(guān)的里初。
?? 協(xié)方差矩陣 隨機(jī)向量 x∈Rⁿ的協(xié)方差矩陣是一個(gè) n * n的矩陣啃勉，矩陣中的元素滿足：
????? Cov(x)_i,j = Cov(x_i,x_j)
常用概率分布：
??Bernoulli分布(伯努利分布、零一分布双妨、兩點(diǎn)分布) 是一個(gè)二值隨機(jī)變量的分布淮阐。隨機(jī)變量取值只有 0 或者 1：
????? P(x = 1) = ф,?P(x = 0) = 1 - ф
????? E_x[x] = ф,?var_x(x) = ф(1 - ф)
??Multinoulli分布(范疇分布)是指具有k個(gè)不同狀態(tài)的單個(gè)離散型隨機(jī)變量上的分布。Multinoulli分布由向量p∈[0刁品，1]^{k -1}參數(shù)化泣特，其中每個(gè)分量p_i表示第 i 個(gè)狀態(tài)的概率。第 k 個(gè)狀態(tài)的概率可以通過(guò) 1 - 1^Tp給出挑随。Multinoulli分布常用來(lái)表示對(duì)象分類(lèi)的分布状您，因此通常不計(jì)算期望和方差。
高斯分布(正態(tài)分布)：
??高斯分布是機(jī)器學(xué)習(xí)中最常用的分布兜挨。在先驗(yàn)知識(shí)不足的時(shí)候膏孟，正態(tài)分布是默認(rèn)比較好的選擇。并且由中心極限定律可知很多獨(dú)立隨機(jī)變量的和近似服從正態(tài)分布拌汇。


高斯分布公式	高斯分布的概率密度函數(shù)圖像

?? 多維正態(tài)分布：

其中柒桑，參數(shù)μ依然表示分布的均值，但現(xiàn)在是向量噪舀。參數(shù) Σ 是分布的協(xié)方差矩陣魁淳。一個(gè)更簡(jiǎn)單的版本是各向同性高斯分布飘诗，它的協(xié)方差矩陣是一個(gè)標(biāo)量乘以單位矩陣。

指數(shù)分布和Laplace分布：
?? 在深度學(xué)習(xí)中界逛，常常需要一個(gè)在 x = 0處取得邊界點(diǎn)的分布昆稿，可以使用指數(shù)分布：
??????p(x;λ) = λ1_x≥0 exp(-λx)
指示函數(shù) 1_x≥0 表示 x取得負(fù)值時(shí)的概率為0。
??Laplace分布允許在任意一點(diǎn) μ 處設(shè)置概率分布的峰值：


Laplace公式	Laplace分布圖像

Dirac分布和經(jīng)驗(yàn)分布：
??在一些情況下仇奶，可能會(huì)希望概率分布中的所有質(zhì)量集中在一個(gè)點(diǎn)上貌嫡，這個(gè)時(shí)候可以使用Dirac delta函數(shù)δ(x)來(lái)實(shí)現(xiàn)（該函數(shù)做了偏移）：
??????p(x) = δ(x - μ)
Dirac delta函數(shù)被定義成除0以外所有點(diǎn)的值都為0，但是積分為1该溯，是一種依據(jù)積分性質(zhì)定義的廣義函數(shù)岛抄。
??Dirac分布常常作為經(jīng)驗(yàn)分布的一個(gè)組成部分出現(xiàn)：

經(jīng)驗(yàn)分布將概率密度 1／m 賦給 m 個(gè)點(diǎn) x⁽¹⁾，x⁽²⁾狈茉，...夫椭，x^(m) 中的每一個(gè)，這些點(diǎn)是給定數(shù)據(jù)集火樣本采樣的集合氯庆。只有在定義連續(xù)型隨機(jī)變量的經(jīng)驗(yàn)分布時(shí)蹭秋，Dirac delta函數(shù)才是必要的。對(duì)于離散型隨機(jī)變量堤撵，可以定義成一個(gè)Multinoulli分布仁讨。
常用函數(shù)的有用性質(zhì)：
?? logistic sigmoid函數(shù)


公式	圖像

??softplus函數(shù)，softplus函數(shù)是 max(0,x)函數(shù)的平滑形式：


公式	圖像

貝葉斯規(guī)則：
????P(x|y) = ( P(x) P(y|x) )／P(y)
其中：
????P(y) = Σ_x( P(y|x)P(x) )
信息論：
? ?自信息：I(x) = -㏑P(x)实昨，單位是奈特洞豁。一奈特是以 1/e 的概率觀測(cè)到一個(gè)事件時(shí)獲取到的信息量。自信息只處理單個(gè)的輸出荒给。
?? 香農(nóng)熵：用來(lái)對(duì)整個(gè)概率分布中的不確定性總量進(jìn)行量化：H(x) = E_x～P[I(x)] = －E_x～P[ln P(x)]丈挟。也記作H(P)。換句話說(shuō)志电，一個(gè)分布的香農(nóng)熵是指遵循這個(gè)分布的事件所產(chǎn)生的期望信息總量曙咽。確定性的熵、分布具有較低的熵挑辆，接近均勻分布的概率分布具有較高的熵例朱。當(dāng) x 是連續(xù)的時(shí)候，香農(nóng)熵被稱(chēng)為微分熵鱼蝉。
? ?KL散度：對(duì)于同一個(gè)隨機(jī)變量 x 有兩個(gè)單獨(dú)的概率分布 P(x) 和 Q(x)茉继，可以使用KL散度來(lái)衡量?jī)蓚€(gè)分布的差異：

在離散型隨機(jī)變量的情況下，KL散度衡量的是蚀乔，當(dāng)我們使用一種被設(shè)計(jì)成能夠使得概率分布Q產(chǎn)生的消息的長(zhǎng)度最小的編碼，發(fā)送包含由概率分布P產(chǎn)生的符號(hào)消息時(shí)菲茬，所需要的額外信息吉挣。KL散度是非負(fù)的派撕，并且是非對(duì)稱(chēng)的，對(duì)于某些 P 和 Q睬魂，D_KL(P || Q) ≠ D_KL(Q||P)终吼。
?交叉熵： 和KL散度很相似：H(P,Q) = H(P) + D_KL(P || Q)
在信息論中認(rèn)為lim_x→0 x (ln x) = 0
結(jié)構(gòu)化模型：
?? 機(jī)器學(xué)習(xí)（深度學(xué)習(xí)）的算法中常常會(huì)涉及在非常多的隨機(jī)變量上的概率分布，為了通過(guò)分解來(lái)減少參數(shù)從而降低計(jì)算的復(fù)雜度氯哮，提出了使用圖論中“圖”的概念际跪，使用圖來(lái)分解概率分布時(shí)，稱(chēng)為結(jié)構(gòu)化模型或者圖模型喉钢。采用的圖主要有兩種：有向圖和無(wú)向圖姆打，區(qū)別在于途中頂點(diǎn)相連邊是否有有方向。特別地肠虽，有向模型對(duì)于分布中的每一個(gè)隨機(jī)變量 x_i 都包含著一個(gè)影響因子

參考資料：
? 《深度學(xué)習(xí)》

深度學(xué)習(xí)新手幔戏，文章若有疏漏，歡迎及時(shí)指正税课！

最后編輯于：2019.08.15 21:06:54

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末闲延，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子韩玩，更是在濱河造成了極大的恐慌垒玲，老刑警劉巖，帶你破解...
沈念sama閱讀 211,376評(píng)論 6贊 491
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件找颓，死亡現(xiàn)場(chǎng)離奇詭異合愈，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)叮雳，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,126評(píng)論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)想暗，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人帘不，你說(shuō)我怎么就攤上這事说莫。” “怎么了寞焙？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,966評(píng)論 0贊 347
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵储狭，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我捣郊，道長(zhǎng)辽狈，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,432評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任呛牲，我火速辦了婚禮刮萌，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘娘扩。我一直安慰自己着茸，他們只是感情好壮锻，可當(dāng)我...
茶點(diǎn)故事閱讀 65,519評(píng)論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著涮阔，像睡著了一般猜绣。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上敬特，一...
開(kāi)封第一講書(shū)人閱讀 49,792評(píng)論 1贊 290
城市分裂傳說(shuō)
那天掰邢，我揣著相機(jī)與錄音，去河邊找鬼伟阔。笑死辣之，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的减俏。我是一名探鬼主播召烂，決...
沈念sama閱讀 38,933評(píng)論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼娃承！你這毒婦竟也來(lái)了奏夫？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 37,701評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤历筝，失蹤者是張志新（化名）和其女友劉穎酗昼，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體梳猪，經(jīng)...
沈念sama閱讀 44,143評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡麻削，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,488評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了春弥。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片呛哟。...
茶點(diǎn)故事閱讀 38,626評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖匿沛，靈堂內(nèi)的尸體忽然破棺而出扫责，到底是詐尸還是另有隱情，我是刑警寧澤逃呼，帶...
沈念sama閱讀 34,292評(píng)論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布鳖孤，位于F島的核電站，受9級(jí)特大地震影響抡笼，放射性物質(zhì)發(fā)生泄漏苏揣。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,896評(píng)論 3贊 313
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一推姻、第九天我趴在偏房一處隱蔽的房頂上張望平匈。院中可真熱鬧，春花似錦、人聲如沸吐葱。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,742評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)弟跑。三九已至，卻和暖如春防症，著一層夾襖步出監(jiān)牢的瞬間孟辑，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1贊 265
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工蔫敲，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留饲嗽，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,324評(píng)論 2贊 360
代替公主和親
正文我出身青樓奈嘿，卻偏偏與公主長(zhǎng)得像貌虾，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子裙犹，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,494評(píng)論 2贊 348

深度學(xué)習(xí)（三）：概率與信息論基礎(chǔ)

推薦閱讀更多精彩內(nèi)容