深度學(xué)習(xí)(三):概率與信息論基礎(chǔ)

版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處,商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者(huxingfei097@163.com)待德,謝謝合作狭归!
  • 基礎(chǔ)概念:
    ? 邏輯:
    ??邏輯可以在給定某些命題是真或假的假設(shè)下,判斷另外一些命題是真還是假鹦马。
    ? 概率:
    ??概率可以在給定一些命題的似然后虱岂,計(jì)算其他命題為真的似然。
  • 隨機(jī)變量:
    ??隨機(jī)變量是指可以隨機(jī)地取不同值的變量菠红。通常用無(wú)格式字體中小寫(xiě)字母表示隨機(jī)變量本身第岖,用手寫(xiě)體中的小寫(xiě)字母來(lái)表示隨機(jī)變量能夠取到的值(注:markdown中暫未發(fā)現(xiàn)如何打出手寫(xiě)體字母,故以斜體代替)试溯,如蔑滓,x1x2都是隨機(jī)變量 x 可能的取值。對(duì)于向量類(lèi)型的變量 x遇绞,它的一個(gè)可能取值為 x键袱。
    ??隨機(jī)變量可以是離散或者連續(xù)的。離散型隨機(jī)變量擁有有限多個(gè)或者可數(shù)無(wú)限多的狀態(tài)摹闽,注意:這些狀態(tài)不一定要是整數(shù)值蹄咖,可能只是被命名的狀態(tài)而非數(shù)值,如付鹿,狀態(tài)1澜汤,狀態(tài)2,狀態(tài)3...連續(xù)型隨機(jī)變量伴隨著實(shí)數(shù)值
  • 概率分布:
    ??概率分布用來(lái)描述隨機(jī)變量或者一簇隨機(jī)變量在每一個(gè)可能取到的狀態(tài)的可能性大小舵匾。描述概率分布的方式取決于隨機(jī)變量是離散的還是連續(xù)的俊抵。
    ??離散型變量與概率質(zhì)量函數(shù):
    ???離散型變量的概率分布可以用概率質(zhì)量函數(shù)(PMF,也稱(chēng)作概率分布律)來(lái)描述坐梯。概率質(zhì)量函數(shù)將隨機(jī)變量能夠取到的每個(gè)狀態(tài)映射到隨機(jī)變量取得該狀態(tài)的概率徽诲,P(x)表示 x = x的概率,也可以寫(xiě)作P(x = x) 吵血。通常使用~來(lái)表示一個(gè)隨機(jī)變量所服從的分布:x ~ P(x)谎替。
    ???P(x = x,y = y)稱(chēng)為聯(lián)合概率分布,表示 x = x 和 y = y 同時(shí)發(fā)生的概率蹋辅,也可簡(jiǎn)寫(xiě)為 P(x,y)钱贯。
    ???概率質(zhì)量函數(shù)需要滿足以下條件:
    ???① P的定義域必須是變量 x 所有可能狀態(tài)的集合。
    ???② ? x∈x晕翠,0 ≤ P(x) ≤ 1
    ???③ Σx∈xP(x) = 1喷舀,該性質(zhì)稱(chēng)為歸一化
    ??連續(xù)型隨機(jī)變量與概率密度函數(shù):
    ??? 連續(xù)型隨機(jī)變量的概率分布稱(chēng)之為概率密度函數(shù)(PDF)砍濒。概率密度函數(shù) p 需滿足以下條件:
    ???① p 的定義域必須是變量 x 所有可能狀態(tài)的集合。
    ???② ? x∈x硫麻,p(x) ≥ 0爸邢。注意,并不要求 p(x) ≤ 1拿愧。
    ???③ ∫ p(x)dx = 1杠河。
    ???求 x 落在某集合(區(qū)域)中的概率通過(guò) p(x) 對(duì)該集合(區(qū)域)進(jìn)行積分得到。
  • 邊緣概率:
    ??通過(guò)一組變量的聯(lián)合概率分布可以求出其中一個(gè)子集的概率分布浇辜。這種定義在自己上的概率分布被稱(chēng)為邊緣概率分布券敌。
    ??對(duì)于離散型隨機(jī)變量 x 和 y,已知 P(x,y)柳洋,常采用 求和法 來(lái)計(jì)算:
    ??????? x∈x待诅,P(x = x) = Σy P(x = x,y = y)
    ??對(duì)于連續(xù)型變量,使用 積分法 來(lái)計(jì)算邊緣概率:
    ??????p(x) = p(x,y) dy
  • 條件概率:
    ??條件概率是在給定其他事件發(fā)生的情況下某個(gè)事件發(fā)生的概率熊镣。P(x = x| y = y)表示在x = x的情況下卑雁,y = y 發(fā)生的概率,計(jì)算公式如下:
    ??????P(x = x| y = y) = P(x = x绪囱,y = y)] / P(x = x)
    條件概率只有在P(x = x)>0 時(shí)有意義测蹲,不能計(jì)算永遠(yuǎn)不會(huì)發(fā)生的事件上的條件概率。
    ??條件概率的鏈?zhǔn)椒▌t(也叫乘法法則):任何多維隨機(jī)變量的聯(lián)合概率分布鬼吵,都可以分解成只有一個(gè)變量的條件概率相乘的形式:
    ?P(x(1)扣甲,x(2),...齿椅,x(n)) = P(x(1)) ∏ni=2P(x(i)|x(1)琉挖,...,x(i-1))(∏媒咳,連乘符號(hào))
    ??
    ?? 例如一個(gè)三維隨機(jī)變量有如下推導(dǎo)過(guò)程:
    ??????P(a,b,c) = P(a | b,c)P(b,c)
    ??????P(b,c) = P(b | c)P(c)
    ??????P(a,b,c) = P(a | b,c) P(b | c) P(c)
  • 獨(dú)立性和條件獨(dú)立性:
    ?? 兩個(gè)隨機(jī)變量 x 和 y粹排,如果他們的概率分布可以表示成兩個(gè)因子的乘積形式,并且一個(gè)因子只包含 x涩澡,另外一個(gè)一個(gè)只包含 y,我們就稱(chēng)這兩個(gè)隨機(jī)變量是相互獨(dú)立
    ?? ?? x∈x坠敷,y∈y妙同,p(x = x, y = y) = p(x = x) p(y = y)
    ?? 如果關(guān)于 x 和 y的條件概率分布對(duì)于 z 的每一個(gè)值都可以寫(xiě)成乘積的形式,那么這兩個(gè)隨機(jī)變量 x 和 y在給定隨機(jī)變量 z 時(shí)是條件獨(dú)立的:
    ??? x∈x膝迎,y∈y粥帚,z∈z p(x = x, y = y | z=z) = p(x = x | z=z) p(y = y | z=z)
    ?? 也可以采用一種簡(jiǎn)化形式表示獨(dú)立性和條件獨(dú)立性:x⊥y,表示 x 和 y獨(dú)立限次;x⊥y|z 表示 x 和 y 在給定 z 時(shí)獨(dú)立芒涡。
  • 期望柴灯、方差和協(xié)方差:
    ?? 函數(shù) f(x) 關(guān)于某分布 P(x) 的期望期望值是指,當(dāng) x 是由 P產(chǎn)生费尽,f 作用于 x 時(shí)赠群,f(x)的平均值。對(duì)于離散型隨機(jī)變量可以采用求和法:
    ??????Ex~P[ f(x) ] = ΣxP(x) f(x)
    對(duì)于連續(xù)型隨機(jī)變量旱幼,可以通過(guò)積分得到:
    ??????Ex~p[ f(x) ] = P(x) f(x) dx
    ??方差 衡量的是隨機(jī)變量的取值與期望值之間的差異:
    ??????var(f(x)) = E [ ( f(x) - E[f(x)] )2 ]
    方差比較小的時(shí)候查描,隨機(jī)變量的取值在期望值附近,比較穩(wěn)定柏卤。方差的平方根稱(chēng)為標(biāo)準(zhǔn)差冬三。
    ??協(xié)方差 用來(lái)衡量不同變量之間的線性相關(guān)性,如果把每一個(gè)變量看作是一個(gè)維度上的值缘缚,也可以認(rèn)為協(xié)方差是度量各個(gè)維度偏離其均值的程度勾笆。方差是協(xié)方差的一個(gè)特列。
    ?????Cov( f(x),g(y) ) = E[ (f(x) - E[f(x)])] E[ (g(y) - E[g(y)])]
    協(xié)方差為0桥滨,則變量之間是非線性相關(guān)的窝爪。注意,兩個(gè)相互獨(dú)立该园,則協(xié)方差為零酸舍,如果協(xié)方差非零,則一定是相關(guān)的里初。
    ?? 協(xié)方差矩陣 隨機(jī)向量 x∈Rn的協(xié)方差矩陣是一個(gè) n * n的矩陣啃勉,矩陣中的元素滿足:
    ????? Cov(x) i,j = Cov(xi,xj)
  • 常用概率分布:
    ??Bernoulli分布(伯努利分布、零一分布双妨、兩點(diǎn)分布) 是一個(gè)二值隨機(jī)變量的分布淮阐。隨機(jī)變量取值只有 0 或者 1:
    ????? P(x = 1) = ф,?P(x = 0) = 1 - ф
    ????? Ex[x] = ф,?varx(x) = ф(1 - ф)
    ??Multinoulli分布(范疇分布)是指具有k個(gè)不同狀態(tài)的單個(gè)離散型隨機(jī)變量上的分布。Multinoulli分布由向量p∈[0刁品,1]k -1參數(shù)化泣特,其中每個(gè)分量p i表示第 i 個(gè)狀態(tài)的概率。第 k 個(gè)狀態(tài)的概率可以通過(guò) 1 - 1Tp給出挑随。Multinoulli分布常用來(lái)表示對(duì)象分類(lèi)的分布状您,因此通常不計(jì)算期望和方差。
  • 高斯分布(正態(tài)分布):
    ??高斯分布是機(jī)器學(xué)習(xí)中最常用的分布兜挨。在先驗(yàn)知識(shí)不足的時(shí)候膏孟,正態(tài)分布是默認(rèn)比較好的選擇。并且由中心極限定律可知很多獨(dú)立隨機(jī)變量的和近似服從正態(tài)分布拌汇。
高斯分布公式 高斯分布的概率密度函數(shù)圖像

?? 多維正態(tài)分布:

其中柒桑,參數(shù)μ依然表示分布的均值,但現(xiàn)在是向量噪舀。參數(shù) Σ 是分布的協(xié)方差矩陣魁淳。一個(gè)更簡(jiǎn)單的版本是各向同性高斯分布飘诗,它的協(xié)方差矩陣是一個(gè)標(biāo)量乘以單位矩陣。

  • 指數(shù)分布和Laplace分布:
    ?? 在深度學(xué)習(xí)中界逛,常常需要一個(gè)在 x = 0處取得邊界點(diǎn)的分布昆稿,可以使用指數(shù)分布:
    ??????p(x;λ) = λ1x≥0 exp(-λx)
    指示函數(shù) 1x≥0 表示 x取得負(fù)值時(shí)的概率為0。
    ??Laplace分布允許在任意一點(diǎn) μ 處設(shè)置概率分布的峰值:
Laplace公式 Laplace分布圖像
  • Dirac分布和經(jīng)驗(yàn)分布:
    ??在一些情況下仇奶,可能會(huì)希望概率分布中的所有質(zhì)量集中在一個(gè)點(diǎn)上貌嫡,這個(gè)時(shí)候可以使用Dirac delta函數(shù)δ(x)來(lái)實(shí)現(xiàn)(該函數(shù)做了偏移):
    ??????p(x) = δ(x - μ)
    Dirac delta函數(shù)被定義成除0以外所有點(diǎn)的值都為0,但是積分為1该溯,是一種依據(jù)積分性質(zhì)定義的廣義函數(shù)岛抄。
    ??Dirac分布常常作為經(jīng)驗(yàn)分布的一個(gè)組成部分出現(xiàn):
    經(jīng)驗(yàn)分布將概率密度 1/m 賦給 m 個(gè)點(diǎn) x(1)x(2)狈茉,...夫椭,x(m) 中的每一個(gè),這些點(diǎn)是給定數(shù)據(jù)集火樣本采樣的集合氯庆。只有在定義連續(xù)型隨機(jī)變量的經(jīng)驗(yàn)分布時(shí)蹭秋,Dirac delta函數(shù)才是必要的。對(duì)于離散型隨機(jī)變量堤撵,可以定義成一個(gè)Multinoulli分布仁讨。
  • 常用函數(shù)的有用性質(zhì):
    ?? logistic sigmoid函數(shù)
公式 圖像

??softplus函數(shù),softplus函數(shù)是 max(0,x)函數(shù)的平滑形式:

公式 圖像
  • 貝葉斯規(guī)則:
    ????P(x|y) = ( P(x) P(y|x) )/P(y)
    其中:
    ????P(y) = Σx( P(y|x)P(x) )
  • 信息論:
    ? ?自信息:I(x) = -㏑P(x)实昨,單位是奈特洞豁。一奈特是以 1/e 的概率觀測(cè)到一個(gè)事件時(shí)獲取到的信息量。自信息只處理單個(gè)的輸出荒给。
    ?? 香農(nóng)熵:用來(lái)對(duì)整個(gè)概率分布中的不確定性總量進(jìn)行量化:H(x) = Ex~P[I(x)] = -Ex~P[ln P(x)]丈挟。也記作H(P)。換句話說(shuō)志电,一個(gè)分布的香農(nóng)熵是指遵循這個(gè)分布的事件所產(chǎn)生的期望信息總量曙咽。確定性的熵、分布具有較低的熵挑辆,接近均勻分布的概率分布具有較高的熵例朱。當(dāng) x 是連續(xù)的時(shí)候,香農(nóng)熵被稱(chēng)為微分熵鱼蝉。
    ? ?KL散度:對(duì)于同一個(gè)隨機(jī)變量 x 有兩個(gè)單獨(dú)的概率分布 P(x) 和 Q(x)茉继,可以使用KL散度來(lái)衡量?jī)蓚€(gè)分布的差異:
    在離散型隨機(jī)變量的情況下,KL散度衡量的是蚀乔,當(dāng)我們使用一種被設(shè)計(jì)成能夠使得概率分布Q產(chǎn)生的消息的長(zhǎng)度最小的編碼,發(fā)送包含由概率分布P產(chǎn)生的符號(hào)消息時(shí)菲茬,所需要的額外信息吉挣。KL散度是非負(fù)的派撕,并且是非對(duì)稱(chēng)的,對(duì)于某些 P 和 Q睬魂,DKL(P || Q) ≠ DKL(Q||P)终吼。
    ?交叉熵: 和KL散度很相似:H(P,Q) = H(P) + DKL(P || Q)
  • 在信息論中認(rèn)為limx→0 x (ln x) = 0
  • 結(jié)構(gòu)化模型:
    ?? 機(jī)器學(xué)習(xí)(深度學(xué)習(xí))的算法中常常會(huì)涉及在非常多的隨機(jī)變量上的概率分布,為了通過(guò)分解來(lái)減少參數(shù)從而降低計(jì)算的復(fù)雜度氯哮,提出了使用圖論中“圖”的概念际跪,使用圖來(lái)分解概率分布時(shí),稱(chēng)為結(jié)構(gòu)化模型或者圖模型喉钢。采用的圖主要有兩種:有向圖無(wú)向圖姆打,區(qū)別在于途中頂點(diǎn)相連邊是否有有方向。特別地肠虽,有向模型對(duì)于分布中的每一個(gè)隨機(jī)變量 xi 都包含著一個(gè)影響因子

參考資料:
? 《深度學(xué)習(xí)》

本系列相關(guān)文章
深度學(xué)習(xí)(四):數(shù)值計(jì)算基礎(chǔ)
深度學(xué)習(xí)(二):主成分分析算法
深度學(xué)習(xí)(一):線性代數(shù)基礎(chǔ)

深度學(xué)習(xí)新手幔戏,文章若有疏漏,歡迎及時(shí)指正税课!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末闲延,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子韩玩,更是在濱河造成了極大的恐慌垒玲,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,376評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件找颓,死亡現(xiàn)場(chǎng)離奇詭異合愈,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)叮雳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)想暗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人帘不,你說(shuō)我怎么就攤上這事说莫。” “怎么了寞焙?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,966評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵储狭,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我捣郊,道長(zhǎng)辽狈,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,432評(píng)論 1 283
  • 正文 為了忘掉前任呛牲,我火速辦了婚禮刮萌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘娘扩。我一直安慰自己着茸,他們只是感情好壮锻,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著涮阔,像睡著了一般猜绣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上敬特,一...
    開(kāi)封第一講書(shū)人閱讀 49,792評(píng)論 1 290
  • 那天掰邢,我揣著相機(jī)與錄音,去河邊找鬼伟阔。 笑死辣之,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的减俏。 我是一名探鬼主播召烂,決...
    沈念sama閱讀 38,933評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼娃承!你這毒婦竟也來(lái)了奏夫?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,701評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤历筝,失蹤者是張志新(化名)和其女友劉穎酗昼,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體梳猪,經(jīng)...
    沈念sama閱讀 44,143評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡麻削,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了春弥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片呛哟。...
    茶點(diǎn)故事閱讀 38,626評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖匿沛,靈堂內(nèi)的尸體忽然破棺而出扫责,到底是詐尸還是另有隱情,我是刑警寧澤逃呼,帶...
    沈念sama閱讀 34,292評(píng)論 4 329
  • 正文 年R本政府宣布鳖孤,位于F島的核電站,受9級(jí)特大地震影響抡笼,放射性物質(zhì)發(fā)生泄漏苏揣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評(píng)論 3 313
  • 文/蒙蒙 一推姻、第九天 我趴在偏房一處隱蔽的房頂上張望平匈。 院中可真熱鬧,春花似錦、人聲如沸吐葱。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,742評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)弟跑。三九已至,卻和暖如春防症,著一層夾襖步出監(jiān)牢的瞬間孟辑,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工蔫敲, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留饲嗽,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓奈嘿,卻偏偏與公主長(zhǎng)得像貌虾,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子裙犹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容