深度學(xué)習(xí)中的概率論與信息論基礎(chǔ)

1. 一些信息論中的概念

1. 自信息

自信息(self-information)雹有,由香農(nóng)提出潭陪,是與離散隨機(jī)變量的值相關(guān)的信息量的量度旺遮,常用 bit 作為單位陨界。通俗點(diǎn)來(lái)說(shuō)就是一個(gè)隨機(jī)事件以某個(gè)概率發(fā)生時(shí)攜帶的信息量有多大∧髟可按照如下方式計(jì)算:
I(x)=-\log_2(p(x))
思考一下為什么是上面這個(gè)形式進(jìn)行計(jì)算送膳?首先可以考慮一個(gè)事件發(fā)生的概率越大意味著它越有可能發(fā)生,極端一點(diǎn)一個(gè)概率為 1 的事件丑蛤,那么它一定會(huì)發(fā)生,所以這類(lèi)事件是一個(gè)確定性事件沒(méi)什么新鮮的撕阎,也就是說(shuō)它沒(méi)什么信息量受裹。再考慮一個(gè)反向極端例子,一個(gè)概率為 0.000001 的事而發(fā)生了虏束,這在人們心中往往是一個(gè)不可能發(fā)生的事棉饶,現(xiàn)在卻發(fā)生了,為什么會(huì)這樣镇匀?怎么發(fā)生的照藻?人們心中一定會(huì)有各種疑問(wèn),當(dāng)需要搞清楚這個(gè)小概率事件發(fā)生的原委時(shí)汗侵,人們也就從中獲取了巨大的信息量幸缕。所以信息量是隨著隨機(jī)事件發(fā)生概率單調(diào)遞減的群发,且非負(fù)。此時(shí)符合這個(gè)規(guī)律的候選函數(shù)還很多发乔,比如 log(x)熟妓,1/x

再考慮兩個(gè)不相關(guān)的隨機(jī)事件 X 和 Y,如果它們同時(shí)發(fā)生栏尚,那我們獲得的信息量有多少起愈?

不相關(guān)意味著任何一方出現(xiàn)都不會(huì)讓對(duì)方更容易發(fā)生,也就是說(shuō)不會(huì)影響對(duì)方的發(fā)生概率译仗,所以信息量之和為:
I_{X=x,Y=y}=I(P(X=x))+I(P(Y=y))
兩個(gè)不相關(guān)事件同時(shí)發(fā)生的概率為:
P(X=x,Y=y)=P(X=x)*P(Y=y)
也就是說(shuō)
I(P(X=x))+I(P(Y=y))=I(P(X=x)*P(Y=y))
也就是說(shuō) I(x) 的函數(shù)具有性質(zhì):I(xy)=I(x)+I(y)

此時(shí)不難想到對(duì)數(shù)函數(shù)就有這個(gè)性質(zhì)吧抬虽,所以得出了前面定義中的自信息的計(jì)算式,以 2 為底是因?yàn)橐?bit 作為單位纵菌,也可以以 e 和 10 為底阐污,不過(guò)單位就不是 bit 了

2. 熵

熵(entropy),表示接收到的每條消息中包含信息的平均量产艾,又稱為平均自信息量疤剑。所以可以按照下式計(jì)算:
H(X)=-\sum_{x\in X}P(X=x)\log(P(X=x))

3. 交叉熵

交叉熵(cross entropy),主要用于度量?jī)蓚€(gè)概率分布間的差異性闷堡。具體的隘膘,有真實(shí)概率分布 p,用于擬合 p 的概率分布 q杠览,用 q 來(lái)表示 p 中事件發(fā)生所需要的平均比特?cái)?shù)弯菊,越大表示這兩個(gè)分布之間差異性越大
H(p,q)=-\sum_{x\in X}P(X=x)\log(Q(X=x))

4. KL 散度

KL 散度(kullback-leibler divergence),用于度量使用基于概率分布 q 來(lái)編碼服從概率分布 p 的樣本所需要的額外的平均比特?cái)?shù)踱阿,也就等于交叉熵減去熵
\begin{align} D_{KL}(P||Q)&=H(p,q)-I(p) \\ &=-\sum_{x\in X}P(X=x)\log(Q(X=x))-(-\sum_{x\in X}P(X=x)\log(P(X=x))) \\ &=\sum_{x \in X}P(X=x)\log(\frac{P(X=x)}{Q(X=x)}) \end{align}
所以管钳,KL 散度和交叉熵之間數(shù)值上只差了真實(shí)分布的熵,對(duì)于深度學(xué)習(xí)的損失來(lái)說(shuō)软舌,二者其實(shí)沒(méi)有差別都可以用作損失函數(shù)才漆,因?yàn)檎鎸?shí)分布是未知的、確定的佛点,一個(gè)常量不影響優(yōu)化過(guò)程

5. 條件熵

條件熵(conditional entropy)醇滥,表示已知隨機(jī)變量 X 的條件下隨機(jī)變量 Y 的不確定性
\begin{align} H(Y|X)&=\sum_{x\in X}p(x)H(Y|X=x) \\ &=-\sum_{x\in X}p(x)\sum_{y\in Y}p(y|x)\log(p(y|x)) \\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log(\frac{p(x,y)}{p(x)}) \end{align}
和熵之間的關(guān)系為:

\begin{aligned} H(Y|X)&=H(X,Y)-H(X) \\ &=-\sum_{x\in X,y\in Y}p(x,y)\log(p(x,y))+\sum_{x\in X}p(x)\log(p(x)) \\ &=-\sum_{x\in X,y\in Y}p(x,y)\log(p(x,y))+\sum_{x\in X}\sum_{y\in Y}p(x,y)\log(p(x)) \\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log(\frac{p(x,y)}{p(x)}) \end{aligned}

6.互信息

互信息(mutual information),度量了兩個(gè)變量之間相互依賴的程度超营。簡(jiǎn)單來(lái)說(shuō)就是現(xiàn)有兩個(gè)變量 X 和 Y鸳玩,在 Y 的條件下,X 的不確定性較少了多少
\begin{align} I(X;Y)&=H(X)-H(X|Y) \\ &=-\sum_ip(x_i)\log(p(x_i))+\sum_i\sum_jp(x_i,y_i)\log(\frac{p(x_i,y_j)}{p(y_j)}) \\ &=-\sum_i\sum_jp(x_i,y_j)\log(p(x_i))+\sum_i\sum_jp(x_i,y_j)\log(\frac{p(x_i,y_j)}{p(y_j)}) \\ &=\sum_i\sum_jp(x_i,y_j)\log(\frac{p(x_i,y_j)}{p(x_i)p(y_j)}) \end{align}

以上就是機(jī)器學(xué)習(xí)中一些常用的信息論概念及其之間的聯(lián)系

2. 極大似然估計(jì)與交叉熵

1. 極大似然估計(jì)

假設(shè)現(xiàn)在我們有一組通過(guò)某個(gè)未知分布采樣得到的樣本演闭,現(xiàn)在我們要尋找這個(gè)分布的參數(shù)不跟,那怎么的參數(shù)算是對(duì)原分布較好的擬合的參數(shù)呢?應(yīng)該是能夠使得當(dāng)前這組樣本出現(xiàn)概率最高的參數(shù)

舉個(gè)例子米碰,現(xiàn)有一枚硬幣窝革,連續(xù)拋一百次购城,共出現(xiàn)40次正面,60次反面聊闯,現(xiàn)在要我們估計(jì)這枚硬幣拋出正面的概率 p工猜。

假設(shè) p=0.8,那么得到以上100次的結(jié)果的概率為 0.8^{40}*0.2^{60}=1.533e^{-46}菱蔬,

假設(shè) p=0.6篷帅,那么得到以上100次的結(jié)果的概率為 0.6^{40}*0.4^{60}=1.7768e^{-33}

假設(shè) p=0.4拴泌,那么得到以上100次的結(jié)果的概率為 0.4^{40}*0.6^{60}=5.908e^{-30}

所以在以上 3 個(gè)選擇中魏身,很合理地我們會(huì)認(rèn)為 p=0.4

下面進(jìn)行數(shù)學(xué)化描述:

假設(shè)有一組獨(dú)立同分布的樣本x=(x_1,...,x_N) 來(lái)自參數(shù)總體 p_{\theta},密度函數(shù)為 f(x_i|\theta)蚪腐,那么這組樣本出現(xiàn)的概率為:
f(x|\theta)=\prod_{i=1}^Nf(x_i|\theta)
然后我們要最大化這個(gè)函數(shù)箭昵,其中 \theta 視為變量,x_i 為給定的樣本(參數(shù))回季,優(yōu)化中通常對(duì)累乘取對(duì)數(shù):
L(\theta|x)=\log_2(f(x|\theta))=\sum_i^N\log_2(f(x_i|\theta))
得到優(yōu)化目標(biāo)后家制,我們就可以使用例如梯度下降法進(jìn)行優(yōu)化求解,得到一個(gè) \hat{\theta} 使得對(duì)數(shù)似然函數(shù)最大化:
\hat{\theta}=\arg \max _{\theta}L(\theta|x)

2. 交叉熵

交叉熵衡量的是兩個(gè)分布之間的差異泡一,在這里颤殴,我們有不知道 p 真實(shí)值的原始分布,現(xiàn)在我們希望盡可能合理地估計(jì) p 的值鼻忠,也就是估計(jì)分布 f(x_i|\theta)涵但,另外設(shè) y_i 為每次實(shí)驗(yàn)出現(xiàn)的是正面還是反面,正面是 1帖蔓,反面是 0矮瘟, f(x_i|\theta) 表示每次實(shí)驗(yàn)出現(xiàn)正面的概率, 我們的目標(biāo)是希望估計(jì)分布和原始分布的差異盡可能小塑娇,那么根據(jù)交叉熵的計(jì)算表達(dá)式有:
L(\theta|x)=-\sum_i^N(y_i\log_2(f(x_i|\theta))+(1-y_i)\log_2(1-f(x_i|\theta)))
以上澈侠,當(dāng) f(x_i|\theta) 表示當(dāng)前實(shí)驗(yàn)結(jié)果對(duì)應(yīng)的估計(jì)概率,y_i 表示當(dāng)前的實(shí)驗(yàn)結(jié)果埋酬,取 1哨啃,所以上式可化為:
L(\theta|x)=-\sum_i^N\log_2(f(x_i|\theta))
然后,最小化交叉熵就可以得到我們想要的參數(shù)奇瘦。可以看到和極大似然估計(jì)的目標(biāo)函數(shù)就相差了一個(gè)符號(hào)劲弦,當(dāng)極大似然估計(jì)加上一個(gè)符號(hào)耳标,也就變成了最小化負(fù)對(duì)數(shù)極大似然估計(jì),和交叉熵也就一致了

3. 小結(jié)

極大似然估計(jì)和交叉熵的結(jié)果是一樣的邑跪,只是它們解決問(wèn)題的角度不一樣次坡,交叉熵從信息論的角度出發(fā)呼猪,極大似然估計(jì)從概率論的角度出發(fā)。

參考

  1. https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
  2. https://www.zhihu.com/question/30828247
  3. https://zh.wikipedia.org/wiki/%E7%9B%B8%E5%AF%B9%E7%86%B5
  4. https://www.zhihu.com/question/24124998
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末砸琅,一起剝皮案震驚了整個(gè)濱河市宋距,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌症脂,老刑警劉巖谚赎,帶你破解...
    沈念sama閱讀 222,000評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異诱篷,居然都是意外死亡壶唤,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)棕所,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)闸盔,“玉大人,你說(shuō)我怎么就攤上這事琳省∮常” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,561評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵针贬,是天一觀的道長(zhǎng)击费。 經(jīng)常有香客問(wèn)我,道長(zhǎng)坚踩,這世上最難降的妖魔是什么荡灾? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,782評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮瞬铸,結(jié)果婚禮上批幌,老公的妹妹穿的比我還像新娘。我一直安慰自己嗓节,他們只是感情好荧缘,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,798評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著拦宣,像睡著了一般截粗。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鸵隧,一...
    開(kāi)封第一講書(shū)人閱讀 52,394評(píng)論 1 310
  • 那天绸罗,我揣著相機(jī)與錄音,去河邊找鬼豆瘫。 笑死珊蟀,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的外驱。 我是一名探鬼主播育灸,決...
    沈念sama閱讀 40,952評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼腻窒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了磅崭?” 一聲冷哼從身側(cè)響起儿子,我...
    開(kāi)封第一講書(shū)人閱讀 39,852評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎砸喻,沒(méi)想到半個(gè)月后柔逼,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,409評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡恩够,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,483評(píng)論 3 341
  • 正文 我和宋清朗相戀三年纵柿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了递递。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,615評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖帚湘,靈堂內(nèi)的尸體忽然破棺而出檬姥,到底是詐尸還是另有隱情俏拱,我是刑警寧澤埃篓,帶...
    沈念sama閱讀 36,303評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站疆股,受9級(jí)特大地震影響费坊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜旬痹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,979評(píng)論 3 334
  • 文/蒙蒙 一附井、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧两残,春花似錦永毅、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,470評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至崔赌,卻和暖如春意蛀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背健芭。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,571評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工县钥, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人慈迈。 一個(gè)月前我還...
    沈念sama閱讀 49,041評(píng)論 3 377
  • 正文 我出身青樓若贮,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子兜看,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,630評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容