首先來(lái)看離散型隨機(jī)變量被芳$直矗考慮隨機(jī)變量取某一個(gè)特定值時(shí)包含的信息量的大小。假設(shè)隨機(jī)變量取值為畔濒,對(duì)應(yīng)的概率為
剩晴。直觀來(lái)看,取這個(gè)值的可能性越小侵状,而它又發(fā)生了赞弥,則包含的信息量就越大。因此如果定義一個(gè)函數(shù)
來(lái)描述隨機(jī)變量取值為的信息量的大小的話趣兄,則
應(yīng)該是
的單調(diào)減函數(shù)绽左。例如,一年之內(nèi)人類登陸火星艇潭,包含的信息量顯然比廣州明天要下雨大拼窥,因?yàn)榍罢叩母怕拭黠@小于后者。
滿足單調(diào)遞減要求的函數(shù)太多了暴区,我們?cè)撨x擇哪個(gè)函數(shù)呢闯团?接著考慮。假設(shè)有兩個(gè)相互獨(dú)立的隨機(jī)變量仙粱,它們的取值分別為和
,取該值的概率為
和
彻舰。根據(jù)隨機(jī)變量的獨(dú)立性伐割,它們的聯(lián)合概率為
由于這兩個(gè)隨機(jī)變量是相互獨(dú)立的,因此它們各自取某一值時(shí)包含的信息量應(yīng)該是兩個(gè)隨機(jī)變量分別取這些值的時(shí)候包含的信息量之和
這要求能把
的乘法轉(zhuǎn)化為加法刃唤。在數(shù)學(xué)上隔心,滿足此要求的是對(duì)數(shù)函數(shù)。因此尚胞,可以把自信息定義為
這個(gè)對(duì)數(shù)的底數(shù)是多少并沒有太大關(guān)系硬霍,根據(jù)換底公式,最后計(jì)算出來(lái)的結(jié)果就差了一個(gè)倍數(shù)笼裳,信息論中通常以為底唯卖,在機(jī)器學(xué)習(xí)中通常以
為底,在后面的計(jì)算中為了方便起見我們用
為底躬柬。需要強(qiáng)調(diào)的對(duì)數(shù)函數(shù)前面加上了負(fù)號(hào)拜轨,這是因?yàn)閷?duì)數(shù)函數(shù)是增函數(shù),而我們要求
是
的減函數(shù)允青。另外橄碾,由于
,因此
,加上負(fù)號(hào)之后剛好可以保證這個(gè)信息量為正法牲。
上面只是考慮了隨機(jī)變量取某一個(gè)值時(shí)包含的信息量史汗,而隨機(jī)變量的取值是隨機(jī)的,有各種可能拒垃,那又怎么計(jì)算它取所有各種取值時(shí)所包含的信息量呢停撞?既然隨機(jī)變量取值有各種情況,而且取每個(gè)值有一個(gè)概率恶复,那我們計(jì)算它取各個(gè)值時(shí)的信息量的均值即數(shù)學(xué)期望即可怜森,這個(gè)信息量的均值,就是熵
離散:
連續(xù):
根據(jù)熵的定義谤牡,隨機(jī)變量取各個(gè)值的概率相等(均勻分布)時(shí)有有極大值副硅,在取某一個(gè)值的概率為
,取其他所有值的概率為
時(shí)有
有極小值(此時(shí)隨機(jī)變量退化成某一必然事件或者說(shuō)確定的變量)翅萤。
KL散度是兩個(gè)概率分布P和Q差別的非對(duì)稱性的度量恐疲。典型情況下,P表示數(shù)據(jù)的真實(shí)分布套么,Q表示數(shù)據(jù)的理論分布培己、估計(jì)的模型分布、或P的近似分布
Kullback-Leibler Divergence胚泌,即K-L散度省咨,是一種量化兩種概率分布P和Q之間差異的方式,又叫相對(duì)熵玷室。在概率學(xué)和統(tǒng)計(jì)學(xué)上零蓉,我們經(jīng)常會(huì)使用一種更簡(jiǎn)單的、近似的分布來(lái)替代觀察數(shù)據(jù)或太復(fù)雜的分布穷缤。K-L散度能幫助我們度量使用一個(gè)分布來(lái)近似另一個(gè)分布時(shí)所損失的信息量敌蜂。
其中,是
分布津肛、
分布共同的樣本空間中的同一個(gè)樣本點(diǎn)章喉,樣本空間的大小
離散:
連續(xù):
非負(fù)
只有 時(shí),
非對(duì)稱性?
相對(duì)熵公式的前半部分就是交叉熵
離散:
若是數(shù)據(jù)的真實(shí)概率分布身坐,
是由數(shù)據(jù)計(jì)算得到的概率分布秸脱。機(jī)器學(xué)習(xí)的目的就是希望
盡可能地逼近甚至等于
,從而使得相對(duì)熵接近最小值
. 由于真實(shí)的概率分布是固定的掀亥,相對(duì)熵公式的后半部分
就成了一個(gè)常數(shù)撞反。那么相對(duì)熵達(dá)到最小值的時(shí)候,也意味著交叉熵達(dá)到了最小值搪花。對(duì)
的優(yōu)化就等效于求交叉熵的最小值遏片。另外嘹害,對(duì)交叉熵求最小值,也等效于求最大似然估計(jì)