概念
熵的本質(zhì)是香農(nóng)信息量的期望。
現(xiàn)有關(guān)于樣本集的2個(gè)概率分布p和q隔躲,其中p為真實(shí)分布穗泵,q非真實(shí)分布瓮孙。按照真實(shí)分布p來衡量識別一個(gè)樣本的所需要的編碼長度的期望(即平均編碼長度)為:H(p)=
如果使用錯(cuò)誤分布q來表示來自真實(shí)分布p的平均編碼長度坊秸,則應(yīng)該是:H(p,q)=
因?yàn)橛胵來編碼的樣本來自分布p麸祷,所以期望H(p,q)中概率是p(i)。H(p,q)我們稱之為“交叉熵”
妇斤。
比如含有4個(gè)字母(A,B,C,D)的數(shù)據(jù)集中摇锋,真實(shí)分布p=(1/2, 1/2, 0, 0)丹拯,即A和B出現(xiàn)的概率均為1/2站超,C和D出現(xiàn)的概率都為0。計(jì)算H(p)為1乖酬,即只需要1位編碼即可識別A和B死相。如果使用分布Q=(1/4, 1/4, 1/4, 1/4)來編碼則得到H(p,q)=2,即需要2位編碼來識別A和B(當(dāng)然還有C和D咬像,盡管C和D并不會出現(xiàn)算撮,因?yàn)檎鎸?shí)分布p中C和D出現(xiàn)的概率為0,這里就欽定概率為0的事件不會發(fā)生啦)县昂。
可以看到上例中根據(jù)非真實(shí)分布q得到的平均編碼長度H(p,q)大于根據(jù)真實(shí)分布p得到的平均編碼長度H(p)肮柜。事實(shí)上,根據(jù)Gibbs' inequality可知倒彰,H(p,q)>=H(p)恒成立审洞,當(dāng)q為真實(shí)分布p時(shí)取等號。我們將由q得到的平均編碼長度比由p得到的平均編碼長度多出的bit數(shù)稱為“相對熵”
:D(p||q)=H(p,q)-H(p)=
其又被稱為KL散度(Kullback–Leibler divergence待讳,KLD) Kullback–Leibler divergence芒澜。它表示2個(gè)函數(shù)或概率分布的差異性:差異越大則相對熵越大,差異越小則相對熵越小创淡,特別地痴晦,若2者相同則熵為0。注意琳彩,KL散度的非對稱性誊酌。
為什么可以用作損失函數(shù)
交叉熵可在神經(jīng)網(wǎng)絡(luò)(機(jī)器學(xué)習(xí))中作為損失函數(shù)部凑,p表示真實(shí)標(biāo)記的分布,q則為訓(xùn)練后的模型的預(yù)測標(biāo)記分布碧浊,交叉熵?fù)p失函數(shù)可以衡量p與q的相似性砚尽。交叉熵作為損失函數(shù)還有一個(gè)好處是使用sigmoid函數(shù)在梯度下降時(shí)能避免均方誤差損失函數(shù)學(xué)習(xí)速率降低的問題,因?yàn)閷W(xué)習(xí)速率可以被輸出的誤差所控制辉词。
個(gè)人理解
把p(i)看作是真實(shí)的概率分布必孤,q(i)看作是預(yù)測的概率分布,如果把交叉熵作為loss函數(shù)瑞躺,當(dāng)我們最小化它時(shí)敷搪,可以使q(i)逐漸逼近p(i),也就達(dá)到了擬合的目的幢哨。
文章出處
作者:知乎用戶
鏈接:https://www.zhihu.com/question/41252833/answer/108777563
來源:知乎
著作權(quán)歸作者所有赡勘。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處捞镰。