香農熵
熵考察(香農熵)的是單個的信息(分布)的期望:反映了一個系統的無序化(有序化)程度,一個系統越有序巩梢,信息熵就越低艺玲,反之就越高。
交叉熵
交叉熵考察的是兩個的信息(分布)的期望:
交叉熵和熵忌警,相當于秒梳,協方差和方差
相對熵
相對熵考察兩個信息(分布)之間的不相似性:
所謂相對箕速,自然在兩個隨機變量之間。又稱互熵礼烈,Kullback–Leibler divergence(K-L 散度)等。設p(x)和q(x)是X取值的兩個概率分布庭呜,則p對q的相對熵為:
在一定程度上犀忱,熵可以度量兩個隨機變量的距離。KL 散度是兩個概率分布 P 和 Q 差別的非對稱性的度量数冬。KL 散度是用來度量使用基于 Q 的編碼來編碼來自 P 的樣本平均所需的額外的位元數搀庶。
典型情況下,P 表示數據的真實分布秸架,Q 表示數據的理論分布咆蒿,模型分布,或 P 的近似分布沃测。
相對熵的性質,相對熵(KL散度)有兩個主要的性質馏谨。如下
(1)盡管 KL 散度從直觀上是個度量或距離函數附迷,但它并不是一個真正的度量或者距離,因為它不具有對稱性,即
(2)相對熵的值為非負值抄伍,即
三者之間的關系:
簡森不等式與 KL散度:
因為?lnx是凸函數截珍,所以滿足箩朴,凸函數的簡森不等式的性質:
這里我們令f(?)=?lnx炸庞,則其是關于x的凸函數荚斯,因此:
也即 KL 散度恒大于等于 0;
聯合熵
聯合熵:(X,Y)在一起時的不確定性度量
條件熵
條件熵:? ? X確定時滥壕,Y的不確定性度量
? ? ? ? ? ? ? 在X發(fā)生是前提下兽泣,Y發(fā)生新帶來的熵。
聯系:
称鳞?
如果是回歸問題的稠鼻,使用平方損失函數。分類問題建議使用交叉熵損失靶瘸,用平方損失會出現如下問題:在誤差較大時毛肋,損失函數比較平坦,更新較慢润匙,還會出現梯度為0的情況,期望的情況是訓練完成時匠楚,到達某個極值點厂财,這時梯度為0,所以就沒辦法判斷訓練是否完成了璃饱。交叉熵損失就不會出現這種情況,在遠離目標的時候撩穿,曲線比較陡峭。
來源:http://blog.csdn.net/lanchunhui/article/details/50970625
? ? ? ? ? http://blog.csdn.net/lanchunhui/article/details/53365438
? ? ? ? ? http://blog.csdn.net/lanchunhui/article/details/51277608
? ? ? ? ? http://www.cnblogs.com/little-YTMM/p/5582271.html