信息熵
信息量:用來度量一個信息的多少蒂胞。
解釋:獲取者對它的了解程度相關樱溉,概率越大認為它的信息量越小构订,概率越小認為它的信息量越大丛塌。
用以下式子定義:
信息熵用來描述一個信源的不確定度空凸,也是信源的信息量期望嚎花。
對這個信源信號進行編碼的理論上的平均最小比特數(shù)(底數(shù)為2時)。
式子定義如下(log 的底數(shù)可以取2呀洲、e等不同的值紊选,只要底數(shù)相同啼止,一般是用于相對而言的比較):
意義:該式子對依據(jù)概率分布P生成的符號進行編碼所需的比特數(shù)在平均意義上的下界。
信息出現(xiàn)頻率高兵罢,分配比特數(shù)要邢追场:
同理頻率低的,分配大卖词。
概率低→定義信息量高巩那;概率低→定義編碼長度長。
信息熵范圍
接近確定的分布有較低的熵此蜈;接近均勻分布的概率分布有較高的熵即横。
在信源中出現(xiàn)的消息的種數(shù)一定時,這些消息出現(xiàn)的概率全都相等時裆赵,有信源的信息熵最大东囚。
推出信息熵的范圍:?
其中n是不同信息數(shù)
相對熵(KL散度)
相對熵:在信息論中度量兩個信源的信號信息量的分布差異。
機器學習中直接把其中的信息量等概念忽略了战授,當做損失函數(shù)页藻,用于比較真實和預測分布之間的差異。
式子定義如下:
KL散度衡量的是植兰,當我們用一種能使概率分布Q產(chǎn)生的消息的長度最小的編碼惕橙,發(fā)送由分布P產(chǎn)生的消息時,所需要的額外信息量钉跷。
用使得P分布產(chǎn)生的消息長度最小的編碼弥鹦,來發(fā)送P分布產(chǎn)生的消息時,
對于某符號x
編碼信息量:
概率是:
P分布平均每個符號要編碼的信息量:
即是P分布的信息熵
同理:
Q分布產(chǎn)生的消息長度最小的編碼爷辙,來發(fā)送P分布產(chǎn)生的消息時
對于某符號x
編碼信息量:
概率是:
P分布平均每個符號要編碼的信息量:
這是P和Q的交叉熵
額外信息量即:
P分布信息熵與P和Q的交叉熵之差
兩個分布相同時彬坏,它們的KL散度為0
KL散度性質(zhì):
1.KL散度不是一個對稱量
2.KL散度非負
由Jenson不等式可證明KL散度非負,此處不證明了膝晾。
JS散度
JS散度:度量兩個概率分布的相似度
JS散度是對稱的栓始,取值是0到1之間
公式如下
交叉熵
交叉熵式子定義:
此處是x到p(x)注意,簡書公式果然不好用(QAQ)下一次手推吧
假如P是真實分布血当,當使用DKL(P||Q)作為損失函數(shù)
因為只含P的那一項并不會隨著擬合分布Q的改變而改變幻赚。
所以這時候損失函數(shù)可以使用H(P,Q)來代替簡化。
由于可看出H(P,Q)比H(p)大
條件熵
條件熵中X和Y不是分布而是隨機變量
表示在已知隨機變量?X的條件下? 隨機變量?Y的不確定性
注意:這里的X并不是某個確定值臊旭,而是隨機變量落恼,所以在計算熵的時候要對所有進行求和
化簡就略了吧:
實際上定義的就是在所有X的條件下,Y的混亂度的平均值离熏。?
互信息
互信息:
1.用來度量兩個隨機變量之間的相互依賴程度
2.度量能從一個隨機變量中獲取的另一個隨機變量的信息量佳谦。
3.當一個隨機變量已知時,另一個隨機變量的不確定性的減少程度
互信息值也等于Y的信息熵減去X和Y的條件熵滋戳。
聯(lián)合熵
聯(lián)合熵也是用隨機變量而不是分布來表示钻蔑,定義如下:
衡量隨機變量X和隨機變量Y的聯(lián)合概率密度的信息熵大小啥刻。
(數(shù)學公式功能不好用)