1.信息量
信息量與事件發(fā)生的概率成反比逼蒙。
如:
事件1:明天太陽正常升起。該事件發(fā)生的概率P=1,因此信息量為0是牢。
事件2:天氣預(yù)報(bào)說明天要下雨僵井。本來我們不知道明天天氣,但是通過這句話消除了部分不確定性驳棱,因此它具有一定的信息量批什。
信息量的計(jì)算:
社搅。
2.信息熵
信息熵是所有信息量的期望驻债。
事件序號(hào) | 事件 | 概率 | 信息量 |
---|---|---|---|
1 | 明天下雨 | 0.6 | -log(0.6) |
2 | 明天不下雨 | 0.4 | -log(0.4) |
3.相對(duì)熵(KL熵)
衡量同一變量在不同概率分布上的差異。比如隨機(jī)變量X在測(cè)試集上的概率分布為,驗(yàn)證集上的概率分布為,相對(duì)熵計(jì)算公式為:
例如機(jī)器學(xué)習(xí)的分類問題:
事件序號(hào) | 事件 | 預(yù)測(cè)概率 | 實(shí)際情況 |
---|---|---|---|
1 | 明天下雨 | 0.6 | 1 |
2 | 明天不下雨 | 0.4 | 0 |
4.交叉熵
拆分KL散度公式:
-
=
即信息熵形葬,后者為交叉熵合呐。KL散度=信息熵-交叉熵。交叉熵公式為:
在機(jī)器學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)時(shí)笙以,輸入數(shù)據(jù)與標(biāo)簽常常已經(jīng)確定淌实,那么真實(shí)概率分布P(x) 也就確定下來了,所以信息熵在這里就是一個(gè)常量
猖腕。
由于KL散度的值表示真實(shí)概率分布P(x) 與預(yù)測(cè)概率分布Q(x) 之間的差異
拆祈,值越小表示預(yù)測(cè)的結(jié)果越好,所以需要最小化KL散度倘感,而交叉熵等于KL散度加上一個(gè)常量(信息熵)放坏,且公式相比KL散度更加容易計(jì)算,所以在機(jī)器學(xué)習(xí)中常常使用交叉熵?fù)p失函數(shù)來計(jì)算loss就行了老玛。
事件序號(hào) | 事件 | 預(yù)測(cè)概率 | 實(shí)際情況 |
---|---|---|---|
1 | 明天下雨 | 0.6 | 1 |
2 | 明天不下雨 | 0.4 | 0 |
交叉熵在分類問題中常常與softmax是標(biāo)配淤年,softmax將輸出的結(jié)果進(jìn)行處理,使其多個(gè)分類的預(yù)測(cè)值和為1蜡豹,再通過交叉熵來計(jì)算損失麸粮。
參考:https://blog.csdn.net/b1055077005/article/details/100152102