信息熵
信息熵也被稱為熵,用來表示所有信息量的期望。其中X是一個(gè)離散型隨機(jī)變量猎唁。
相對熵
相對熵即KL散度。如果隨機(jī)變量X有兩個(gè)單獨(dú)的概率分布P(x)和Q(x)顷蟆,用KL散度即相對熵來衡量兩個(gè)概率分布之間的差異诫隅。KL散度越接小,代表兩個(gè)分布越接近慕的。訓(xùn)練Q(x)來使得Q(x)逼近P(x)阎肝。
交叉熵
相對熵=交叉熵-信息熵
為什么分類要用交叉熵?
1仪际、交叉熵=相對熵+信息熵围小。交叉熵能夠衡量同一個(gè)隨機(jī)變量中的兩個(gè)不同概率分布的差異程度,即真實(shí)概率分布與預(yù)測概率分布之間的差異树碱。交叉熵的值越小肯适,模型預(yù)測效果就越好。
2成榜、交叉熵在分類問題中常常與softmax是標(biāo)配框舔。
為什么交叉熵和softmax是標(biāo)配?
首先在二元分類的情況下赎婚,Softmax 退化為了 Sigmoid刘绣。詳見:
softmax與sigmoid
那為什么交叉熵?fù)p失卻可以呢歧焦?因?yàn)?log抵消掉了exp!