一 自信息
1.定義:描述某個事件發(fā)生所帶來的信息量,由克勞德·香農(nóng)提出,豪嗽,當(dāng)
即隨機(jī)事件不發(fā)生時自信息被定義為無限大,當(dāng)
即隨機(jī)事件確定會發(fā)生時自信息為0豌骏。
2. 單位:在自信息的定義中龟梦,對數(shù)的底決定自信息的單位,以2為底則記為比特(bit)窃躲,以e為底(自然對數(shù))則記為奈特(nat)计贰。
二 熵
1. 定義:傳送一個隨機(jī)變量x的平均信息量稱為隨機(jī)變量x的熵,它是表示隨機(jī)變量不確定性的度量蒂窒,是對所有可能發(fā)生的事件產(chǎn)生的信息量的期望躁倒。即自信息關(guān)于概率分布的期望:
當(dāng)概率為均勻分布時,熵最大(不確定性最大)洒琢,此時秧秉。
三 條件熵
1. 定義:在已知隨機(jī)變量X的條件下,隨機(jī)變量Y的不確定性衰抑。即給定X的條件下象迎,Y的條件概率分布的熵對X的數(shù)學(xué)期望:
四 相對熵(KL散度)
1. 定義:概率分布P對Q的相對熵是P和Q的對數(shù)差在P上的期望值:
2. 性質(zhì):如果P和Q兩個分布相同,則相對熵為0呛踊;相對熵恒大于等于0砾淌;相對熵具有不對稱性。
五 交叉熵
1. 定義:描述實際概率分布p(x)于期望概率分布的距離谭网,交叉熵越小拇舀,兩個概率分布越接近。
? ?--->??
在機(jī)器學(xué)習(xí)中蜻底,訓(xùn)練數(shù)據(jù)分布是固定的骄崩,即為常數(shù),在訓(xùn)練中總是希望在訓(xùn)練數(shù)據(jù)上模型學(xué)到的分布和真實數(shù)據(jù)分布越接近越好薄辅,即希望相對熵最小要拂,等價于交叉熵最小,等價于最大似然估計站楚。
參考:https://www.cnblogs.com/kyrieng/p/8694705.html
六 Softmax Loss
1. 定義:
M: 訓(xùn)練batchsize脱惰,:該訓(xùn)練batch中的第i個人臉圖片,
:
對應(yīng)的神經(jīng)網(wǎng)絡(luò)倒數(shù)第二層輸出窿春,
:
對應(yīng)的標(biāo)簽拉一,W和b:網(wǎng)絡(luò)最后一層(分類器)對應(yīng)的權(quán)重和偏置采盒。
2. 關(guān)于softmax的詳細(xì)解釋,參考:http://freemind.pluskid.org/machine-learning/softmax-vs-softmax-loss-numerical-stability/
七 交叉熵和Softmax Loss的關(guān)系
當(dāng)交叉熵中的概率為Softmax概率時蔚润,交叉熵等價于Softmax loss磅氨,證明如下:
對于輸入訓(xùn)練樣本x,其在訓(xùn)練集上的概率分布為p嫡纠,模型預(yù)測的softmax概率分布為q烦租,則
?
其中C表示所有可能的類別數(shù),表示輸入樣本x屬于類別j的概率除盏,對于機(jī)器學(xué)習(xí)的訓(xùn)練樣本而言叉橱,通常輸入樣本x有唯一的標(biāo)簽y,即概率分布p往往為:
者蠕,所以:
窃祝,j為x所屬的真實類別,
表示輸入樣本x被預(yù)測為真實類別(ground truth)的概率。所以對于M個輸入樣本而言,其平均交叉熵為:
时甚,其中
表示第i個輸入樣本糕再,
為模型預(yù)測第i個樣本屬于其真實類別j的概率玉转。由于概率分布q為softmax的概率分布,即
殴蹄,帶入平均交叉熵可得M個樣本的平均交叉熵等于
(Softmax loss)。