一:定義
假設(shè)XX是一個(gè)離散型隨機(jī)變量桐款,其取值集合為χχ,概率分布函數(shù)p(x)=Pr(X=x),x∈χp(x)=Pr(X=x),x∈χ,則定義事件X=x0X=x0的信息量為:交叉熵(cross entropy)是深度學(xué)習(xí)中常用的一個(gè)概念带射,一般用來(lái)求目標(biāo)與預(yù)測(cè)值之間的差距丹墨。交叉熵是信息論中的一個(gè)概念,要想了解交叉熵的本質(zhì)璃谨,需要先從最基本的概念講起匠璧。
由于是概率所以p(x0)的取值范圍是[0,1],繪制為圖形如下:可見(jiàn)該函數(shù)符合我們對(duì)信息量的直覺(jué)
1.1熵
另一個(gè)問(wèn)題,對(duì)于某個(gè)事件夷恍,有n種可能性厘擂,每一種可能性都有一個(gè)概率p(xi)察蹲,這樣就可以計(jì)算出某一種可能性的信息量寂嘉。舉一個(gè)例子贡耽,假設(shè)你拿出了你的電腦,按下開(kāi)關(guān)指黎,會(huì)有三種可能性朋凉,下表列出了每一種可能的概率及其對(duì)應(yīng)的信息量。
現(xiàn)在有了信息量的定義醋安,而熵用來(lái)表示所有信息量的期望杂彭,即:
其中n代表所有的n種可能性墓毒,所以上面的問(wèn)題結(jié)果就是
然而有一類(lèi)比較特殊的問(wèn)題,比如投擲硬幣只有兩種可能亲怠,字朝上或花朝上所计。買(mǎi)彩票只有兩種可能,中獎(jiǎng)或不中獎(jiǎng)团秽。我們稱之為0-1分布問(wèn)題(二項(xiàng)分布的特例)主胧,對(duì)于這類(lèi)問(wèn)題,熵的計(jì)算方法可以簡(jiǎn)化為如下算式:
1.2:相對(duì)熵
相對(duì)熵又稱KL散度,如果我們對(duì)于同一個(gè)隨機(jī)變量 x 有兩個(gè)單獨(dú)的概率分布 P(x) 和 Q(x)习勤,我們可以使用 KL 散度(Kullback-Leibler (KL) divergence)來(lái)衡量這兩個(gè)分布的差異.
維基百科定義:In the context of machine learning, DKL(P‖Q) is often called the information gain achieved if P is used instead of Q.
即如果用P來(lái)描述目標(biāo)問(wèn)題踪栋,而不是用Q來(lái)描述目標(biāo)問(wèn)題,得到的信息增量图毕。
在機(jī)器學(xué)習(xí)中己英,P往往用來(lái)表示樣本的真實(shí)分布,比如[1,0,0]表示當(dāng)前樣本屬于第一類(lèi)吴旋。Q用來(lái)表示模型所預(yù)測(cè)的分布,比如[0.7,0.2,0.1] 厢破。直觀的理解就是如果用P來(lái)描述樣本荣瑟,那么就非常完美,而用Q來(lái)描述樣本,雖然可以大致描述摩泪,但是不是那么的完美笆焰,信息量不足,需要額外的一些“信息增量”才能達(dá)到和P一樣完美的描述见坑。如果我們的Q通過(guò)反復(fù)訓(xùn)練嚷掠,也能完美的描述樣本,那么就不再需要額外的“信息增量”荞驴,Q等價(jià)于P不皆。
KL散度的計(jì)算公式:
n為事件的所有可能性,DKL的值越小,表示q分布和p分布越接近熊楼。
1.3 交叉熵
由上面公式可以推出:
等式的前一部分恰巧就是p的熵霹娄,等式的后一部分,就是交叉熵:
在機(jī)器學(xué)習(xí)中鲫骗,我們需要評(píng)估label和predicts之間的差距犬耻,使用KL散度剛剛好,即DKL(y||y^)执泰,由于KL散度中的前一部分?H(y)不變枕磁,故在優(yōu)化過(guò)程中,只需要關(guān)注交叉熵就可以了术吝。
所以一般在機(jī)器學(xué)習(xí)中直接用用交叉熵做loss计济,評(píng)估模型茸苇。
二:交叉熵的應(yīng)用
三:總結(jié)
3.1 參考
https://www.zhihu.com/question/65288314/answer/244557337
https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/
https://www.zhihu.com/question/41252833/answer/195901726