交叉熵產(chǎn)生于信息論里面的信息壓縮編碼技術(shù),但是它后來(lái)演變成為從博弈論到機(jī)器學(xué)習(xí)等其他領(lǐng)域里的重要技術(shù)手段翘瓮。
1.什么是信息量稿茉?
假設(shè)X是一個(gè)離散型隨機(jī)變量,其取值集合為S掏导,概率分布函數(shù)為p(x)=Pr(X=x),x∈S享怀,我們定義事件X=x0的信息量為:I(x0)=?log(p(x0)),(對(duì)數(shù)函數(shù)底為10時(shí)可略寫(xiě))可以理解為趟咆,一個(gè)事件發(fā)生的概率越大添瓷,則它所攜帶的信息量就越小,而當(dāng)p(x0)=1時(shí)值纱,熵將等于0鳞贷,也就是說(shuō)該事件的發(fā)生不會(huì)導(dǎo)致任何信息量的增加。
舉個(gè)例子虐唠,小明平時(shí)不愛(ài)學(xué)習(xí)搀愧,考試經(jīng)常不及格,而小王是個(gè)勤奮學(xué)習(xí)的好學(xué)生疆偿,經(jīng)常得滿分咱筛,所以我們可以做如下假設(shè):
事件A:小明考試及格,對(duì)應(yīng)的概率P(xA)=0.1杆故,信息量為I(xA)=?log(0.1)=3.3219
事件B:小王考試及格迅箩,對(duì)應(yīng)的概率P(xB)=0.999,信息量為I(xB)=?log(0.999)=0.0014
可以看出处铛,結(jié)果非常符合直觀:小明及格的可能性很低(十次考試只有一次及格)沙热,因此如果某次考試及格了(大家都會(huì)說(shuō):XXX竟然及格了2嬖俊),必然會(huì)引入較大的信息量篙贸,對(duì)應(yīng)的I值也較高投队。而對(duì)于小王而言,考試及格是大概率事件爵川,在事件B發(fā)生前敷鸦,大家普遍認(rèn)為事件B的發(fā)生幾乎是確定的,因此當(dāng)某次考試小王及格這個(gè)事件發(fā)生時(shí)并不會(huì)引入太多的信息量寝贡,相應(yīng)的I值也非常的低扒披。
2.什么是熵?
熵其實(shí)是信息量的期望值圃泡,它是一個(gè)隨機(jī)變量的確定性的度量碟案。熵越大,變量的取值越不確定颇蜡,反之就越確定价说。
對(duì)于一個(gè)隨機(jī)變量X而言,它的所有可能取值的信息量的期望(E[I(x)])就稱為熵风秤。
X為離散型變量:
X為連續(xù)型變量:
PS:為了保證有效性鳖目,這里約定當(dāng)p(x)→0時(shí),有p(x)logp(x)→0(級(jí)數(shù)收斂)
當(dāng)X為0-1分布時(shí),熵與概率p的關(guān)系如下圖:
3.什么是相對(duì)熵狸捅?
相對(duì)熵(relative entropy)又稱為KL散度(Kullback-Leibler divergence),KL距離累提,是兩個(gè)隨機(jī)分布間距離的度量尘喝。記為DKL(p||q)。它度量當(dāng)真實(shí)分布為p時(shí)刻恭,假設(shè)分布q的無(wú)效性。
上式最后的Hp(q)表示在p分布下扯夭,使用q進(jìn)行編碼需要的bit數(shù)鳍贾,而H(p)表示對(duì)真實(shí)分布p所需要的最小編碼bit數(shù)〗幌矗基于此骑科,相對(duì)熵的意義就很明確了:DKL(p||q)表示在真實(shí)分布為p的前提下,使用q分布進(jìn)行編碼相對(duì)于使用真實(shí)分布p進(jìn)行編碼(即最優(yōu)編碼)所多出來(lái)的bit數(shù)构拳。
咆爽?梁棠??斗埂?符糊??呛凶?什么叫最小編碼數(shù)男娄,為什么?
PS:對(duì)數(shù)函數(shù)的運(yùn)算性質(zhì):
4.什么是交叉熵漾稀?
從相對(duì)熵后就沒(méi)太看懂
參考:http://blog.csdn.net/rtygbwwwerr/article/details/50778098