1. 熵的由來
熵最早出現(xiàn)于熱力學(xué)中,是衡量分子混亂程度的物理量卷玉。它表明宇宙中一切事物的總趨勢都朝著混亂無序的狀態(tài)發(fā)展哨颂,且是不可逆的。
2. 信息熵
1948年信息論之父香農(nóng)將熵引入到了信息論之中相种,信息從此能被量化威恼,信息熵正式登場。
信息熵既是對不確定性的度量寝并,也是對信息量的度量箫措。
試想,事物的不確定性很大衬潦,我們對它了解很少甚至一無所知斤蔓,那么當(dāng)我們從“一無所知”變?yōu)椤?strong>胸有成竹”時,我們一定得到了有關(guān)它的大量信息镀岛,即不確定性 (越大) 弦牡,則傳遞信息量(越大)。當(dāng)然也可認(rèn)為不確定性漂羊,事物本身信息量驾锰。為方便記憶,一般我們?nèi)∏罢摺?/p>
2.1 為什么信息熵公式長這樣走越?
定義信息熵符號為 (entropy)椭豫,隨機(jī)變量為,則
假定我們不知道信息熵的公式,想從信息熵的性質(zhì)出發(fā)來推斷到底是個什么樣的函數(shù)形式赏酥。但在此之前喳整,我們不妨先忘掉信息熵,只關(guān)注信息量(又稱為自信息今缚,)算柳。本文用表示隨機(jī)事件發(fā)生時傳遞的信息量。
由前文可知姓言,信息量與不確定性的關(guān)系應(yīng)為單調(diào)遞增或單調(diào)遞減(人為定義)瞬项,所以應(yīng)該能由隨機(jī)變量的概率分布表示,這里的為中的某個隨機(jī)事件何荚,或者說取值囱淋。
我們想從信息量的性質(zhì)出發(fā)得到一個度量信息量的公式,那么它應(yīng)該具有如下性質(zhì):
- 有兩個獨(dú)立隨機(jī)事件妥衣,則同時發(fā)生所包含的信息量應(yīng)該等于單獨(dú)發(fā)生時所包含的信息量之和税手。
- 不確定性越大,信息量越大需纳。 (人為定義)
- 信息量大于0芦倒。 (人為定義)
由性質(zhì)1可得:
又因?yàn)?img class="math-block" src="https://math.jianshu.com/math?formula=p(x%2Cy)%3Dp(x)p(y)" alt="p(x,y)=p(x)p(y)" mathimg="1">
所以
看到這里,我們應(yīng)該能想到中包含對數(shù)形式不翩,不妨設(shè)
其中是未知函數(shù)兵扬。性質(zhì)中不知底數(shù)大小,但可知單調(diào)遞增口蝠,因此假設(shè)為2器钟。為求簡潔,之后公式中省略底數(shù)妙蔗。
按上述公式展開傲霸,得
要使上述等式對任意獨(dú)立的隨機(jī)事件都成立眉反,只能是
因此 阿爾法為任意常數(shù)狞谱。
由此我們得到了信息量的表達(dá)式
再結(jié)合性質(zhì)3,可知禁漓,并且這個系數(shù)對我們度量信息量并無太大影響跟衅,因?yàn)樗械碾S機(jī)事件度量信息量時都要乘上這個系數(shù),"一視同仁"播歼。那么就設(shè)為最簡單的吧伶跷。底數(shù)大小同理掰读。
有了信息量的公式,我們發(fā)現(xiàn)它是隨機(jī)事件發(fā)生概率的對數(shù)值叭莫。假設(shè)有一個隨機(jī)變量蹈集,它包含了很多個隨機(jī)事件,我們想知道這個隨機(jī)變量帶給了我們多少信息量雇初,但我們事先不知道這個隨機(jī)變量的值是多少拢肆,只能預(yù)先估計(jì),對隨機(jī)變量所有事件都按概率取值并計(jì)算信息量靖诗,也就是的信息量期望郭怪,它也被稱呼為信息熵。
至此我們得到了信息熵的表達(dá)式刊橘,它是對隨機(jī)變量不確定性的度量鄙才,是對所有可能發(fā)生的隨機(jī)事件的期望。
從公式可知促绵,隨機(jī)變量的取值個數(shù)越多攒庵,狀態(tài)數(shù)也就越多,信息熵就越大败晴,混亂程度就越大浓冒。當(dāng)隨機(jī)分布為均勻分布時,熵最大尖坤。信息熵只與隨機(jī)變量的分布有關(guān)稳懒,與其值無關(guān)。
2.2 聯(lián)合熵
上述是一元隨機(jī)變量糖驴,我們把它推廣到多元隨機(jī)變量
2.3 條件熵
在條件分布的基礎(chǔ)上僚祷,來定義條件熵佛致,已知隨機(jī)變量取了某個值贮缕,那么隨機(jī)變量在條件下的熵就是
現(xiàn)在不知道隨機(jī)變量取了什么值,需要預(yù)先估計(jì)的熵對的期望俺榆,因此
通俗來說感昼,如果同時取某兩個事先不知道的值罐脊,那么它的信息熵(平均信息量)有這么多定嗓,而單獨(dú)取值時它的信息熵(平均信息量)是,自然就是在已知的條件下的平均信息量萍桌。
注意宵溅,上述并沒有假設(shè)為相互獨(dú)立上炎,我們前面假設(shè)的是隨機(jī)事件相互獨(dú)立,針對的是信息量(),二者并不矛盾寇损。進(jìn)一步凸郑,如果假設(shè)獨(dú)立矛市,則芙沥。
3.結(jié)語
將熵引用到信息論中是一個影響深遠(yuǎn)的決策。下篇文章我們將看到諸多以熵為基礎(chǔ)的公式浊吏、模型發(fā)揮真正威力而昨,~