*本筆記選自吳軍《信息論40講》
重點(diǎn):
1信息熵
2香農(nóng)第一定律
信息熵就是要從N1個(gè)選項(xiàng)當(dāng)中確定一個(gè)正確選項(xiàng)所要用的最小信息量升薯。信息熵的提出者是信息理論先驅(qū)香農(nóng)(Claude·Elwood·Shannon)奴饮,計(jì)算方法如下:
信息熵 =
理解起來(lái)也很簡(jiǎn)單序愚,是每次將N1個(gè)選項(xiàng)分為兩半躺同,驗(yàn)證正確選項(xiàng)是否在其中一半章郁,這一bit信息就能排除一半的選項(xiàng)椿猎,再將包含正確選項(xiàng)的一半拿來(lái)再次驗(yàn)證危尿,如此往復(fù)就用最少的次數(shù)找到正確現(xiàn)象,而這個(gè)次數(shù)(也代表了信息量)正好就是朗和。
在信息編碼中错沽,所有的編碼進(jìn)制都有相同的信息熵。比如表示100以?xún)?nèi)的數(shù)眶拉,無(wú)論是用100個(gè)不同的符號(hào)來(lái)表示甥捺,還是用2個(gè)十進(jìn)制數(shù)來(lái)組合表示,兩種編碼一個(gè)字符的信息量相同镀层,因?yàn)檫@個(gè)量是由信息熵本身來(lái)決定的。
簡(jiǎn)單的計(jì)算下:確定100以?xún)?nèi)的只用一個(gè)符號(hào)即可皿曲,也就是說(shuō)這一個(gè)字符就代表了猜中100數(shù)中1個(gè)數(shù)的信息量唱逢。也就是
而這個(gè)信息量等于
后者正好是兩個(gè)十進(jìn)制字符的組合,也就是第二種表達(dá)方式屋休。
盡管不同的編碼方式所體現(xiàn)的信息量相同坞古,但這里面仍然有一個(gè)編碼有效性的問(wèn)題。這就是著名的香農(nóng)第一定律:
編碼長(zhǎng)度≥信息熵(信息量)/每個(gè)代碼的信息量
如果我們把進(jìn)制減小劫樟,就會(huì)增加編碼長(zhǎng)度痪枫,不利于使用。而理論上存在最優(yōu)的編碼方式叠艳,這個(gè)編碼方式的存在性由香農(nóng)給出了詳細(xì)的數(shù)學(xué)證明奶陈,在這里不詳細(xì)介紹。