一瘩欺、熵的概念
為了理解信息熵蜘腌,讓我們先簡單了解一下什么是熵
熵沫屡,英文單詞是 Entropy,是熱力學(xué)中表征物質(zhì)狀態(tài)的參量之一撮珠,用符號S表示沮脖,其物理意義是體系混亂程度的度量金矛。提到這個概念必須要關(guān)注一下熱力學(xué)第二定律。
熱力學(xué)第一定律(the first law of thermodynamics?)
熱量可以從一個物體傳遞到另一個物體勺届,也可以與機(jī)械能或其他能量互相轉(zhuǎn)換驶俊,但是在轉(zhuǎn)換過程中,能量的總值保持不變免姿。
熱力學(xué)第二定律(the second law of thermodynamics)
不可能把熱從低溫物體傳到高溫物體而不產(chǎn)生其他影響饼酿,或不可能從單一熱源取熱使之完全轉(zhuǎn)換為有用的功而不產(chǎn)生其他影響,或不可逆熱力過程中熵的微增量總是大于零胚膊,又稱“熵增定律”故俐,表明了在自然過程中,一個孤立系統(tǒng)的總混亂度(即“熵”)不會減小紊婉。
1877年药版,玻爾茲曼(Ludwig Edward Boltzmann)提出了著名的“玻爾茲曼熵公式”,認(rèn)為熱力學(xué)熵和微觀狀態(tài)數(shù)目的對數(shù)之間存在聯(lián)系喻犁,并給出了相應(yīng)的表達(dá)式:
S = k lnW
其中槽片,S 是宏觀系統(tǒng)熵值,是分子運(yùn)動或排列混亂程度的衡量標(biāo)尺肢础;k 是玻爾茲曼常量还栓;W是可能的微觀態(tài)數(shù),W越大系統(tǒng)就越混亂無序乔妈。
二蝙云、信息熵的概念和計(jì)算公式
1948年,香濃(Claude Elwood Shannon)在他著名的《通信的數(shù)學(xué)原理》(英文名稱是《A Mathematical Theory of Communication》)論文中指出“信息是用來消除隨機(jī)不確定性的東西”路召,并在熱力學(xué)中熵的概念基礎(chǔ)上提出了“信息熵”的概念勃刨,用來解決信息的度量問題。
對于信息熵是什么股淡,先列一個簡單描述便于讀者有一個感性理解:
信息熵可以認(rèn)為是系統(tǒng)中所含有的平均信息量的大小身隐,也可以認(rèn)為是描述一個系統(tǒng)需要的最小存儲空間長度,即至少用多少個bit的存儲空間就可以描述這個系統(tǒng)唯灵。
那么信息熵是如何使用公式進(jìn)行量化定義的呢贾铝?我們可以通過以下四步進(jìn)行推導(dǎo):
1、熱力學(xué)中的熵表征的是分子排列和運(yùn)動混亂程度的度量埠帕,香濃使用信息熵來衡量信源的不確定度垢揩。所以想要定義信息熵,最核心的問題就是解決不確定度的函數(shù)描述敛瓷。
2叁巨、如何定義用來描述不確定性的函數(shù) f()
不確定性函數(shù)應(yīng)當(dāng)滿足如下兩種條件:
<1> 單調(diào)性 —— 通常情況下,一個信源發(fā)送出什么符號是不確定的呐籽,可以通過其出現(xiàn)的概率來對它進(jìn)行度量锋勺。概率大蚀瘸,出現(xiàn)的機(jī)會多,不確定性惺鳌贮勃;反之概率小,出現(xiàn)的機(jī)會少苏章,不確定性大寂嘉。所以不確定性函數(shù) f 是出現(xiàn)概率 p 的單調(diào)遞減函數(shù)。
<2> 累加性 —— 符號的信息是可以累加的布近,所以兩個獨(dú)立符號所產(chǎn)生的不確定性應(yīng)該等于各自的不確定性之和垫释,即 f(p1, p2) = f(p1) + f(p2)丝格,這稱為不確定性的累加性撑瞧。
<3> 非負(fù)性 —— 從感性認(rèn)知上我們不難理解,在增加每一個字符的過程中显蝌,信息總量是在不斷增多的预伺。并且我們也可以簡單推導(dǎo)一下,由累加性可知曼尊,由 n 個字符組成的信息比由 n-1 個字符組成的信息多傳遞了一個 f(n)酬诀,即 f(n1, n2 .... n-2, n-1, n) = f(n1, n2 .... n-2, n-1) + f(n),而從感性上我們就能明白由 n 個字符組成的信息的不確定性是一定不小于由 n-1 個字符組成的信息的骆撇,所以 f(n) = f(n1, n2 .... n-2, n-1, n) - f(n1, n2 .... n-2, n-1) >= 0瞒御,那么就證明了非負(fù)性。
所以我們發(fā)現(xiàn)使用 log 對數(shù)函數(shù)可以滿足上述兩個條件來描述不確定性函數(shù)神郊。即對于單個符號肴裙,當(dāng)它的出現(xiàn)概率為p時,我們定義使用下述公式衡量它的不確定性:
通過畫圖來直觀感受一下單個字符情況下的不確定性函數(shù) f():
如上圖涌乳,橫坐標(biāo)為單個字符的出現(xiàn)概率蜻懦,區(qū)間在(0~1),縱坐標(biāo)為不確定性夕晓,大于零宛乃。
3、如何定義用來描述信息熵的函數(shù) H()
在 f() 的基礎(chǔ)之上蒸辆,我們再考慮一下征炼,一個信源往往是由有多個字符組成,那么運(yùn)用累加性就可以計(jì)算一個信源總共的不確定性躬贡。若我們假設(shè) X 代表一個信源谆奥,由字符 x1, x2 .... xn 組成,分別對應(yīng)著 p1, p2 .... pn 的出現(xiàn)概率逗宜,則信源的總不確定性可以表示為:
而我們需要研究的信息熵被定義為是一個信源的所有可能發(fā)生情況的平均不確定性雄右,那么我們就可以在累加的過程中空骚,對每一個字符的不確定性增加一個出現(xiàn)概率作為其權(quán)重,這樣也就得到了我們期待的信息熵公式擂仍,如下所示:
通過畫圖來直觀感受一下單個字符情況下的不確定性函數(shù) H():
如上圖囤屹,橫坐標(biāo)為單個字符的出現(xiàn)概率,區(qū)間在(0~1)逢渔,縱坐標(biāo)為信息熵肋坚,大于零。
三肃廓、信息熵的應(yīng)用
1智厌、對國際各種語言的信息熵有初步的認(rèn)知
信息熵的基本目的,是找出某種符號系統(tǒng)的信息量和冗余度之間的關(guān)系盲赊,以便能用最小的成本和消耗來實(shí)現(xiàn)最高效率的數(shù)據(jù)儲存铣鹏、管理和傳遞。
二十世紀(jì)五十年代哀蘑,現(xiàn)代信息論介紹到中國诚卸;七十年代,我國科學(xué)家完成了中文漢字字符信息熵的初步計(jì)算工作绘迁;八十年代又做了更完整的計(jì)算合溺。他們的基本方法是:逐漸擴(kuò)大漢字容量,隨著漢字容量的增大缀台,信息熵的增加趨緩棠赛;漢字增加到 12370 以后,不再使信息熵有明顯的增加膛腐。通過數(shù)理語言學(xué)中著名的齊普夫定律(ZIPFW'S LAW)核算睛约,我國科學(xué)家指出,漢字的容量極限是 12366 個漢字依疼,漢字的平均信息熵的值(平均信息量)是 9.65 比特痰腮。這是當(dāng)今世界上信息量最大的文字符號系統(tǒng)。下面是聯(lián)合國五種工作語言文字的信息熵比較:(數(shù)據(jù)來源張飛利的《漢語的“信息熵”劣勢》)
法文:3.98 bit
西班牙文:4.01 bit
英文:4.03 bit
俄文:4.35 bit
中文:9.65 bit
2律罢、在自然語言處理中膀值,作為單詞的權(quán)重使用,可以達(dá)到提取和過濾的作用
四误辑、信息熵的延伸
1沧踏、條件熵
2、相對熵 / K-L散度
3巾钉、交叉熵
4翘狱、互信息
Reference:
1、https://baike.baidu.com/item/熵/101181?fr=aladdin
2砰苍、https://baike.baidu.com/item/熱力學(xué)第一定律/476312?fr=aladdin
3潦匈、https://baike.baidu.com/item/熱力學(xué)第二定律/473407?fr=aladdin
4阱高、https://baike.baidu.com/item/玻爾茲曼/5480026?fr=aladdin
5、https://baike.baidu.com/item/玻爾茲曼公式/7727050?fr=aladdin
6茬缩、https://baike.baidu.com/item/信息熵/7302318?fr=aladdin
7赤惊、https://www.zhihu.com/question/22178202
8、https://blog.csdn.net/saltriver/article/details/53056816
9凰锡、https://baike.baidu.com/item/克勞德·艾爾伍德·香農(nóng)/10588593?fr=aladdin
10未舟、http://www.doc88.com/p-90199901638.html
11、https://www.cnblogs.com/yinheyi/p/6843009.html
12掂为、https://wenku.baidu.com/view/52ff026cf121dd36a22d82aa.html