[精] 信息熵的研究

一瘩欺、熵的概念

為了理解信息熵蜘腌,讓我們先簡單了解一下什么是熵

熵沫屡,英文單詞是 Entropy,是熱力學(xué)中表征物質(zhì)狀態(tài)的參量之一撮珠,用符號S表示沮脖,其物理意義是體系混亂程度的度量金矛。提到這個概念必須要關(guān)注一下熱力學(xué)第二定律。

熱力學(xué)第一定律(the first law of thermodynamics?)

熱量可以從一個物體傳遞到另一個物體勺届,也可以與機(jī)械能或其他能量互相轉(zhuǎn)換驶俊,但是在轉(zhuǎn)換過程中,能量的總值保持不變免姿。

熱力學(xué)第二定律(the second law of thermodynamics)

不可能把熱從低溫物體傳到高溫物體而不產(chǎn)生其他影響饼酿,或不可能從單一熱源取熱使之完全轉(zhuǎn)換為有用的功而不產(chǎn)生其他影響,或不可逆熱力過程中熵的微增量總是大于零胚膊,又稱“熵增定律”故俐,表明了在自然過程中,一個孤立系統(tǒng)的總混亂度(即“熵”)不會減小紊婉。

1877年药版,玻爾茲曼(Ludwig Edward Boltzmann)提出了著名的“玻爾茲曼熵公式”,認(rèn)為熱力學(xué)熵和微觀狀態(tài)數(shù)目的對數(shù)之間存在聯(lián)系喻犁,并給出了相應(yīng)的表達(dá)式:

S = k lnW

其中槽片,S 是宏觀系統(tǒng)熵值,是分子運(yùn)動或排列混亂程度的衡量標(biāo)尺肢础;k 是玻爾茲曼常量还栓;W是可能的微觀態(tài)數(shù),W越大系統(tǒng)就越混亂無序乔妈。

二蝙云、信息熵的概念和計(jì)算公式

1948年,香濃(Claude Elwood Shannon)在他著名的《通信的數(shù)學(xué)原理》(英文名稱是《A Mathematical Theory of Communication》)論文中指出“信息是用來消除隨機(jī)不確定性的東西”路召,并在熱力學(xué)中熵的概念基礎(chǔ)上提出了“信息熵”的概念勃刨,用來解決信息的度量問題。

對于信息熵是什么股淡,先列一個簡單描述便于讀者有一個感性理解:

信息熵可以認(rèn)為是系統(tǒng)中所含有的平均信息量的大小身隐,也可以認(rèn)為是描述一個系統(tǒng)需要的最小存儲空間長度,即至少用多少個bit的存儲空間就可以描述這個系統(tǒng)唯灵。

那么信息熵是如何使用公式進(jìn)行量化定義的呢贾铝?我們可以通過以下四步進(jìn)行推導(dǎo):

1、熱力學(xué)中的熵表征的是分子排列和運(yùn)動混亂程度的度量埠帕,香濃使用信息熵來衡量信源的不確定度垢揩。所以想要定義信息熵,最核心的問題就是解決不確定度的函數(shù)描述敛瓷。

2叁巨、如何定義用來描述不確定性的函數(shù) f()

不確定性函數(shù)應(yīng)當(dāng)滿足如下兩種條件:

<1> 單調(diào)性 —— 通常情況下,一個信源發(fā)送出什么符號是不確定的呐籽,可以通過其出現(xiàn)的概率來對它進(jìn)行度量锋勺。概率大蚀瘸,出現(xiàn)的機(jī)會多,不確定性惺鳌贮勃;反之概率小,出現(xiàn)的機(jī)會少苏章,不確定性大寂嘉。所以不確定性函數(shù) f 是出現(xiàn)概率 p 的單調(diào)遞減函數(shù)。

<2> 累加性 —— 符號的信息是可以累加的布近,所以兩個獨(dú)立符號所產(chǎn)生的不確定性應(yīng)該等于各自的不確定性之和垫释,即 f(p1, p2) = f(p1) + f(p2)丝格,這稱為不確定性的累加性撑瞧。

<3> 非負(fù)性 —— 從感性認(rèn)知上我們不難理解,在增加每一個字符的過程中显蝌,信息總量是在不斷增多的预伺。并且我們也可以簡單推導(dǎo)一下,由累加性可知曼尊,由 n 個字符組成的信息比由 n-1 個字符組成的信息多傳遞了一個 f(n)酬诀,即 f(n1, n2 .... n-2, n-1, n) = f(n1, n2 .... n-2, n-1) + f(n),而從感性上我們就能明白由 n 個字符組成的信息的不確定性是一定不小于由 n-1 個字符組成的信息的骆撇,所以 f(n) = f(n1, n2 .... n-2, n-1, n) - f(n1, n2 .... n-2, n-1) >= 0瞒御,那么就證明了非負(fù)性。

所以我們發(fā)現(xiàn)使用 log 對數(shù)函數(shù)可以滿足上述兩個條件來描述不確定性函數(shù)神郊。即對于單個符號肴裙,當(dāng)它的出現(xiàn)概率為p時,我們定義使用下述公式衡量它的不確定性:

通過畫圖來直觀感受一下單個字符情況下的不確定性函數(shù) f():

單個字符的不確定函數(shù)

如上圖涌乳,橫坐標(biāo)為單個字符的出現(xiàn)概率蜻懦,區(qū)間在(0~1),縱坐標(biāo)為不確定性夕晓,大于零宛乃。

3、如何定義用來描述信息熵的函數(shù) H()

在 f() 的基礎(chǔ)之上蒸辆,我們再考慮一下征炼,一個信源往往是由有多個字符組成,那么運(yùn)用累加性就可以計(jì)算一個信源總共的不確定性躬贡。若我們假設(shè) X 代表一個信源谆奥,由字符 x1, x2 .... xn 組成,分別對應(yīng)著 p1, p2 .... pn 的出現(xiàn)概率逗宜,則信源的總不確定性可以表示為:

而我們需要研究的信息熵被定義為是一個信源的所有可能發(fā)生情況的平均不確定性雄右,那么我們就可以在累加的過程中空骚,對每一個字符的不確定性增加一個出現(xiàn)概率作為其權(quán)重,這樣也就得到了我們期待的信息熵公式擂仍,如下所示:

通過畫圖來直觀感受一下單個字符情況下的不確定性函數(shù) H():

單個字符的信息熵函數(shù)

如上圖囤屹,橫坐標(biāo)為單個字符的出現(xiàn)概率,區(qū)間在(0~1)逢渔,縱坐標(biāo)為信息熵肋坚,大于零。

三肃廓、信息熵的應(yīng)用

1智厌、對國際各種語言的信息熵有初步的認(rèn)知

信息熵的基本目的,是找出某種符號系統(tǒng)的信息量和冗余度之間的關(guān)系盲赊,以便能用最小的成本和消耗來實(shí)現(xiàn)最高效率的數(shù)據(jù)儲存铣鹏、管理和傳遞。

二十世紀(jì)五十年代哀蘑,現(xiàn)代信息論介紹到中國诚卸;七十年代,我國科學(xué)家完成了中文漢字字符信息熵的初步計(jì)算工作绘迁;八十年代又做了更完整的計(jì)算合溺。他們的基本方法是:逐漸擴(kuò)大漢字容量,隨著漢字容量的增大缀台,信息熵的增加趨緩棠赛;漢字增加到 12370 以后,不再使信息熵有明顯的增加膛腐。通過數(shù)理語言學(xué)中著名的齊普夫定律(ZIPFW'S LAW)核算睛约,我國科學(xué)家指出,漢字的容量極限是 12366 個漢字依疼,漢字的平均信息熵的值(平均信息量)是 9.65 比特痰腮。這是當(dāng)今世界上信息量最大的文字符號系統(tǒng)。下面是聯(lián)合國五種工作語言文字的信息熵比較:(數(shù)據(jù)來源張飛利的《漢語的“信息熵”劣勢》)

法文:3.98 bit

西班牙文:4.01 bit

英文:4.03 bit

俄文:4.35 bit

中文:9.65 bit

2律罢、在自然語言處理中膀值,作為單詞的權(quán)重使用,可以達(dá)到提取和過濾的作用

四误辑、信息熵的延伸

1沧踏、條件熵

2、相對熵 / K-L散度

3巾钉、交叉熵

4翘狱、互信息


Reference:

1、https://baike.baidu.com/item/熵/101181?fr=aladdin

2砰苍、https://baike.baidu.com/item/熱力學(xué)第一定律/476312?fr=aladdin

3潦匈、https://baike.baidu.com/item/熱力學(xué)第二定律/473407?fr=aladdin

4阱高、https://baike.baidu.com/item/玻爾茲曼/5480026?fr=aladdin

5、https://baike.baidu.com/item/玻爾茲曼公式/7727050?fr=aladdin

6茬缩、https://baike.baidu.com/item/信息熵/7302318?fr=aladdin

7赤惊、https://www.zhihu.com/question/22178202

8、https://blog.csdn.net/saltriver/article/details/53056816

9凰锡、https://baike.baidu.com/item/克勞德·艾爾伍德·香農(nóng)/10588593?fr=aladdin

10未舟、http://www.doc88.com/p-90199901638.html

11、https://www.cnblogs.com/yinheyi/p/6843009.html

12掂为、https://wenku.baidu.com/view/52ff026cf121dd36a22d82aa.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末裕膀,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子勇哗,更是在濱河造成了極大的恐慌昼扛,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件智绸,死亡現(xiàn)場離奇詭異野揪,居然都是意外死亡访忿,警方通過查閱死者的電腦和手機(jī)瞧栗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來海铆,“玉大人迹恐,你說我怎么就攤上這事∥哉澹” “怎么了殴边?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長珍语。 經(jīng)常有香客問我锤岸,道長,這世上最難降的妖魔是什么板乙? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任是偷,我火速辦了婚禮,結(jié)果婚禮上募逞,老公的妹妹穿的比我還像新娘蛋铆。我一直安慰自己,他們只是感情好放接,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布刺啦。 她就那樣靜靜地躺著,像睡著了一般纠脾。 火紅的嫁衣襯著肌膚如雪玛瘸。 梳的紋絲不亂的頭發(fā)上蜕青,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天,我揣著相機(jī)與錄音糊渊,去河邊找鬼市咆。 笑死,一個胖子當(dāng)著我的面吹牛再来,可吹牛的內(nèi)容都是我干的蒙兰。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼芒篷,長吁一口氣:“原來是場噩夢啊……” “哼搜变!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起针炉,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤挠他,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后篡帕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體殖侵,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年镰烧,在試婚紗的時候發(fā)現(xiàn)自己被綠了拢军。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡怔鳖,死狀恐怖茉唉,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情结执,我是刑警寧澤度陆,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站献幔,受9級特大地震影響懂傀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蜡感,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一蹬蚁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧铸敏,春花似錦缚忧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春球榆,著一層夾襖步出監(jiān)牢的瞬間朽肥,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工持钉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留衡招,地道東北人。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓每强,卻偏偏與公主長得像始腾,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子空执,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容