數(shù)學(xué)之美--信息的度量和作用--信息熵虎囚,條件熵和交叉熵

保留初心,砥礪前行

這一章節(jié)講解的是關(guān)于信息的某些度量蔫磨。

我們常常說信息很多淘讥,或者信息較少,但卻很難說清楚信息到底有多少堤如。......直到1948年蒲列,Shannon在他著名的論文“通信的數(shù)學(xué)原理”中提出了“信息熵”的概念窒朋,才解決了信息的度量問題,并且量化出信息的作用蝗岖。

  • 信息熵

    首先侥猩,我們可以記住的是,信息熵一般使用符號(hào)H來表示抵赢,單位是比特欺劳。接下來,看一個(gè)書中給出的例子:
    當(dāng)我錯(cuò)過了上一屆世界杯的比賽瓣俯,而想知道誰奪得冠軍時(shí)杰标,我詢問一個(gè)知道比賽結(jié)果的觀眾。但是他并不愿意直接告訴我彩匕,而是讓我猜測(cè)腔剂,每猜一次他要收費(fèi)1元來告訴我,我的猜測(cè)是否正確驼仪。那么我要花多少錢才能知道誰是冠軍呢掸犬?
    我可以把球隊(duì)編號(hào),1到32號(hào)(當(dāng)然大家都知道世界杯是32支球隊(duì)绪爸,然而過幾年變成48支的時(shí)候我會(huì)回來修改的)然后我提問:“是在1到16號(hào)中嗎湾碎?”。如果他告訴我猜對(duì)了奠货,我會(huì)繼續(xù)問:“是在1到8號(hào)中嗎介褥?”。這種詢問方式大家都懂递惋,因此這樣詢問下去柔滔,只需要5次,也就是只需要5元錢就可以知道哪支球隊(duì)是冠軍萍虽。

    因此睛廊,世界杯冠軍這條消息的信息量可以看做是5元錢。
    我們回到數(shù)學(xué)上的問題杉编,使用比特來代替錢的概念(計(jì)算機(jī)中超全,一個(gè)比特是一位二進(jìn)制數(shù),一個(gè)字節(jié)就是8個(gè)比特)邓馒,這條信息的信息量是5比特嘶朱。如果有64支隊(duì)伍,就要多猜一次绒净,也就是6比特见咒。

    log232 = 5,log264 = 6

    以上是在所有隊(duì)伍的奪冠可能性相同的情況下的計(jì)算方法挂疆,一般化來說改览,對(duì)于任何一個(gè)隨機(jī)變量X,他的信息量缤言,也就是信息熵如下:

    H(X) = -∑P(x)logP(x)

    變量X的不確定性越大宝当,信息熵也就越大。也就是說胆萧,如果要把這件事搞清楚庆揩,所需要知道的信息量就越多。換句話說跌穗,信息熵就是信息的不確定性订晌。

    可以結(jié)合世界杯的例子進(jìn)行理解,參與的球隊(duì)越多蚌吸,需要猜測(cè)的次數(shù)就越多锈拨,32到64支,奪冠的不確定性變大羹唠,猜測(cè)次數(shù)由5次到6次奕枢,信息熵也就越大。

  • 條件熵

    一個(gè)事物內(nèi)部會(huì)存在隨機(jī)性 佩微,也就是不確定性(信息熵)缝彬,假定為U,而消除這個(gè)不確定性的唯一的辦法就是引入相關(guān)的信息I哺眯,并且引入的信息I要大于U才可以谷浅。如果I<U,則這些加入的信息只能消除一部分不確定性奶卓,不能完全消除不確定性:

    U' = U - I

    如果要證明為什么這些相關(guān)的信息可以消除信息的不確定性一疯,為此要引入一個(gè)新的概念,條件熵寝杖。

    上文中講到了信息熵违施,在知道某個(gè)隨機(jī)變量X和它的隨機(jī)分布后,就可以計(jì)算得到它的信息熵瑟幕。

    假設(shè)我們現(xiàn)在還知道另一個(gè)隨機(jī)變量Y的情況磕蒲,包括它和X一起出現(xiàn)的概率,也就是X和Y的聯(lián)合概率分布只盹;以及在Y取值的前提下辣往,X的概率分布,也就是條件概率分布殖卑。則可以定義在Y的條件下的條件熵為:

    H(X|Y) = -∑P(x,y)logP(x|y)

    以上的條件熵可以理解為站削,在知道了某些信息Y之后,X的信息熵是多少孵稽。H(X) >= H(X|Y)许起,因?yàn)樵谥懒艘恍℡的信息之后十偶,X的信息熵比只知道X的情況下下降了。也就是說與X相關(guān)的信息Y园细,消除了信息X的不確定性惦积。正如本節(jié)第一句話所言,相關(guān)的信息可以消除信息的不確定性猛频。

  • 互信息

    Shannon在信息論中提出了互信息的概念作為兩個(gè)隨機(jī)事件相關(guān)性的量化度量狮崩。

    互信息就是表示兩個(gè)隨機(jī)事件的相關(guān)性。

    它有一個(gè)看上去不知所云的表達(dá)式I(X;Y) = ∑P(x,y)log(p(x,y)/(P(x)P(y)))

    上邊這個(gè)公式看看就好鹿寻,接下來要理解的是:

    I(X;Y) = H(X) - H(X|Y)

    所謂的互信息睦柴,就是信息熵與條件熵相減。通俗來說毡熏,信息熵是要了解事件X所要知道的信息量(也就是X的不確定性)坦敌,減去在知道了Y之后仍然不確定的事,就得到了知道Y后可以確定的關(guān)于X的信息招刹,也就是X與Y的相關(guān)性恬试。

    當(dāng)X與Y完全相關(guān)時(shí),I(X;Y) 為1疯暑;當(dāng)他們完全不相關(guān)時(shí)训柴,I(X;Y) 為0。其余情況取值在0和1之間妇拯。

  • 交叉熵(相對(duì)熵)

    前面已經(jīng)介紹了信息熵和互信息幻馁,它們是信息論的基礎(chǔ),而信息論則在自然語言處理中扮演著指導(dǎo)性的角色越锈。
    交叉熵也用來衡量相關(guān)性仗嗦,但和變量的互信息不同,它用來衡量?jī)蓚€(gè)取值為正數(shù)的函數(shù)的相似性甘凭。

    互信息:X與Y的相關(guān)性稀拐,兩者是否有關(guān)系,有多少關(guān)系丹弱。
    交叉熵德撬,X與Y的相似性,它們兩個(gè)是否相同躲胳。

    交叉熵的定義如下:

    KL(f(x)||g(x)) = ∑f(x)·log(f(x)/g(x))

    同時(shí)蜓洪,存在以下三條結(jié)論:

    1. 對(duì)于兩個(gè)完全相同的函數(shù),它們的交叉熵等于0.
    2. 交叉熵越大坯苹,兩個(gè)函數(shù)差異越大隆檀;交叉熵越小,兩個(gè)函數(shù)差異越小。
    3. 對(duì)于概率分布或概率密度函數(shù)恐仑,如果取值均大于0泉坐,交叉熵可以度量?jī)蓚€(gè)隨機(jī)分布的差異性。(關(guān)于這條菊霜,大神們可以在評(píng)論區(qū)解釋一下嗎坚冀?)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末济赎,一起剝皮案震驚了整個(gè)濱河市鉴逞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌司训,老刑警劉巖构捡,帶你破解...
    沈念sama閱讀 212,816評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異壳猜,居然都是意外死亡勾徽,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門统扳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來喘帚,“玉大人,你說我怎么就攤上這事咒钟〈涤桑” “怎么了?”我有些...
    開封第一講書人閱讀 158,300評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵朱嘴,是天一觀的道長(zhǎng)倾鲫。 經(jīng)常有香客問我,道長(zhǎng)萍嬉,這世上最難降的妖魔是什么乌昔? 我笑而不...
    開封第一講書人閱讀 56,780評(píng)論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮壤追,結(jié)果婚禮上磕道,老公的妹妹穿的比我還像新娘。我一直安慰自己行冰,他們只是感情好溺蕉,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評(píng)論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著资柔,像睡著了一般焙贷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上贿堰,一...
    開封第一講書人閱讀 50,084評(píng)論 1 291
  • 那天辙芍,我揣著相機(jī)與錄音,去河邊找鬼。 笑死故硅,一個(gè)胖子當(dāng)著我的面吹牛庶灿,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播吃衅,決...
    沈念sama閱讀 39,151評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼往踢,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了徘层?” 一聲冷哼從身側(cè)響起峻呕,我...
    開封第一講書人閱讀 37,912評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎趣效,沒想到半個(gè)月后瘦癌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,355評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡跷敬,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評(píng)論 2 327
  • 正文 我和宋清朗相戀三年讯私,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片西傀。...
    茶點(diǎn)故事閱讀 38,809評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡斤寇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出拥褂,到底是詐尸還是另有隱情娘锁,我是刑警寧澤,帶...
    沈念sama閱讀 34,504評(píng)論 4 334
  • 正文 年R本政府宣布肿仑,位于F島的核電站致盟,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏尤慰。R本人自食惡果不足惜馏锡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望伟端。 院中可真熱鬧杯道,春花似錦、人聲如沸责蝠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽霜医。三九已至齿拂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間肴敛,已是汗流浹背署海。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評(píng)論 1 267
  • 我被黑心中介騙來泰國(guó)打工吗购, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人砸狞。 一個(gè)月前我還...
    沈念sama閱讀 46,628評(píng)論 2 362
  • 正文 我出身青樓捻勉,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親刀森。 傳聞我的和親對(duì)象是個(gè)殘疾皇子踱启,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容