第6章 信息的度量和作用

以下內(nèi)容學習、摘錄自《數(shù)學之美》

我們常常說信息很多朋其,或者信息較少王浴,但卻很難說清楚信息到底有多少。比如梅猿,一本50多萬字的中文書《史記》到底有多少信息量氓辣。我們也常說信息有用,那么它的作用是如何客觀袱蚓、定量地體現(xiàn)出來的呢?信息用途的背后是否有理論基礎(chǔ)呢?對于這兩個問題钞啸,幾千年來都沒有人給出很好的解答。直到1948年喇潘,香農(nóng)( ClaudeShannon)在他著名的論文“通信的數(shù)學原理”( A Mathematic Theory ofCommunication)中提出了“信息熵”的概念体斩,才解決了信息的度量問題,并且量化出信息的作用颖低。

一條信息的信息量與其不確定性有著直接的關(guān)系絮吵。比如說,我們要搞清楚一件非常非常不確定的事忱屑,或是我們一無所知的事情蹬敲,就需要了解大量的信息。相反莺戒,如果已對某件事了解較多伴嗡,則不需要太多的信息就能把它搞清楚。所以从铲,從這個角度來看瘪校,可以認為,信息量就等于不確定性的多少名段。

那么如何量化信息量的度量呢?來看一個例子阱扬。大家都很關(guān)心誰會是世界杯足球賽冠軍。假如我錯過了看世界杯吉嫩,賽后我問一個知道比賽結(jié)果的觀眾“哪支球隊是冠軍”?他不愿意直接告訴我价认,而讓我猜嗅定,并且我每猜一次自娩,他要收一元錢才肯告訴我是否猜對了,那么我要掏多少錢才能知道誰是冠軍呢?我可以把球隊編上號渠退,從1到32忙迁,然后提問:“冠軍球隊在1-16號中嗎?”假如他告訴我猜對了,我會接著問:“冠軍在1-8號中嗎?”假如他告訴我猜錯了碎乃,我自然知道冠軍隊在9-16號中姊扔。這樣只需要五次,我就能知道哪支球隊是冠軍梅誓。所以恰梢,誰是世界杯冠軍這條消息的信息量只值5塊錢佛南。

當然,香農(nóng)不是用錢嵌言,而是用“比特”(Bit)這個概念來度量信息量嗅回。一個比特是一位二進制數(shù),在計算機中摧茴,一個字節(jié)就是8比特绵载。在上面的例子中,這條消息的信息量是5比特苛白。(如果有朝一日有64支球隊進人決賽階段的比賽娃豹,那么“誰是世界杯冠軍”的信息量就是6比特,因為要多猜一次购裙。)讀者可能已經(jīng)發(fā)現(xiàn)懂版,信息量的比特數(shù)和對數(shù)函數(shù)log有關(guān):log32=5,log64=6躏率。

有些讀者會發(fā)現(xiàn)實際上可能不需要猜五次就能猜出誰是冠軍定续,因為像西班牙、巴西禾锤、德國私股、意大利這樣的球隊奪得冠軍的可能性比日本、南非恩掷、韓國等球隊大得多倡鲸。因此,第一次猜測時不需要把32支球隊等分成兩個組黄娘,而可以把少數(shù)幾支最可能的球隊分成一組峭状,把其他球隊分成另一組。然后猜冠軍球隊是否在那幾支熱門隊中逼争。重復這樣的過程优床,根據(jù)奪冠概率對余下候選球隊分組,直至找到冠軍隊誓焦。這樣胆敞,也許三次或四次就猜出結(jié)果。因此杂伟,當每支球隊奪冠的可能性(概率)不等時移层,“誰是世界杯冠軍”的信息量比5比特少。

香農(nóng)指出赫粥,它的準確信息量應該是:
H=-(P1·logP1+P2·logP2+…+P32·logP32)
其中观话,P1,P2越平,…频蛔,P32分別是這32支球隊奪冠的概率灵迫。香農(nóng)把它稱為“信息熵”(Entropy),一般用符號H表示晦溪,單位是比特龟再。

有了“熵”這個概念,就可以回答本文開始提出的問題尼变,即一本50萬字的中文書平均有多少信息量利凑。我們知道,常用的漢字(一級二級國標)大約有7000字嫌术。假如每個字等概率哀澈,那么大約需要13比特(即13位二進制數(shù))表示一個漢字。但漢字的使用頻率不是均等的度气。實際上割按,前10%的漢字占常用文本的95%以上。因此磷籍,即使不考慮上下文的相關(guān)性适荣,而只考慮每個漢字的獨立概率,那么院领,每個漢字的信息熵大約也只有8-9比特弛矛。如果再考慮上下文相關(guān)性,每個漢字的信息熵就只有5比特左右比然。所以丈氓,一本50萬字的中文書,信息量大約是250萬比特强法。

需要指出的是這里講的250萬比特是個平均數(shù)万俗,同樣長度的書,所含的信息量可以相差很多饮怯。如果一本書重復的內(nèi)容很多闰歪,它的信息量就小,冗余度就大蓖墅。不同語言的冗余度差別很大库倘,而漢語在所有語言中冗余度是相對小的大家可能都有這個經(jīng)驗,一本英文書置媳,翻譯成漢語于樟,如果字體大小相同那么中譯本一般都會薄很多。這和人們普遍的認識一漢語是最簡潔的語言一是一致的拇囊。

自古以來,信息和消除不確定性是相聯(lián)系的靶橱。在英語里寥袭,信息和情報是同一個詞(information)路捧,而我們知道情報的作用就是排除不確定性

網(wǎng)頁搜索本質(zhì)上也是利用信息(用戶輸入的關(guān)鍵字)消除不確定性的過程传黄。如果提供的信息不夠多杰扫,比如搜索詞是常用的關(guān)鍵詞,諸如“中國”膘掰、“經(jīng)濟”之類的章姓,那么會有好多相關(guān)的結(jié)果,用戶可能還是無從選擇识埋。這時正確的做法是挖掘新的隱含信息凡伊,比如網(wǎng)頁本身的質(zhì)量信息。如果這些信息還是不夠消除不確定性窒舟,不妨再問問用戶系忙。這就是相關(guān)搜索的理論基礎(chǔ)。不正確的做法是在這個關(guān)鍵詞上玩數(shù)字和公式的游戲惠豺,由于沒有額外的信息引入银还,這種做法沒有效果,這就是很多做搜索質(zhì)量的人非常辛苦卻很少有收獲的原因洁墙。最糟糕的做法是引入人為的假設(shè)蛹疯,這和“蒙”沒什么差別。其結(jié)果是似乎滿足了個別用戶的口味热监,但是對大部分用戶來講搜索結(jié)果反而變得更糟苍苞。合理利用信息,而非玩弄什么公式和機器學習算法狼纬,是做好搜索的關(guān)鍵羹呵。知道的信息越多,隨機事件的不確定性就越小疗琉。

當獲取的信息和要研究的事物“有關(guān)系”時冈欢,這些信息才能幫助我們消除不確定性。當然“有關(guān)系”這種說法太模糊盈简,太不科學凑耻,最好能夠量化地度量“相關(guān)性”。比如常識告訴我們柠贤,一個隨機事件“過去24小時北京空氣的濕度”和隨機變量“今天北京下雨”的相關(guān)性很大香浩,但似乎就和“舊日金山的天氣”相關(guān)性不大。為此臼勉,香農(nóng)在信息論中提出了一個“互信息”(Mutual Information)的概念作為兩個隨機事件“相關(guān)性”的量化度量邻吭。

機器翻譯中,最難的兩個問題之一是詞義的二義性(又稱歧義性宴霸,Ambiguation)問題囱晴。有一個笑話膏蚓,2004年美國總統(tǒng)競選被稱為“灌木叢”總統(tǒng),“小母呕矗”參議員的競爭”(Bush一詞可以是美國總統(tǒng)布什的名字驮瞧,也可以是灌木叢;Kerry可以是美國副總統(tǒng)克里的名字枯芬,也可以是小母牛)论笔。具體的解決辦法大致如下:首先從大量文本中找出和總統(tǒng)布什一起出現(xiàn)的互信息最大的一些詞,比如總統(tǒng)千所、美國狂魔、國會、華盛頓真慢,等等毅臊,當然,再用同樣的方法找出和灌木叢一起出現(xiàn)的互信息最大的詞黑界,比如土壤管嬉、植物、野生朗鸠,等等蚯撩。有了這兩組詞,在翻譯Bush時烛占,看看上下文中哪類相關(guān)的詞多就可以了胎挎。

信息熵不僅是對信息的量化度量而且是整個信息論的基礎(chǔ)。它對于通信忆家、數(shù)據(jù)壓縮犹菇、自然語言處理都有很大的指導意義。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量芽卿,在這一點上揭芍,它和熱力學中熵的概念有相似之處,因為后者就是一個系統(tǒng)無序的度量卸例,從另一個角度講也是對一種不確定性的度量称杨。這說明科學上很多看似不同的學科之間也會有很強的相似性

對信息論有興趣又有一定數(shù)學基礎(chǔ)的讀者筷转,可以閱讀斯坦福大學托馬斯·科弗( Thomas Cover)教授的專著《信息論基礎(chǔ)》( Elements ofInformation Theory)姑原。

點擊這里可以查看《數(shù)學之美》的其它學習筆記。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末呜舒,一起剝皮案震驚了整個濱河市锭汛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖店乐,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艰躺,死亡現(xiàn)場離奇詭異呻袭,居然都是意外死亡眨八,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進店門左电,熙熙樓的掌柜王于貴愁眉苦臉地迎上來廉侧,“玉大人,你說我怎么就攤上這事篓足《翁埽” “怎么了?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵栈拖,是天一觀的道長连舍。 經(jīng)常有香客問我,道長涩哟,這世上最難降的妖魔是什么索赏? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮贴彼,結(jié)果婚禮上潜腻,老公的妹妹穿的比我還像新娘。我一直安慰自己器仗,他們只是感情好融涣,可當我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著精钮,像睡著了一般威鹿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上轨香,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天忽你,我揣著相機與錄音,去河邊找鬼弹沽。 笑死檀夹,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的策橘。 我是一名探鬼主播炸渡,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼丽已!你這毒婦竟也來了蚌堵?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吼畏,沒想到半個月后督赤,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡泻蚊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年躲舌,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片性雄。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡没卸,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出秒旋,到底是詐尸還是另有隱情约计,我是刑警寧澤,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布迁筛,位于F島的核電站煤蚌,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏细卧。R本人自食惡果不足惜尉桩,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望酒甸。 院中可真熱鬧魄健,春花似錦、人聲如沸插勤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽农尖。三九已至析恋,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間盛卡,已是汗流浹背助隧。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留滑沧,地道東北人并村。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓五鲫,卻偏偏與公主長得像宜岛,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子倘待,可洞房花燭夜當晚...
    茶點故事閱讀 44,871評論 2 354