? ? ? ? 信息是個很抽象的概念。人們常常說信息很多,或者信息較少握截,但卻很難說清楚信息到底有多少。比如一本五十萬字的中文書到底有多少信息量烂叔。
直到1948年谨胞,香農提出了“信息熵”的概念,才解決了對信息的量化度量問題蒜鸡。信息熵這個詞是C.E.香農從熱力學中借用過來的胯努。熱力學中的熱熵是表示分子狀態(tài)混亂程度的物理量。香農用信息熵的概念來描述信源的不確定度逢防。
信息論之父克勞德·艾爾伍德·香農第一次用數(shù)學語言闡明了概率與信息冗余度的關系叶沛。
中文名
信息熵
外文名
informationentropy
提出者
C. E. Shannon
時間
1948 年
借鑒
熱力學的概念
理論提出
信息論之父 C. E. Shannon 在 1948 年發(fā)表的論文“通信的數(shù)學理論( A Mathematical Theory of Communication )”中, Shannon 指出忘朝,任何信息都存在冗余灰署,冗余大小與信息中每個符號(數(shù)字、字母或單詞)的出現(xiàn)概率或者說不確定性有關。
Shannon 借鑒了熱力學的概念氓侧,把信息中排除了冗余后的平均信息量稱為“信息熵”脊另,并給出了計算信息熵的數(shù)學表達式导狡。
基本內容
通常约巷,一個信源發(fā)送出什么符號是不確定的,衡量它可以根據(jù)其出現(xiàn)的概率來度量旱捧。概率大独郎,出現(xiàn)機會多,不確定性忻渡摹氓癌;反之就大。
不確定性函數(shù)f是概率P的單調遞降函數(shù)贫橙;兩個獨立符號所產生的不確定性應等于各自不確定性之和贪婉,即f(P1,P2)=f(P1)+f(P2)卢肃,這稱為可加性疲迂。同時滿足這兩個條件的函數(shù)f是對數(shù)函數(shù),即? 莫湘。
在信源中尤蒿,考慮的不是某一單個符號發(fā)生的不確定性,而是要考慮這個信源所有可能發(fā)生情況的平均不確定性幅垮。若信源符號有n種取值:U1…Ui…Un腰池,對應概率為:P1…Pi…Pn,且各種符號的出現(xiàn)彼此獨立忙芒。這時示弓,信源的平均不確定性應當為單個符號不確定性-logPi的統(tǒng)計平均值(E),可稱為信息熵呵萨,即? 奏属,式中對數(shù)一般取2為底,單位為比特甘桑。但是拍皮,也可以取其它對數(shù)底,采用其它相應的單位跑杭,它們間可用換底公式換算铆帽。
最簡單的單符號信源僅取0和1兩個元素,即二元信源德谅,其概率為P和Q=1-P爹橱,該信源的熵即為如圖1所示。
由圖可見窄做,離散信源的信息熵具有:①非負性愧驱,即收到一個信源符號所獲得的信息量應為正值慰技,H(U)≥0;②對稱性组砚,即對稱于P=0.5吻商;③確定性,H(1糟红,0)=0艾帐,即P=0或P=1已是確定狀態(tài),所得信息量為零盆偿;④極值性柒爸,當P=0.5時,H(U)最大事扭;而且H(U)是P的上凸函數(shù)捎稚。
對連續(xù)信源,香農給出了形式上類似于離散信源的連續(xù)熵求橄,雖然連續(xù)熵HC(U)仍具有可加性今野,但不具有信息的非負性,已不同于離散信源谈撒。HC(U)不代表連續(xù)信源的信息量腥泥。連續(xù)信源取值無限,信息量是無限大啃匿,而HC(U)是一個有限的相對值蛔外,又稱相對熵。但是溯乒,在取兩熵的差值為互信息時夹厌,它仍具有非負性。這與力學中勢能的定義相仿裆悄。
圖1 二元信源的熵
信息含義
現(xiàn)代定義
信息是物質矛纹、能量、信息及其屬性的標示光稼』蚰希【逆維納信息定義】
信息是確定性的增加“【逆香農信息定義】
信息是事物現(xiàn)象及其屬性標識的集合采够。【2002年】
最初定義
信息理論的鼻祖之一Claude E. Shannon把信息(熵)定義為離散隨機事件的出現(xiàn)概率冰垄。
所謂信息熵蹬癌,是一個數(shù)學上頗為抽象的概念,在這里不妨把信息熵理解成某種特定信息的出現(xiàn)概率。而信息熵和熱力學熵是緊密相關的逝薪。根據(jù)Charles H. Bennett對Maxwell's Demon的重新解釋隅要,對信息的銷毀是一個不可逆過程,所以銷毀信息是符合熱力學第二定律的董济。而產生信息步清,則是為系統(tǒng)引入負(熱力學)熵的過程。所以信息熵的符號與熱力學熵應該是相反的感局。
一般而言尼啡,當一種信息出現(xiàn)概率更高的時候暂衡,表明它被傳播得更廣泛询微,或者說,被引用的程度更高狂巢。我們可以認為撑毛,從信息傳播的角度來看,信息熵可以表示信息的價值唧领。這樣子我們就有一個衡量信息價值高低的標準藻雌,可以做出關于知識流通問題的更多推論。
計算公式
H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)
其中斩个,x表示隨機變量胯杭,與之相對應的是所有可能輸出的集合,定義為符號集,隨機變量的輸出用x表示受啥。P(x)表示輸出概率函數(shù)做个。變量的不確定性越大,熵也就越大滚局,把它搞清楚所需要的信息量也就越大.
《博弈圣經》
信息熵:信息的基本作用就是消除人們對事物的不確定性居暖。多數(shù)粒子組合之后,在它似像非像的形態(tài)上押上有價值的數(shù)碼藤肢,具體地說太闺,這就是一個在博弈對局中現(xiàn)象信息的混亂。
香農指出嘁圈,它的準確信息量應該是
-(p1*log(2,p1) + p2 * log(2,p2) +∈÷睢... +p32 *log(2,p32)),
其中最住,p1钞澳,p2 ,∥卵А...略贮,p32 分別是這 32 個球隊奪冠的概率。香農把它稱為“信息熵” (Entropy),一般用符號 H 表示逃延,單位是比特览妖。
信息熵
有興趣的讀者可以推算一下當 32 個球隊奪冠概率相同時,對應的信息熵等于五比特揽祥。有數(shù)學基礎的讀者還可以證明上面公式的值不可能大于五讽膏。對于任意一個隨機變量 X(比如得冠軍的球隊),它的熵定義如下:
變量的不確定性越大拄丰,熵也就越大府树,把它搞清楚所需要的信息量也就越大。
信息熵是信息論中用于度量信息量的一個概念料按。一個系統(tǒng)越是有序奄侠,信息熵就越低;
反之载矿,一個系統(tǒng)越是混亂垄潮,信息熵就越高。所以闷盔,信息熵也可以說是系統(tǒng)有序化程度的一個度量弯洗。
熵的概念源自熱物理學。
假定有兩種氣體a逢勾、b牡整,當兩種氣體完全混合時,可以達到熱物理學中的穩(wěn)定狀態(tài)溺拱,此時熵最高逃贝。如果要實現(xiàn)反向過程,即將a盟迟、b完全分離秋泳,在封閉的系統(tǒng)中是沒有可能的。只有外部干預(信息)攒菠,也即系統(tǒng)外部加入某種有序化的東西(能量)迫皱,使得a、b分離辖众。這時卓起,系統(tǒng)進入另一種穩(wěn)定狀態(tài),此時凹炸,信息熵最低戏阅。熱物理學證明,在一個封閉的系統(tǒng)中啤它,熵總是增大奕筐,直至最大舱痘。若使系統(tǒng)的熵減少(使系統(tǒng)更加有序化),必須有外部能量的干預离赫。
信息熵的計算是非常復雜的芭逝。而具有多重前置條件的信息,更是幾乎不能計算的渊胸。所以在現(xiàn)實世界中信息的價值大多是不能被計算出來的旬盯。但因為信息熵和熱力學熵的緊密相關性,所以信息熵是可以在衰減的過程中被測定出來的翎猛。因此信息的價值是通過信息的傳遞體現(xiàn)出來的胖翰。在沒有引入附加價值(負熵)的情況下,傳播得越廣切厘、流傳時間越長的信息越有價值萨咳。
熵首先是物理學里的名詞。
在傳播中是指信息的不確定性迂卢,一則高信息度的信息熵是很低的,低信息度的熵則高某弦。具體說來,凡是導致隨機事件集合的肯定性而克,組織性,法則性或有序性等增加或減少的活動過程怔毛,都可以用信息熵的改變量這個統(tǒng)一的標尺來度量员萍。