信息論在AI中也扮演著重要的角色
- 意義:不確定性才是客觀世界的本質(zhì)屬性谊却。
- 克勞德·香農(nóng)發(fā)表了著名論文《通信的數(shù)學(xué)理論》畜吊,給出了對(duì)信息這一定性概念的定量分析方法,標(biāo)志著信息論作為一門學(xué)科的正式誕生。
- 信息熵:對(duì)單個(gè)信源的信息量和通信中傳遞信息的數(shù)量與效率等問(wèn)題做出了解釋刨啸,并在世界的不確定性和信息的可測(cè)量性之間搭建起一座橋梁。
- 熵的本質(zhì):一個(gè)系統(tǒng)內(nèi)在的混亂程度砌些。
- 自信息量的定義:
-
如果事件 A發(fā)生的概率為 p(A)呜投,自信息量為:
-
如果事件 A發(fā)生的概率為 p(A)呜投,自信息量為:
- 信源的信息熵:信源可能發(fā)出的各個(gè)符號(hào)的自信息量在信源構(gòu)成的概率空間上的統(tǒng)計(jì)平均值。
-
如果一個(gè)離散信源 X 包含 n個(gè)符號(hào)存璃,每個(gè)符號(hào) ai的取值為 p(ai)仑荐,則 X 的信源熵為
- 當(dāng)信源中的每個(gè)符號(hào)的取值概率相等時(shí),信源熵取到最大值 log2n纵东,意味著信源的隨機(jī)程度最高粘招。
-
如果一個(gè)離散信源 X 包含 n個(gè)符號(hào)存璃,每個(gè)符號(hào) ai的取值為 p(ai)仑荐,則 X 的信源熵為
- 條件熵:將條件概率擴(kuò)展到信息論中,如果兩個(gè)信源之間具有相關(guān)性偎球,那么在已知其中一個(gè)信源 X 的條件下洒扎,另一個(gè)信源 Y 的信源熵就會(huì)減小。
-
條件熵 H(Y|X) 表示的是在已知隨機(jī)變量 X 的條件下另一個(gè)隨機(jī)變量 Y 的不確定性衰絮,也就是在給定 X 時(shí)袍冷,根據(jù) Y 的條件概率計(jì)算出的熵再對(duì) X 求解數(shù)學(xué)期望:
條件熵的意義在于先按照變量 X 的取值對(duì)變量 Y進(jìn)行了一次分類,對(duì)每個(gè)分出來(lái)的類別計(jì)算其單獨(dú)的信息熵猫牡,再將每個(gè)類的信息熵按照 X 的分布計(jì)算其數(shù)學(xué)期望胡诗。
-
條件熵 H(Y|X) 表示的是在已知隨機(jī)變量 X 的條件下另一個(gè)隨機(jī)變量 Y 的不確定性衰絮,也就是在給定 X 時(shí)袍冷,根據(jù) Y 的條件概率計(jì)算出的熵再對(duì) X 求解數(shù)學(xué)期望:
- 互信息:等于 Y 的信源熵減去已知 X 時(shí) Y 的條件熵,即由 X 提供的關(guān)于 Y 的不確定性的消除,也可以看成是 X 給 Y帶來(lái)的信息增益煌恢。
-
互信息這個(gè)名稱在通信領(lǐng)域經(jīng)常使用骇陈,信息增益則在機(jī)器學(xué)習(xí)領(lǐng)域中經(jīng)常使用,兩者的本質(zhì)是一樣的瑰抵。
- 在機(jī)器學(xué)習(xí)中你雌,信息增益常常被用于分類特征的選擇。
- 對(duì)于給定的訓(xùn)練數(shù)據(jù)集 Y二汛,H(Y) 表示在未給定任何特征時(shí)婿崭,對(duì)訓(xùn)練集進(jìn)行分類的不確定性;
- H(Y|X) 則表示了使用特征 X 對(duì)訓(xùn)練集 Y進(jìn)行分類的不確定性习贫。
- 信息增益表示的就是特征 X 帶來(lái)的對(duì)訓(xùn)練集 Y 分類不確定性的減少程度逛球,也就是特征 X 對(duì)訓(xùn)練集 Y 的區(qū)分度。
- 信息增益更大的特征具有更強(qiáng)的分類能力苫昌。但信息增益的值很大程度上依賴于數(shù)據(jù)集的信息熵 H(Y)颤绕,因而并不具有絕對(duì)意義。
-
- 信息增益比:g(X,Y)=I(X;Y)/H(Y)
- Kullback-Leibler 散度:
-
KL 散度描述兩個(gè)概率分布 P 和 Q 之間的差異的一種方法祟身,其定義為:
- KL 散度是對(duì)額外信息量的衡量奥务。給定一個(gè)信源,其符號(hào)的概率分布為 P(X)袜硫,就可以設(shè)計(jì)一種針對(duì) P(X) 的最優(yōu)編碼氯葬,使得表示該信源所需的平均比特?cái)?shù)最少(等于該信源的信源熵)
- KL 散度用來(lái)衡量這種情況下平均每個(gè)字符多用的比特?cái)?shù),也可以表示兩個(gè)分布之間的距離婉陷。
- KL 散度的兩個(gè)重要性質(zhì)是非負(fù)性和非對(duì)稱性帚称。
- 非負(fù)性是指 KL 散度是大于或等于 0 的,等號(hào)只在兩個(gè)分布完全相同時(shí)取到秽澳。
- 非對(duì)稱性則是指 DKL(P||Q)≠DKL(Q||P)闯睹,即用 P(X)P(X) 去近似 Q(X) 和用 Q(X)去近似 P(X)得到的偏差是不同的,因此 KL 散度并不滿足數(shù)學(xué)意義上對(duì)距離的定義
-
KL 散度描述兩個(gè)概率分布 P 和 Q 之間的差異的一種方法祟身,其定義為:
- 最大熵原理:確定隨機(jī)變量統(tǒng)計(jì)特性時(shí)力圖最符合客觀情況的一種準(zhǔn)則担神。對(duì)于一個(gè)未知的概率分布楼吃,最壞的情況就是它以等可能性取到每個(gè)可能的取值。