人工智能通識-科普-信息增益-1

歡迎關(guān)注我的專欄( つ??ω??)つ【人工智能通識】
【匯總】2019年4月專題


什么是條件熵葫笼?什么是信息增益?它的作用是什么河劝?

條件熵Conditional entropy

如前面文章所說的纸俭,人工智能通識-科普-什么是熵熵是指系統(tǒng)的不確定性萌丈、隨機性赞哗,這種性質(zhì)是以系統(tǒng)輸出的數(shù)據(jù)結(jié)果進行表現(xiàn)的,如硬幣和骰子的統(tǒng)計數(shù)據(jù)辆雾,所以也可以看做數(shù)據(jù)的不確定性肪笋、隨機性。

系統(tǒng)信息熵的計算公式是:

H(X)=-\sum _{x \in U }P(x)\log P(x)

但當(dāng)我們獲得更多消息的時候度迂,系統(tǒng)的不確定性就會減少藤乙。

比如說這個問題,明天會下雨嗎惭墓?假設(shè)我們有歷史上每天是否下雨的1000條記錄坛梁,其中100天下雨,900天不下腊凶,那么我們這個系統(tǒng)的信息熵可以計算:

\begin{align} H(是否下雨)&=-(\frac{1}{10}\times \log\frac{1}{10}+\frac{9}{10}\times \log\frac{9}{10})\\ &=-(0.1\times-3.3219-0.9\times 0.152)\\ &=0.3219+1.368\\ &=1.6899 \end{align}

但是划咐,假如我們知道明天是否陰天。因為陰天經(jīng)常會導(dǎo)致下雨钧萍,所以那么明天下雨的確定性就會上升褐缠,不確定性就會下降,熵就會減少风瘦。

H(是否下雨|已知是否陰天)

這個就是條件熵送丰,即在某個條件下,數(shù)據(jù)變化的不確定性弛秋。

條件熵的計算

仍然以下雨為例器躏,比如上面1000天的數(shù)據(jù)中俐载,200天是陰天的,800天使不陰天的(晴天)登失,其中陰天情況下90天下雨遏佣,不陰天情況也有10天下雨(太陽雨 ?′ω`?)。

那么已知陰天情況下揽浙,共200天状婶,90天下雨,110天不下雨馅巷,是否下雨的條件熵是:

\begin{align} H(是否下雨|是否陰天=是)&=H(Y|X=Yes)\\ &=-(\frac{90}{200}\times \log\frac{90}{200}+\frac{110}{200}\times \log\frac{110}{200})\\ &=0.5184+0.4744\\ &=0.993\\ \end{align}

這個條件熵接近1膛虫,就是陰天且下雨的概率接近一半一半。

熵是1就是正反面一半一半钓猬,信息量是1比特就是可以消除50%的不確定性稍刀。

同樣的,已知明天不陰天(晴天)的情況下敞曹,共800天账月,790天不下雨,10天下雨澳迫,這個條件熵是:

\begin{align} H(是否下雨|是否陰天=否)&=H(Y|X=No)\\ &=-(\frac{790}{800}\times \log\frac{790}{800}+\frac{10}{800}\times \log\frac{10}{800})\\ &=0.0179+0.079\\ &=0.0969\\ \end{align}

這個條件熵很低局齿,確定性很高,晴天當(dāng)然可以幾乎確定是不下雨的橄登。

如果熵為0抓歼,則說明絕對的確定。

但上面只是分開計算了陰天=是和陰天=否的情況拢锹,我們還要把它們按照概率比例相加一起才算是整個陰天與否條件下是否下雨的條件熵:

\begin{align} H(是否下雨|是否陰天)&=H(Y|X)\\ &=P(X=Yes)\times H(Y|X=Yes)+P(X=No)\times H(Y|X=No)\\ &=\frac{200}{1000}\times 1.6899+\frac{800}{1000}\times 0.969\\ &=0.1986+0.7752\\ &=0.9738 \\ \end{align}

近乎于1锭部,也就是說,如果我們知道明天是否陰天面褐,那么是否下雨也就基本確定了一半拌禾,這和200個陰天有90天下雨的感性認(rèn)知基本一致。

總結(jié)上面我們計算方法展哭,整體條件熵等于條件每個可能值的條件熵之概率加權(quán)和:

\begin{align} H(Y|X)=\sum_{x\in X}P(x)\log\frac{1}{P(x)} \end{align}

而每個可能值的條件熵湃窍,計算方法基本上和信息熵公式一致:

\begin{align} H(Y|X=A)=\sum_{y\in Y}P(Y|X=A)\log\frac{1}{P(Y|X=A)} \end{align}

信息增益Information Gain

信息增益是指某個信息條件下,系統(tǒng)整體的熵減少了多少匪傍,也就是整體信息熵減去條件信息熵的結(jié)果您市。

InformationGain(Y|X)=H(Y)-H(Y|X)

信息增益有什么用?

我們知道役衡,世界上某個結(jié)果的出現(xiàn)往往是很多原因作用的結(jié)果茵休,比如下雨這個事情就可能受到氣溫、氣壓、溫度榕莺、濕度等等多種原因的影響俐芯。
但是,各種因素中哪一個因素對下雨影響最大钉鸯?哪一些影響比較邪墒贰?

如果我們也有1000天的氣溫唠雕、氣壓贸营、溫度、濕度數(shù)據(jù)岩睁,我們就可以計算出它們分別的條件熵钞脂,因為條件熵越大,那么就對結(jié)果的影響越大捕儒。

以上面的例子冰啃,是否陰天這個條件可以讓是否下雨的不確定性下降1.6899-0.9738=0.7161,這個作用是非常明顯的肋层,相當(dāng)于問你“明天有多大概率下雨?”和“明天如果陰天的話有多大概率下雨翎迁?”的差別栋猖。

下一篇我們將用更完整一些的案例來深化信息增益的計算方法和應(yīng)用價值。


歡迎關(guān)注我的專欄( つ??ω??)つ【人工智能通識】


每個人的智能新時代

如果您發(fā)現(xiàn)文章錯誤汪榔,請不吝留言指正蒲拉;
如果您覺得有用,請點喜歡痴腌;
如果您覺得很有用雌团,歡迎轉(zhuǎn)載~


END

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市士聪,隨后出現(xiàn)的幾起案子锦援,更是在濱河造成了極大的恐慌,老刑警劉巖剥悟,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件灵寺,死亡現(xiàn)場離奇詭異,居然都是意外死亡区岗,警方通過查閱死者的電腦和手機略板,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來慈缔,“玉大人叮称,你說我怎么就攤上這事。” “怎么了瓤檐?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵赂韵,是天一觀的道長。 經(jīng)常有香客問我距帅,道長右锨,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任碌秸,我火速辦了婚禮绍移,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘讥电。我一直安慰自己蹂窖,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布恩敌。 她就那樣靜靜地躺著瞬测,像睡著了一般。 火紅的嫁衣襯著肌膚如雪纠炮。 梳的紋絲不亂的頭發(fā)上月趟,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天,我揣著相機與錄音恢口,去河邊找鬼孝宗。 笑死,一個胖子當(dāng)著我的面吹牛耕肩,可吹牛的內(nèi)容都是我干的因妇。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼猿诸,長吁一口氣:“原來是場噩夢啊……” “哼婚被!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起梳虽,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤址芯,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后窜觉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體是复,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年竖螃,在試婚紗的時候發(fā)現(xiàn)自己被綠了淑廊。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡特咆,死狀恐怖季惩,靈堂內(nèi)的尸體忽然破棺而出录粱,到底是詐尸還是另有隱情,我是刑警寧澤画拾,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布啥繁,位于F島的核電站,受9級特大地震影響青抛,放射性物質(zhì)發(fā)生泄漏旗闽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一蜜另、第九天 我趴在偏房一處隱蔽的房頂上張望适室。 院中可真熱鬧,春花似錦举瑰、人聲如沸捣辆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽汽畴。三九已至,卻和暖如春耸序,著一層夾襖步出監(jiān)牢的瞬間忍些,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工坎怪, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留罢坝,地道東北人。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓芋忿,卻偏偏與公主長得像炸客,于是被迫代替她去往敵國和親疾棵。 傳聞我的和親對象是個殘疾皇子戈钢,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容