人工智能通識-科普-信息增益-3

歡迎關注我的專欄( つ??ω??)つ【人工智能通識】
【匯總】2019年4月專題


女生是如何選擇配偶的潮改?利用信息熵幫助我們找到其中的規(guī)律狭郑。


信息增益公式

信息增益(IG,Information Gain)表示某個消息(X)能夠消除系統(tǒng)(Y)中不確定性的數(shù)量汇在,最常用的計算方法是用沒有這個消息之前系統(tǒng)的信息熵減去已知這個消息后系統(tǒng)的信息熵翰萨,即:

IG(Y|X)=H(Y)-H(Y|X)

某個消息的信息增益越大袜蚕,就表示這個消息對最終結(jié)果的影響越大型雳。

信息熵的計算公式是每種可能性概率P(x)的對數(shù)的概率加權(quán)和,即:

H(Y)=-\sum _{y \in Y }P(y)\log P(y)

利用信息熵公式可以分別求出某個條件值對應的信息量H(Y|X=a)烘挫,然后用概率加權(quán)就和就得到了條件熵H(Y|X)

H(Y|X)=-\sum _{x \in X }P(x)H(x)

更多內(nèi)容請參考信息增益-2

女生擇偶標準數(shù)據(jù)

我們假設女生選擇老公主要受四個因素影響:顏值阿蝶、身高雳锋、性格、財富羡洁。假設我們有一組數(shù)據(jù)如下:

這個數(shù)據(jù)純屬虛構(gòu)玷过,不代表任何實際情況。

四個因素我們也叫做四個特征,但是哪個特征對最終“嫁與不嫁”影響最大呢冶匹?
感性上說习劫,哪個特征與嫁否一欄重合度高咆瘟,那么影響就大嚼隘。但是如果我們需要深入評估每個特征對結(jié)果的影響程度,那么就不能只靠感性袒餐,而應該使用更加科學的數(shù)學方法飞蛹。

系統(tǒng)的信息熵

我們先只看沒有任何已知條件的情況下,“嫁否”的隨機性灸眼,這就像隨機扔硬幣的正反兩面數(shù)據(jù):

共12次卧檐,6次嫁6次否,各占一半焰宣,和均勻硬幣的結(jié)果一樣霉囚,系統(tǒng)的信息熵是:

\begin{align} &H(Y)\\ &=-\frac{6}{12}\times log\frac{6}{12}-\frac{6}{12}\times log\frac{6}{12}\\ &=1\\ \end{align}

顏值的信息增益

如果我們知道了一個人的顏值高低,那么我們就應該更有把握猜測女生是否會選擇嫁給這個人匕积。這里面確定性的增加盈罐,就是顏值特征的信息增益。

這里是顏值和嫁否的對照表:

  • 高顏值共8個闪唆,{1,3,5,6,7,9,11,12}盅粪,對應的是{否,嫁悄蕾,否票顾,否,嫁帆调,嫁奠骄,否,否}番刊,即5否3嫁戚揭。
  • 低顏值共4個,{2,4,8,10}撵枢,對應的是{否民晒,嫁,嫁锄禽,嫁}潜必,即1否3嫁。

那么分別求出高沃但、低兩種顏值分別對應的信息熵:

\begin{align} &H(Y|顏值=高)\\ &= -\frac{5}{8}\times log\frac{5}{8}-\frac{3}{8}\times log\frac{3}{8}\\ &= 0.4238+0.5306\\ &= 0.9544\\ \end{align}

\begin{align} &H(Y|顏值=低)\\ &= -\frac{1}{4}\times log\frac{1}{4}-\frac{3}{4}\times log\frac{3}{4}\\ &= 0.5+0.3113\\ &= 0.8113\\ \end{align}

再把8個高顏值和4個低顏值的信息熵合并磁滚,得到顏值條件熵:
\begin{align} &H(Y|顏值)\\ &= \frac{8}{12}\times H(Y|顏值=高) +\frac{4}{12}\times H(Y|顏值=低)\\ &= \frac{8}{12}\times 0.9544 +\frac{4}{12}\times 0.8113\\ &= 0.9067\\ \end{align}

顏值條件對應的信息增益就是:

\begin{align} &IG(Y|顏值)\\ &= H(Y)-H(Y|顏值)\\ &= 1-0.9067\\ &= 0.0933\\ \end{align}

其他特征的信息增益

同樣我們可以求得其他三個特征條件的信息增益值:

\begin{align} &H(Y|性格=好)\\ &= -\frac{3}{6}\times log\frac{3}{6}-\frac{3}{6}\times log\frac{3}{6}\\ &= 1\\ \end{align}

\begin{align} &H(Y|性格=壞)\\ &= -\frac{3}{4}\times log\frac{3}{4}-\frac{1}{4}\times log\frac{1}{4}\\ &=0.8113\\ \end{align}

\begin{align} &H(Y|性格=超好)\\ &=-\frac{2}{2}\times log\frac{2}{2}-\frac{0}{2}\times log\frac{0}{2}\\ &=0\\ \end{align}

\begin{align} &H(Y|性格)\\ &= \frac{6}{12}\times1-\frac{4}{12}\times 0.8113-\frac{2}{12}\times 0\\ &= 0.5 + 0.2704\\ &= 0.7704\\ \end{align}

性格的信息增益是:
\begin{align} &IG(Y|性格)\\ &= H(Y)-H(Y|性格)\\ &= 1-0.7704\\ &= 0.23\\ \end{align}

計算得到身高的條件熵是H(Y|身高)=0.5616,
身高的信息增益是IG(Y|身高)=0.4084

計算得到財富的條件熵是H(Y|財富)=0.9067,
財富的信息增益是IG(Y|財富)=0.0933

綜上,我們可以看到,從數(shù)據(jù)來判斷垂攘,對于女生擇偶來說维雇,財富和顏值的影響力是相同的(信息增益都是0.0933),這兩者也是影響最小的晒他,而影響最大的是身高(信息增益是0.4084)吱型。

從感性上看,身高與婚否的匹配度也是最高的陨仅,其中3個高2個中都是嫁津滞,7個矮對應了6個否1個嫁,可以說只要知道高矮就可以有極大的把握判斷是否會選擇嫁了灼伤。

結(jié)語

信息增益的多少表示了這個條件和最終結(jié)果的吻合度触徐,也表示了這個條件的重要性和影響力。

信息增益的一個典型應用就是把增益最大的特征來作為決策樹的根節(jié)點(最先判斷的條件)狐赡,這樣可以讓決策樹達到最高效的情況撞鹉。比如我們的女生擇偶示例中,應該把身高作為根節(jié)點颖侄,也就是說遇到類似的相親情況鸟雏,首先應該問“這個男生個子高嗎?”


歡迎關注我的專欄( つ??ω??)つ【人工智能通識】


每個人的智能新時代

如果您發(fā)現(xiàn)文章錯誤发皿,請不吝留言指正崔慧;
如果您覺得有用,請點喜歡穴墅;
如果您覺得很有用惶室,歡迎轉(zhuǎn)載~


END

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市玄货,隨后出現(xiàn)的幾起案子皇钞,更是在濱河造成了極大的恐慌,老刑警劉巖松捉,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件夹界,死亡現(xiàn)場離奇詭異,居然都是意外死亡隘世,警方通過查閱死者的電腦和手機可柿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來丙者,“玉大人复斥,你說我怎么就攤上這事⌒得剑” “怎么了目锭?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵评汰,是天一觀的道長。 經(jīng)常有香客問我痢虹,道長被去,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任奖唯,我火速辦了婚禮惨缆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘臭埋。我一直安慰自己踪央,他們只是感情好臀玄,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布瓢阴。 她就那樣靜靜地躺著,像睡著了一般健无。 火紅的嫁衣襯著肌膚如雪荣恐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天累贤,我揣著相機與錄音叠穆,去河邊找鬼。 笑死臼膏,一個胖子當著我的面吹牛硼被,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播渗磅,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼嚷硫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了始鱼?” 一聲冷哼從身側(cè)響起仔掸,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎医清,沒想到半個月后起暮,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡会烙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年负懦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柏腻。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡纸厉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出葫盼,到底是詐尸還是另有隱情残腌,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站抛猫,受9級特大地震影響蟆盹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜闺金,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一逾滥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧败匹,春花似錦寨昙、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至槽棍,卻和暖如春捉蚤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背炼七。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工缆巧, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人豌拙。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓陕悬,卻偏偏與公主長得像,于是被迫代替她去往敵國和親按傅。 傳聞我的和親對象是個殘疾皇子捉超,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355