歡迎關注我的專欄( つ??ω??)つ【人工智能通識】
【匯總】2019年4月專題
女生是如何選擇配偶的潮改?利用信息熵幫助我們找到其中的規(guī)律狭郑。
信息增益公式
信息增益(IG,Information Gain)表示某個消息(X)能夠消除系統(tǒng)(Y)中不確定性的數(shù)量汇在,最常用的計算方法是用沒有這個消息之前系統(tǒng)的信息熵減去已知這個消息后系統(tǒng)的信息熵翰萨,即:
某個消息的信息增益越大袜蚕,就表示這個消息對最終結(jié)果的影響越大型雳。
信息熵的計算公式是每種可能性概率P(x)的對數(shù)的概率加權(quán)和,即:
利用信息熵公式可以分別求出某個條件值對應的信息量烘挫,然后用概率加權(quán)就和就得到了條件熵
:
更多內(nèi)容請參考信息增益-2
女生擇偶標準數(shù)據(jù)
我們假設女生選擇老公主要受四個因素影響:顏值阿蝶、身高雳锋、性格、財富羡洁。假設我們有一組數(shù)據(jù)如下:
這個數(shù)據(jù)純屬虛構(gòu)玷过,不代表任何實際情況。
四個因素我們也叫做四個特征,但是哪個特征對最終“嫁與不嫁”影響最大呢冶匹?
感性上說习劫,哪個特征與嫁否一欄重合度高咆瘟,那么影響就大嚼隘。但是如果我們需要深入評估每個特征對結(jié)果的影響程度,那么就不能只靠感性袒餐,而應該使用更加科學的數(shù)學方法飞蛹。
系統(tǒng)的信息熵
我們先只看沒有任何已知條件的情況下,“嫁否”的隨機性灸眼,這就像隨機扔硬幣的正反兩面數(shù)據(jù):
共12次卧檐,6次嫁6次否,各占一半焰宣,和均勻硬幣的結(jié)果一樣霉囚,系統(tǒng)的信息熵是:
顏值的信息增益
如果我們知道了一個人的顏值高低,那么我們就應該更有把握猜測女生是否會選擇嫁給這個人匕积。這里面確定性的增加盈罐,就是顏值特征的信息增益。
這里是顏值和嫁否的對照表:
- 高顏值共8個闪唆,
{1,3,5,6,7,9,11,12}
盅粪,對應的是{否,嫁悄蕾,否票顾,否,嫁帆调,嫁奠骄,否,否}
番刊,即5否3嫁戚揭。 - 低顏值共4個,
{2,4,8,10}
撵枢,對應的是{否民晒,嫁,嫁锄禽,嫁}
潜必,即1否3嫁。
那么分別求出高沃但、低兩種顏值分別對應的信息熵:
再把8個高顏值和4個低顏值的信息熵合并磁滚,得到顏值條件熵:
顏值條件對應的信息增益就是:
其他特征的信息增益
同樣我們可以求得其他三個特征條件的信息增益值:
性格的信息增益是:
計算得到身高的條件熵是,
身高的信息增益是
計算得到財富的條件熵是,
財富的信息增益是
綜上,我們可以看到,從數(shù)據(jù)來判斷垂攘,對于女生擇偶來說维雇,財富和顏值的影響力是相同的(信息增益都是0.0933),這兩者也是影響最小的晒他,而影響最大的是身高(信息增益是0.4084)吱型。
從感性上看,身高與婚否的匹配度也是最高的陨仅,其中3個高2個中都是嫁津滞,7個矮對應了6個否1個嫁,可以說只要知道高矮就可以有極大的把握判斷是否會選擇嫁了灼伤。
結(jié)語
信息增益的多少表示了這個條件和最終結(jié)果的吻合度触徐,也表示了這個條件的重要性和影響力。
信息增益的一個典型應用就是把增益最大的特征來作為決策樹的根節(jié)點(最先判斷的條件)狐赡,這樣可以讓決策樹達到最高效的情況撞鹉。比如我們的女生擇偶示例中,應該把身高作為根節(jié)點颖侄,也就是說遇到類似的相親情況鸟雏,首先應該問“這個男生個子高嗎?”
歡迎關注我的專欄( つ??ω??)つ【人工智能通識】
每個人的智能新時代
如果您發(fā)現(xiàn)文章錯誤发皿,請不吝留言指正崔慧;
如果您覺得有用,請點喜歡穴墅;
如果您覺得很有用惶室,歡迎轉(zhuǎn)載~
END