前面提到了,決策樹關(guān)鍵的問(wèn)題在于選擇打洼,比如走到“每月收入=龄糊?”這個(gè)結(jié)點(diǎn)時(shí),下一個(gè)結(jié)點(diǎn)選擇“主營(yíng)業(yè)務(wù)=募疮?”還是“公司位于哪個(gè)地區(qū)=炫惩?”,這就涉及到了選擇阿浓。為了解決這些問(wèn)題他嚷,我們引入一些常用的算法,信息增益(決策樹ID3訓(xùn)練算法)芭毙、增益率(決策樹C4.5訓(xùn)練算法)筋蓖、基尼指數(shù)(決策樹CART訓(xùn)練算法)⊥硕兀看到這么多算法會(huì)不會(huì)有點(diǎn)緊張粘咖。。侈百。說(shuō)實(shí)話這些算法都大同小異瓮下。接下來(lái)我們按個(gè)去分析~~
本篇文章我們先介紹信息增益翰铡。
在介紹信息增益之前呢,我們需要先了解什么是信息什么是熵讽坏?
熵:一種事物的不確定性叫做熵锭魔。比如:我喜歡一個(gè)女生,我不確定她的態(tài)度震缭。
什么是信息呢赂毯?
信息:消除不確定性的事物战虏。比如:我從她閨蜜那里打聽(tīng)她對(duì)我的態(tài)度拣宰。信息可以調(diào)整概率,排除干擾烦感。
有了信息之后巡社,還會(huì)有噪音,什么是噪音呢手趣?
噪音:不能消除某人對(duì)某件事不確定性的事物晌该。比如:她主動(dòng)和我聊天了,但是約她出來(lái)吃飯绿渣,她又不愿意朝群。
那我們平時(shí)接觸到的數(shù)據(jù),既有噪音也有信息中符。我們需要用經(jīng)驗(yàn)去判斷哪些數(shù)據(jù)屬于信息姜胖。