決策樹

決策樹既可以用來(lái)做分類【分類樹】,又可以做回歸【回歸樹】。
決策樹由三個(gè)部分構(gòu)成:
根節(jié)點(diǎn):第一個(gè)選擇點(diǎn)
非葉子節(jié)點(diǎn)和分支:中間過(guò)程
葉子節(jié)點(diǎn):最終的決策結(jié)果
過(guò)程:利用給定的訓(xùn)練集構(gòu)造一棵樹,根據(jù)構(gòu)造的樹,把測(cè)試集從上到下走一遍
所以關(guān)鍵是如何選擇特征來(lái)構(gòu)造決策樹
三種方法:ID3【按照信息增益計(jì)算】窟蓝、C4.5【按照信息增益比計(jì)算】、CART【按照CINI系數(shù)計(jì)算】
分類樹
例子:


image.png

1)ID3
衡量標(biāo)準(zhǔn):熵H(x)【表示隨機(jī)變量不確定性的指標(biāo)】饱普,熵值越大运挫,不確定性越高
H(x)=-\sum\limits_{i=}^{n}{{{p}_{i}}\log _{2}^{{{p}_{i}}}}
當(dāng){{p}_{i}}\text{=}0,1時(shí),H(x)等于0 套耕,達(dá)到最小谁帕,完全沒(méi)有不確定性;
當(dāng){{p}_{i}}\text{=}0.5時(shí)冯袍,H(x)等于1匈挖,達(dá)到最大,不確定性最大颠猴。
另外選擇節(jié)點(diǎn)的最終標(biāo)準(zhǔn)是信息增益【表示特征X使得類Y的不確定性減少的程度【熵的下降程度】】关划,將信息增益最大的特征作為根節(jié)點(diǎn),以此類推翘瓮。
第一輪:
原始數(shù)據(jù)的熵值:
yes:9個(gè)贮折,no:5個(gè)
-\frac{9}{14}\log _{2}^{\frac{9}{14}}-\frac{5}{14}\log _{2}^{\frac{5}{14}}=0.940
如果按outlook分類:
sunny:yes有2個(gè),no有3個(gè)资盅,即取得sunny的概率為5/14
sunny類的熵值:-\frac{2}{5}\log {{_{2}^{{}}}^{\frac{2}{5}}}-\frac{3}{5}\log {{_{2}^{{}}}^{\frac{3}{5}}}=0.971
overcast:yes有4個(gè)调榄,no有0個(gè),即取得overcast的概率為4/14
overcast類的熵值:0
rainy:yes有3個(gè)呵扛,no有2個(gè)每庆,即取得rainy的概率為5/14
rainy類的熵值:-\frac{2}{5}\log {{_{2}^{{}}}^{\frac{2}{5}}}-\frac{3}{5}\log {{_{2}^{{}}}^{\frac{3}{5}}}=0.971
綜上,按outlook分類的熵值為【此處計(jì)算的實(shí)際是條件熵】
\frac{5}{14}\times 0.971\text{+}\frac{4}{14}\times 0\text{+}\frac{5}{14}\times 0.971=0.693
信息增益為0.940-0.693=0.247
同理
如果按temperature分類:
hot類:取hot的概率是4/14
熵值為:-\frac{2}{4}\log {{_{2}^{{}}}^{\frac{2}{4}}}-\frac{2}{4}\log {{_{2}^{{}}}^{\frac{2}{4}}}=1
mild類:取mild的概率是6/14
熵值為:-\frac{2}{6}\log {{_{2}^{{}}}^{\frac{2}{6}}}-\frac{4}{6}\log {{_{2}^{{}}}^{\frac{4}{6}}}=0.918
cool類:取cool的概率是4/14
熵值為:-\frac{1}{4}\log {{_{2}^{{}}}^{\frac{1}{4}}}-\frac{3}{4}\log {{_{2}^{{}}}^{\frac{3}{4}}}=0.811
綜上今穿,按temperature分類的熵值為
\frac{4}{14}\times 1\text{+}\frac{6}{14}\times 0.918\text{+}\frac{4}{14}\times 0.811=0.911
信息增益為0.940-0.911=0.029
按humidity分類:
normal類:取normal的概率是7/14
熵值為:-\frac{1}{7}\log {{_{2}^{{}}}^{\frac{1}{7}}}-\frac{6}{7}\log {{_{2}^{{}}}^{\frac{6}{7}}}=0.592
high類:取high的概率是7/14
熵值為:-\frac{4}{7}\log {{_{2}^{{}}}^{\frac{4}{7}}}-\frac{3}{7}\log {{_{2}^{{}}}^{\frac{3}{7}}}=0.985
綜上缤灵,按humidity分類的熵值為
\frac{7}{14}\times 0.592\text{+}\frac{7}{14}\times 0.985=0.7885
信息增益為0.940-0.7885=0.1515
按windy分類:
True類:取True的概率是6/14
熵值為:-\frac{1}{2}\log {{_{2}^{{}}}^{\frac{1}{2}}}-\frac{1}{2}\log {{_{2}^{{}}}^{\frac{1}{2}}}=1
False類:取False的概率是8/14
熵值為:-\frac{2}{8}\log {{_{2}^{{}}}^{\frac{2}{8}}}-\frac{6}{8}\log {{_{2}^{{}}}^{\frac{6}{8}}}=0.811
綜上,按windy分類的熵值為
\frac{6}{14}\times 1\text{+}\frac{8}{14}\times 0.811=0.892
信息增益為0.940-0.892=0.048
根據(jù)信息增益比最大的原則蓝晒,選擇特征outlook為根節(jié)點(diǎn)腮出。
現(xiàn)在的決策樹長(zhǎng)這樣:

繪圖1.jpg

由上圖可知,當(dāng)outlook等于overcast芝薇,可以得出肯定會(huì)去打球的結(jié)論胚嘲,不需要再切分,下面對(duì)sunny和rainy繼續(xù)切分
第二輪:
sunny類:當(dāng)前樣本的熵值等于
按temperature分類:熵為0.4洛二,信息增益0.571
按humidity分類:熵為0馋劈,信息增益0.971
按windy分類:熵為0.811攻锰,信息增益0.16
選擇特征humidity為節(jié)點(diǎn)
rainy類:當(dāng)前樣本的熵值等于當(dāng)前樣本的熵值等于
按temperature分類:熵為0.9508,信息增益0.0202
按humidity分類:熵為0.9508妓雾,信息增益0.0202
按windy分類:熵為0娶吞,信息增益0.971
選擇特征windy為節(jié)點(diǎn)
現(xiàn)在的決策樹長(zhǎng)這樣:
繪圖1.jpg

最終生成5個(gè)葉子節(jié)點(diǎn)
但是ID3算法會(huì)偏向于取值較多的特征:當(dāng)特征取值較多時(shí),分類結(jié)果的純度較高君珠,不確定性越低寝志,熵值越低,信息增益比越大策添。
2)C4.5【信息增益比】
為了解決這個(gè)問(wèn)題,引入了信息增益比指標(biāo)
image.png

信息增益比等于信息增益除以自身的熵值毫缆,相當(dāng)于乘了一個(gè)懲罰項(xiàng)唯竹,當(dāng)該特征取值較多時(shí),不確定性較高苦丁,熵值較大浸颓,它的倒數(shù)較小,信息增益比較小旺拉,被選擇為節(jié)點(diǎn)的可能性降低产上。
但是,反之蛾狗,當(dāng)特征取值較少時(shí)晋涣,不確定性較低,熵值較低沉桌,它的倒數(shù)較高谢鹊,信息增益比較大,被選擇的可能性較高留凭,因此C4.5偏向于選擇特征取值較少的為節(jié)點(diǎn)佃扼。
上述例子如果用C4.5作為衡量標(biāo)準(zhǔn),結(jié)果如下:
第一輪:
按outlook分類:信息增益比為

按temperature分類:信息增益比為

按humidity分類:信息增益比為

按windy分類:信息增益比為

按照薪資增益比最大原則蔼夜,選擇特征windy為根節(jié)點(diǎn)【果然選了取值較少的那個(gè)】
第二輪:
windy為true的分支:
按outlook分類的信息增益比為0.423兼耀,temperature的為0.143,humidity的為0.082求冷,所以選擇outlook為節(jié)點(diǎn)
windy為false的分支:
按outlook分類的信息增益比為0.299瘤运,temperature的為0.078,humidity的為0.311遵倦,
所以選擇humidity為節(jié)點(diǎn)
此時(shí)的決策樹為【但愿沒(méi)算錯(cuò)】
繪圖1.jpg

最左邊和最右邊的節(jié)點(diǎn)可以同理繼續(xù)切分
3)CART【GINI系數(shù)】
image.png

以outlook和temperature為例
微信圖片_20190220142714.jpg

微信圖片_20190220142725.jpg

計(jì)算得出outlook的最佳切分點(diǎn)為{{rainy}尽超,{sunny,overcast}}梧躺,GINI系數(shù)為0.457似谁;
temperature的最佳切分點(diǎn)為{{mild}傲绣,{hot,cool}}巩踏,GINI系數(shù)為0.458
我所理解的應(yīng)該是根據(jù)每個(gè)特征的最佳切分點(diǎn)對(duì)應(yīng)的GINI系數(shù)秃诵,選擇系數(shù)最小的作為節(jié)點(diǎn)以及切分點(diǎn)。
回歸樹
這一塊在學(xué)習(xí)的時(shí)候是我覺(jué)得不太容易理解的塞琼,這里參考了https://blog.csdn.net/weixin_36586536/article/details/80468426https://blog.csdn.net/Albert201605/article/details/81865261博主的內(nèi)容
image.png

這個(gè)類似于CART算法菠净,
首先遍歷所有特征,對(duì)每一個(gè)特征的每個(gè)切分點(diǎn)彪杉,得到兩個(gè)分支各自的標(biāo)簽值毅往,計(jì)算兩個(gè)分支各自的離差平方和,將這兩塊離差平方和之和作為這個(gè)切分點(diǎn)的離差平方和派近,將最小的離差平方和所對(duì)應(yīng)的切分點(diǎn)為該特征的最佳切分點(diǎn)攀唯,以此類推,得到第一層的根節(jié)點(diǎn)渴丸,然后對(duì)每個(gè)分支重復(fù)執(zhí)行上述步驟侯嘀,直至得到最終的決策樹,葉子節(jié)點(diǎn)輸出的是該分支標(biāo)簽值的平均值谱轨,當(dāng)有新的特征輸入時(shí)戒幔,從上到下走一遍決策樹,輸出相應(yīng)葉子節(jié)點(diǎn)的標(biāo)簽值土童。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末诗茎,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子娜扇,更是在濱河造成了極大的恐慌错沃,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件雀瓢,死亡現(xiàn)場(chǎng)離奇詭異枢析,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)刃麸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門醒叁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人泊业,你說(shuō)我怎么就攤上這事把沼。” “怎么了吁伺?”我有些...
    開封第一講書人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵饮睬,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我篮奄,道長(zhǎng)捆愁,這世上最難降的妖魔是什么割去? 我笑而不...
    開封第一講書人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮昼丑,結(jié)果婚禮上呻逆,老公的妹妹穿的比我還像新娘。我一直安慰自己菩帝,他們只是感情好咖城,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著呼奢,像睡著了一般宜雀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上控妻,一...
    開封第一講書人閱讀 52,262評(píng)論 1 308
  • 那天州袒,我揣著相機(jī)與錄音,去河邊找鬼弓候。 笑死,一個(gè)胖子當(dāng)著我的面吹牛他匪,可吹牛的內(nèi)容都是我干的菇存。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼邦蜜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼依鸥!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起悼沈,我...
    開封第一講書人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤贱迟,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后絮供,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體衣吠,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年壤靶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了缚俏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡贮乳,死狀恐怖忧换,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情向拆,我是刑警寧澤亚茬,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站浓恳,受9級(jí)特大地震影響刹缝,放射性物質(zhì)發(fā)生泄漏碗暗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一赞草、第九天 我趴在偏房一處隱蔽的房頂上張望讹堤。 院中可真熱鬧,春花似錦厨疙、人聲如沸洲守。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)梗醇。三九已至,卻和暖如春撒蟀,著一層夾襖步出監(jiān)牢的瞬間叙谨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工保屯, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留手负,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓姑尺,卻偏偏與公主長(zhǎng)得像竟终,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子切蟋,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359