1,決策樹(shù)模型概述
決策樹(shù)可以同時(shí)用于分類和回歸兩種業(yè)務(wù)處理饭庞。在分類問(wèn)題上舰攒,表示基于特征對(duì)實(shí)例進(jìn)行分類的過(guò)程。相比于樸素貝葉斯分類讥此,決策樹(shù)的優(yōu)勢(shì)在于不需要構(gòu)造任何領(lǐng)域知識(shí)或參數(shù)設(shè)置拢锹。因此在實(shí)際應(yīng)用中,對(duì)于探測(cè)式的知識(shí)發(fā)現(xiàn)暂论,決策樹(shù)更加適用面褐。
舉例如下:
決策樹(shù)基于‘樹(shù)’結(jié)構(gòu)進(jìn)行決策
每個(gè)內(nèi)部節(jié)點(diǎn)對(duì)應(yīng)某個(gè)屬性上的測(cè)試。
每個(gè)分支對(duì)應(yīng)于該測(cè)試的一種可能結(jié)果(即該屬性的某個(gè)取值)取胎。
每個(gè)‘葉節(jié)點(diǎn)’對(duì)應(yīng)于一個(gè)‘預(yù)測(cè)結(jié)果’展哭。
學(xué)習(xí)過(guò)程:通過(guò)訓(xùn)練樣本的分來(lái)確定‘劃分屬性’。
預(yù)測(cè)過(guò)程:將測(cè)試示例從根節(jié)點(diǎn)開(kāi)始闻蛀,沿著劃分屬性所構(gòu)成‘判定測(cè)試序列’下行匪傍,直到葉節(jié)點(diǎn)。
重點(diǎn)需要掌握的分類算法:ID3;C4.5觉痛;CART役衡;RandomForest
2,算法流程與最佳屬性選擇
2.1決策樹(shù)的基本流程
總體流程:
A,自根至葉的遞歸過(guò)程
B薪棒,在每個(gè)中間節(jié)點(diǎn)尋找一個(gè)‘劃分’屬性
劃分的三種停止條件:
(1)手蝎,當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類別。
(2)俐芯,當(dāng)前屬性集為空棵介,或是所有的樣本在所有屬性值上取值相同,無(wú)法劃分吧史。
(3)邮辽,當(dāng)前節(jié)點(diǎn)包含的樣本集合為空,不能劃分贸营。
注:這里需要理解類別和屬性指的概念吨述,以西瓜為例,好瓜與壞瓜就是類別钞脂,瓜的甜度(不甜揣云,微甜,甜)就是屬性值冰啃。
那么當(dāng)某個(gè)節(jié)點(diǎn)的西瓜全是好瓜或者壞瓜時(shí)灵再,劃分停止肋层。
當(dāng)瓜的甜度這個(gè)屬性集里沒(méi)有不甜,微甜翎迁,甜這些屬性值,或者净薛,不甜的瓜全是壞瓜汪榔,微甜與甜的瓜全是好瓜,那么劃分也會(huì)停止肃拜。
或者甜度這個(gè)節(jié)點(diǎn)沒(méi)有西瓜時(shí)痴腌,劃分也會(huì)停止。
換成If...then的規(guī)則理解
2.2最佳屬性選擇方法
信息熵(entroy)是度量樣本集合‘純度’燃领,最常用的一種指標(biāo)士聪,假定當(dāng)前樣本集合D中第k類樣本所占的比例為Pk,則D的信息熵定義為:
信息熵的公式來(lái)源如下:
A猛蔽,首先定義不確定性函數(shù)f是概率P的單調(diào)遞降函數(shù)剥悟;兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和,即f(P1,P2)=f(P1)+f(P2)曼库,同時(shí)滿足這兩個(gè)條件的函數(shù)f是對(duì)數(shù)函數(shù)区岗,即f(P)=log(1/p)=-logp
B,在信源中毁枯,考慮的不是單一符號(hào)發(fā)生的不確定性慈缔,而是要考慮整個(gè)信源所有可能發(fā)生情況的平均不確定性。若信源符號(hào)有n種取值:U1…Ui…Un种玛,對(duì)應(yīng)概率為:P1…Pi…Pn藐鹤,且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí)赂韵,信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號(hào)不確定性-logPi的統(tǒng)計(jì)平均值(E)娱节,可稱為信息熵,即
式中對(duì)數(shù)一般取2為底右锨,單位為比特括堤。但是,也可以取其它對(duì)數(shù)底绍移,采用其它相應(yīng)的單位悄窃,它們間可用換底公式換算。
信息增益直接以信息熵為基礎(chǔ)蹂窖,計(jì)算當(dāng)前劃分對(duì)信息熵所造成的變化轧抗。
接下來(lái)分別講述ID3,C4.5和CART中最佳屬性選擇方法。
(1)ID3中使用信息增益(information gain)
信息增益指的是在一個(gè)條件下瞬测,信息不確定性減少的程度横媚。信息增益的公式如下:
Dv的概念結(jié)合下面的西瓜例子來(lái)理解纠炮,本質(zhì)上是一個(gè)樣本集合。
以西瓜數(shù)據(jù)集為例灯蝴,完全為劃分前恢口,好瓜與壞瓜的熵如下,為0.998穷躁。
通過(guò)‘色澤’屬性劃分后耕肩,屬性‘色澤’的增益為6/17*1+6/17*0.918+5/17*0.722=0.889
那么‘色澤’的信息增益為0.998-0.889=0.109
(2)C4.5中使用信息增益率(gain ratio)
信息增益對(duì)取值數(shù)目較多的屬性有所偏好,例如編號(hào)问潭,他的信息增益是最大的猿诸,但是編號(hào)沒(méi)有泛化能力。因此針對(duì)ID3信息增益的缺陷狡忙,產(chǎn)生了信息增益率的方式來(lái)選擇最佳屬性梳虽,用信息增益除以IV(a)來(lái)‘懲罰’屬性值較多的屬性。
(3)CART中使用基尼指數(shù)(gini index)
基尼指數(shù)的含義和熵很接近灾茁,基尼指數(shù)越大窜觉,包含的類別越雜亂。
注:本文為網(wǎng)易云課堂《機(jī)器學(xué)習(xí)微專業(yè)》學(xué)習(xí)筆記删顶。