決策樹建立:當(dāng)前節(jié)點(diǎn)選哪個特征,選擇特征的哪個值作為分割點(diǎn)速妖。
決策樹建立的目標(biāo):結(jié)點(diǎn)的“純度”越來越高高蜂。
決策樹調(diào)參數(shù)、調(diào)過擬合:樹的數(shù)目罕容,深度备恤,葉子節(jié)點(diǎn)上樣本數(shù)目,剪枝锦秒。
代表樣本純度或者不純度的指標(biāo): 樣本的純度露泊,只關(guān)乎樣本值為0 和為1 的個數(shù)。
信息熵旅择、信息增益率惭笑,理論上適用的是類別型的特征。
1)信息增益:信息熵代表了樣本的混亂程度生真。信息熵越低沉噩,表示樣本越純。信息增益是前后加權(quán)信息熵的差柱蟀,越大表示變的越純屁擅,效果越好。不限定分了幾個枝产弹。
信息增益表示已知特征A后派歌,使得數(shù)據(jù)D的不確定程度減小了多少。gain(D,A) = H(D) - H(D|A)
其中痰哨,條件熵 ?H(D|A)= H(D胶果,A)- H(A)
信息增益準(zhǔn)則偏好于取值數(shù)目較多的特征。(不是只分兩個枝斤斧,只能處理標(biāo)稱數(shù)據(jù)早抠。)?
2)增益率? 信息增益/屬性固有值。(特征取值越少撬讽,則固有值越小蕊连,則增益率越大,則偏向取值少的特征游昼。) ? ?g(D,A)/H(A)
3)基尼系數(shù):葉子結(jié)點(diǎn)時甘苍,隨機(jī)選取一個樣本,隨機(jī)預(yù)測其類別烘豌,預(yù)測錯誤的概率载庭。 1- 求和(P的平方)
剪枝
1)預(yù)剪枝:生成樹時,計(jì)算剪枝前后,精度(或其他指標(biāo)囚聚?)是否提升靖榕,有則分裂,沒有則停止顽铸。降低過擬合風(fēng)險茁计,減少訓(xùn)練時間,但是可能導(dǎo)致欠擬合谓松。
2)后剪枝:自底而上簸淀,原理同上。
為了保證樹模型不那么復(fù)雜(葉節(jié)點(diǎn)個數(shù))毒返,在損失函數(shù)上可加正則項(xiàng)租幕。選擇剪枝后,損失函數(shù)變小越大越好拧簸。
信息增益劲绪、信息增益率、基尼系數(shù)優(yōu)缺點(diǎn):