屬性選擇
屬性的感覺就是最大限度的增加樣本的純度课幕,并且不要產(chǎn)生產(chǎn)生樣本數(shù)少的分枝宇色。
屬性選擇標(biāo)準(zhǔn)有信息增益(Information Gain)和Gini系數(shù)
信息增益作為標(biāo)準(zhǔn)時(shí)蹦漠,選擇信息增益大的作為分裂點(diǎn)
Gini是一種不純度函數(shù)挑随,衡量數(shù)據(jù)關(guān)于類別的純度侥猬,數(shù)據(jù)均勻分布于各個(gè)類別時(shí)善炫,不純度就很大
大小規(guī)模合適的樹
- 樹停止生長(zhǎng)的條件(最小劃分實(shí)例數(shù)撩幽,劃分閾值,最大樹深度)
- 對(duì)完全生長(zhǎng)的樹進(jìn)行剪枝(評(píng)估子樹箩艺,如去掉性能更好窜醉,則進(jìn)行剪枝)
ID3
思想:選信息增益大的屬性建立分支,遞歸選取知道子樹只包含一個(gè)類別的數(shù)據(jù)
自頂向下的貪婪的搜索算法艺谆,構(gòu)造出與訓(xùn)練數(shù)據(jù)一致的決策樹
用信息增益作為屬性選擇的標(biāo)準(zhǔn)榨惰,使劃分后的數(shù)據(jù)集的信息熵最小
ID3的問(wèn)題
- 只能處理屬性數(shù)據(jù),無(wú)法處理連續(xù)型數(shù)據(jù)
- 屬性的每個(gè)取值都會(huì)產(chǎn)生一個(gè)對(duì)應(yīng)分支静汤,會(huì)有許多小的子集琅催,過(guò)小的子集會(huì)導(dǎo)致統(tǒng)計(jì)特征不充分居凶,使算法停止
- 信息增益在類別值多的屬性上計(jì)算結(jié)果,大于類別值少的屬性藤抡,導(dǎo)致算法天生偏向選擇分支多的屬性侠碧,會(huì)導(dǎo)致過(guò)度擬合
C4.5
- 能處理連續(xù)性和離散型屬性
- 能處理有缺失值的數(shù)據(jù)
- 信息增益作為決策樹屬性選擇標(biāo)準(zhǔn)
- 對(duì)生成樹進(jìn)行剪枝處理
- 決策樹到規(guī)則自動(dòng)生成
不同于ID3
C4.5不是直接衡量信息增益,是用的信息增益率來(lái)衡量屬性的
ID3中的信息增益是根據(jù)所屬類別(y)來(lái)計(jì)算的缠黍,C4.5以信息增益率為標(biāo)準(zhǔn)弄兜,引入分裂信息的概念,考慮了獲取增益的代價(jià)瓷式,克服了ID3偏心多屬性特征的缺點(diǎn)
分裂信息用來(lái)衡量屬性分裂數(shù)據(jù)的廣度和均勻替饿,公式如下
屬性值越多,分布越平均的分裂信息越大贸典,對(duì)應(yīng)的信息增益率則越小
對(duì)于連續(xù)值的求解
處理缺失值盛垦,這個(gè)ID3也沒(méi)有
- 直接拋棄
- 平均數(shù)或者眾數(shù)
- C4.5中用概率的方法,為每個(gè)可能的賦值都設(shè)置一個(gè)概率
剪枝
不用預(yù)剪枝是因?yàn)轭A(yù)剪枝對(duì)不同數(shù)據(jù)的表現(xiàn)很不一樣
后剪枝方法
- 從葉節(jié)點(diǎn)開始瓤漏,檢查每個(gè)非葉節(jié)點(diǎn)
- 如果以某個(gè)葉節(jié)點(diǎn)(或其子節(jié)點(diǎn)中使用頻率最高的子節(jié)點(diǎn))腾夯,替換該非葉節(jié)點(diǎn)
- 整個(gè)決策樹的誤差率降低就剪去改節(jié)點(diǎn)
預(yù)剪枝方法
- 限制樹的最大深度
- 限制葉節(jié)點(diǎn)最小記錄數(shù)
C4.5后剪枝
針對(duì)每個(gè)節(jié)點(diǎn),以其中的類別眾數(shù)作為預(yù)測(cè)類別
利用每個(gè)節(jié)點(diǎn)的錯(cuò)誤率蔬充,根據(jù)假設(shè)正態(tài)分布對(duì)真實(shí)誤差進(jìn)行估計(jì)
CART樹
改進(jìn)ID3的3個(gè)方面
- 不純度計(jì)算用GINI指數(shù)蝶俱,取最小最為分裂點(diǎn),就是差異損失最大的點(diǎn)(Gini父-Gini子最大的)
- 特征雙化(towing)饥漫,二元分類樹
- 輸出為離散時(shí)為分類樹榨呆,為連續(xù)時(shí)為回歸樹
特征雙化
構(gòu)建二叉樹,雙化時(shí)盡量時(shí)2個(gè)類別的輸出差異性的和庸队,保持最小积蜻,就是純度最大。
具體操作就是窮舉法彻消,對(duì)每對(duì)都計(jì)算Gini系數(shù)(帶全局的權(quán)重)竿拆,然后選擇Gini系數(shù)最大的呢一組,這種感覺就是選最不純的一組宾尚,用你的下限去和別的屬性競(jìng)爭(zhēng)丙笋,以達(dá)到全局的最優(yōu)