概要
- 關(guān)于決策樹
決策樹其實(shí)是一種分類算法骂束,目標(biāo)是將具有P個(gè)維度特征的樣本n劃分到c個(gè)類別中: c = f(n); 通過這種分類的過程表示為一棵樹呜叫,每次通過選擇一個(gè)特征pi來進(jìn)行分叉淀散。
每個(gè)葉節(jié)點(diǎn)對應(yīng)著一個(gè)分類皆串,非葉節(jié)點(diǎn)對應(yīng)著在每個(gè)屬性上的劃分兴喂,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集勇婴。對于非純的葉節(jié)點(diǎn)肛走,多數(shù)類的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類漓雅。
構(gòu)建決策樹的核心問題: 在每一步如何選擇適當(dāng)?shù)膶傩詫颖具M(jìn)行拆分。
- 不同的決策樹算法有著不同的特征選擇方案
1朽色、ID3: 信息增益
2邻吞、C4.5: 信息增益率
3、CART: gini系數(shù)(基尼系數(shù))
算法 | 描述 | 適用 |
---|---|---|
ID3 | 在決策樹的各級(jí)節(jié)點(diǎn)上葫男,使用信息增益方法作為屬性選擇標(biāo)準(zhǔn)抱冷,來確定生成每個(gè)節(jié)點(diǎn)時(shí)所采用的合適屬性 | 適用于離散的描述屬性 |
C4.5 | 使用信息增益率來選擇節(jié)點(diǎn)屬性,并克服ID3算法的不足 | 即適用離散的描述屬性呦適用連續(xù)的描述屬性 |
CART | 是一種有效的非參數(shù)分類和回歸方法梢褐,通過構(gòu)建樹旺遮、修建樹、評(píng)估樹來構(gòu)建二叉樹 | 當(dāng)終結(jié)點(diǎn)為連續(xù)屬性時(shí)該樹為回歸樹盈咳;當(dāng)終節(jié)點(diǎn)為分類變量時(shí)耿眉,即為分類樹 |
實(shí)例
數(shù)據(jù)總結(jié): 屬性數(shù)據(jù)4個(gè) = {天氣,溫度鱼响,濕度鸣剪,風(fēng)速}
類別2個(gè) = {進(jìn)行,取消}
1丈积、類型信息熵
定義:所有樣本中各種類別出現(xiàn)的不確定性之和筐骇,根據(jù)熵的概念,熵越大江滨,不確定性就越大铛纬。需要研究清楚信息就越多。
2唬滑、每個(gè)屬性的信息熵
每個(gè)屬性信息熵相當(dāng)于一種條件熵告唆。表示在某種屬性的條件下,各種類別出現(xiàn)的不確定性之和间雀。屬性的信息熵越大悔详,該屬性擁有的樣本類型越不“純”。
3惹挟、信息增益
信息增益 = 熵 - 條件熵(信息類別熵 - 屬性信息熵)茄螃;表示信息不確定性減少的程度。若是一個(gè)屬性的信息增益越大连锯,就表示用這個(gè)屬性進(jìn)行樣本劃分可以更好的減少劃分后樣本的不確定性归苍。當(dāng)然用狱,選擇該屬性就可以更快更好的完成分類目標(biāo)。
信息增益的ID3算法的特征選擇指標(biāo)
4.屬性分裂信息度量
通過分裂信息度量來考慮某種屬性進(jìn)行分裂時(shí)分支的數(shù)量信息和尺寸信息拼弃,而這些信息稱之為屬性的內(nèi)在信息夏伊。
信息增益率 = 信息增益 / 內(nèi)存信息,導(dǎo)致屬性的重要性隨內(nèi)在信息的增大而減形茄酢(換句話說:若是某個(gè)屬性本身的不確定性很大溺忧,那就不傾向選取它)。是對單純使用信息增益有所補(bǔ)償
5盯孙、信息增益率
IGR(天氣) = Gain(天氣) / H(天氣) = 0.246 / 1.577 = 0.155
IGR(溫度) = Gain(溫度) / H(溫度) = 0.029 / 1.556 = 0.0186
IGR(濕度) = Gain(濕度) / H(濕度) = 0.151 / 1.0 = 0.151
IGR(風(fēng)速) = Gain(風(fēng)速) / H(風(fēng)速) = 0.048 / 0.985 = 0.048
結(jié)論
后續(xù)
信息熵:體現(xiàn)的是在整個(gè)樣本數(shù)據(jù)集中鲁森,結(jié)果類型或條件屬性在對應(yīng)的結(jié)果集中單一事件出現(xiàn)不確定性的概率;而這個(gè)不確定性的結(jié)果和對應(yīng)的結(jié)果類型或條件屬性存在log的聯(lián)系振惰;信息的不確定性越大歌溉,熵的值也就越大; 針對的是一元模型的概率
-(同一結(jié)果類型記錄的個(gè)數(shù)) / (整個(gè)樣本數(shù)據(jù)結(jié)果類型記錄的總數(shù)) * log2((同一結(jié)果類型記錄的個(gè)數(shù)) / (整個(gè)樣本數(shù)據(jù)結(jié)果類型記錄的總數(shù)))
條件熵: 通過多元模型的方式來減少一元模型中不確定性,或者說降低對應(yīng)的熵骑晶,越低意味著信息的不確定性就越小痛垛。
條件熵 = -某個(gè)條件屬性某個(gè)類型/總結(jié)果記錄數(shù) * 該條件屬性某個(gè)類型的不同細(xì)分類的信息熵 之和
該條件屬性某個(gè)類型的不同細(xì)分類的信息熵 = 同個(gè)屬性不同內(nèi)容類型相對結(jié)果類型的信息熵的之和