決策樹應該有的樣子
Paste_Image.png
從根節(jié)點開始钩杰,以信息增益最大的特征作為節(jié)點進行數(shù)據(jù)集分割,重復這個過程直到子節(jié)點都是一個類別的桶良。過多的子節(jié)點會導致過擬合現(xiàn)象洞翩,我們通過剪枝(prune)來限定樹的最大深度
用信息量最大的特征去分割數(shù)據(jù)
I()函數(shù)計算信息熵稽犁,就是信息的雜質(zhì)( impurity ),即混亂度骚亿,不確定性缭付。分割前和分割后雜質(zhì)減少的最多的就是信息增益最大的特征。
Paste_Image.png
尼基系數(shù)(Gini index):數(shù)據(jù)分配的平均性循未,分配越平均的數(shù)據(jù),基尼指數(shù)越小
信息熵(entropy):信息量的度量
分類錯誤(classification error):
信息熵
信息熵方法
尼基系數(shù)
尼基系數(shù)實例
分類錯誤classification error
對比三種方法的效果
基于信息熵的決策樹實驗結(jié)果
基于信息熵
隨機森林可以看做一個決策樹的集合秫舌,是一種集成學習方法( ensemble learning )的妖,通過組合一些弱學習算法,得到一個強魯棒性的強學習算法
- 選取隨機bootstrap sample作為訓練集
- 根據(jù)bootstrap sample生成決策樹
2.1 隨機選擇d個特征
2.2 通過選擇的特征對節(jié)點進行分割足陨,通過信息增益等方法獲得最佳分割 - 重復1,2歩
- 聚合左右生成的決策樹嫂粟,利用投票法對分類標簽進行標注,以此來進行預測分類
隨機森林運行結(jié)果