需要掌握的知識前提:信息熵、信息增益场航、增益率
1. 信息熵(information entropy)
,之所以加負號廉羔,是因為 信息熵通常都用來表示越小溉痢,確定性越大
2. 信息增益(information gain)
僻造,信息增益越大,意味著用屬性a來劃分孩饼,所獲得的純度越大髓削。ID3?的決策樹構(gòu)建方法,就是每一步選擇信息增益最大的屬性來劃分:
3. ID3算法的下一代改進 C4.5 用的是 增益率(gain ratio)镀娶,立膛,
其中IV(a) =?
4. 無論ID3還是C4.5,對決策樹泛化的性能影響有限梯码,作用最大的還是剪枝宝泵。
預剪枝:
就是在建樹的過程中剪枝,標準就是沒構(gòu)建一個節(jié)點轩娶,形成一個 '樹樁'儿奶,用測試集驗證一下泛化續(xù)班性能,如果泛化性能變好鳄抒,那么繼續(xù)闯捎,否則剪枝。
后剪枝:
決策樹建好之后许溅,再從葉子節(jié)點開始瓤鼻,判斷是否需要剪枝。后剪枝的泛化效果比預剪枝效果好贤重,但是訓練時間會長茬祷,并且對機器資源的占用也會高,畢竟需要建好一顆完整的樹游桩。
后記:
信息熵牲迫、信息增益、增益率要理解借卧,至于建樹的過程中盹憎,實際不需要每次都去計算,調(diào)包即可铐刘。