先驗(yàn)知識(shí)
熵表示是的是隨機(jī)變量的不確定度哲思,熵越大表示隨機(jī)變量的不確定度越大。
使得信息增益最大的特征為最優(yōu)特征。ID3算法
image.png
然而信息增益的度量不太絕對(duì)兰粉,又出現(xiàn)了信息增益比的概念,C4.5算法
image.png
CART
全稱Classification and Regression Tree 分類和回歸樹(shù)顶瞳,其本質(zhì)是決策二叉樹(shù)玖姑,遞歸地構(gòu)建二叉決策樹(shù),回歸樹(shù)平方誤差最小原則慨菱,分類樹(shù)采用基尼指數(shù)最小原則焰络。
選擇使得分類后基尼指數(shù)最小的特征。
image.png
GBDT
1.jpg
XGBoost
XGBoost是基于GBDT算法優(yōu)化了損失函數(shù)符喝,提升了速度闪彼。
XGBoost與GBDT之間的區(qū)別與聯(lián)系:
https://zhuanlan.zhihu.com/p/85044159