看書的時候很憂傷咕缎,作為一個專門關(guān)注回歸問題的時候蛤售,書上說主要關(guān)注的是分類問題烘豹。
決策樹: 分類決策樹模型是一種描述對實例進行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(Node)和有向邊(directed edge)組成胆敞。結(jié)點有兩種類型:內(nèi)部結(jié)點(internal node)和葉節(jié)點(leaf node).內(nèi)部結(jié)點表示一個特征或?qū)傩宰琶保~結(jié)點表示一個類。
信息增益
在信息論與概率統(tǒng)計中竿秆,熵(entropy)是表示隨機變量不確定性的度量启摄。設(shè)X是一個取有限個的離散隨機變量,其概率分布為
則隨機變量X的熵的定義為
通常對數(shù)是以2或者 e為底幽钢,單位為比特(bit)或納特(nat)歉备。由于熵只依賴于X的分布,而與X的取值無關(guān)匪燕,所以也可以將X的熵記作 ,即
熵越大蕾羊,隨機變量的不確定性越大,從定義可驗證
信息增益表示得知特征X的信息而使得類Y的信息的不確定性減少的程度
定義:信息增益是帽驯,特征A對訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A),定義為數(shù)據(jù)集D的經(jīng)驗熵H(D)與特征A給定條件下的經(jīng)驗條件熵H(D|A)之差龟再,即
信息增益大的特征具有更強的分類能力
信息增益比
以信息增益作為劃分?jǐn)?shù)據(jù)集的特征,存在偏向于取值較多的特征的問題尼变。使用信息增益比可以對這個問題進行校正利凑。這是特征選擇的另一準(zhǔn)則。
ID3算法
ID3算法的核心是在決策樹各個結(jié)點熵應(yīng)用信息增益準(zhǔn)則選擇特征嫌术,遞歸地構(gòu)建決策樹哀澈。
具體方法:
從根結(jié)點開始,對結(jié)點計算所有可能的特征的信息增益度气,選擇信息增益最大的特征作為結(jié)點的特征割按,由該特征的不同取值建立子結(jié)點;再對子節(jié)點遞歸地調(diào)用以上方法磷籍,構(gòu)建決策樹适荣;直到所有特征的信息增益均很小或沒有特征可以選擇為止现柠。最后得到一棵決策樹。
ID3 算法只有樹的生成弛矛,所以該算法生成的樹容易產(chǎn)生過擬合
C4.5算法
與ID3算法唯一的區(qū)別在于够吩,C4.5將信息增益改成了信息增益比