原文
決策樹是一種樹形結(jié)構(gòu)捣鲸,其中每一個內(nèi)部節(jié)點表示在一個特征(屬性)上的測試特漩,每個分支代表一個測試輸出,每個葉子節(jié)點代表一種類別糯而。
決策樹學(xué)習(xí)是一種歸納學(xué)習(xí),從一堆數(shù)據(jù)中歸納出一個學(xué)習(xí)模型出來泊窘。決策樹學(xué)習(xí)采用的是自頂向下的遞歸學(xué)習(xí)熄驼,其基本思想是以信息熵為度量構(gòu)造一棵熵值下降最快的樹,樹不斷構(gòu)建的過程也就是熵不斷下降的過程烘豹。而其中節(jié)點的具體特征選擇取決于哪個特征在當前節(jié)點的熵下降最快(如在構(gòu)建根節(jié)點的時候瓜贾,比較了年齡、長相吴叶、收入、是否公務(wù)員這些特征序臂,發(fā)現(xiàn)選擇年齡這一特征會導(dǎo)致熵下降最快蚌卤,于是選擇年齡作為根節(jié)點)。以此類推奥秆,到了葉子節(jié)點處的熵值即為零逊彭。至于說具體如何比較及計算熵下降的程度,稍后會給出构订。
決策樹的優(yōu)缺點
決策樹算法的最大優(yōu)點是:它可以自學(xué)習(xí)侮叮。在學(xué)習(xí)的過程中,不需要使用者了解過多背景知識悼瘾,只需要對訓(xùn)練實例進行較好的標注囊榜,就能夠進行學(xué)習(xí)。像之前的”是否出去玩”例子亥宿,只要給定一個表格卸勺,并且每一列(最后一列是標注列)都給定(并不需要知道每一列表示的含義),那么決策樹就會自己構(gòu)造出一種基于規(guī)則的決策算法烫扼。
決策樹缺點:可以看出曙求,決策樹的決策過程實質(zhì)上是貪心法,在每一步的時候都選擇當前狀態(tài)下的最優(yōu)解,一直走下去悟狱。我們知道貪心法并不能保證得到的最終結(jié)果是全局最優(yōu)的静浴,這也是決策樹的缺陷之一,有可能會導(dǎo)致過擬合的問題.
知識點補充:
經(jīng)驗熵與經(jīng)驗條件熵
只要給定一個隨機變量P挤渐,我們就可以求得該隨機變量的熵苹享。但是實踐中,我們得到的并不是真正的隨機變量p挣菲,得到的只是p的若干采樣富稻,那么我們實踐中得到的熵就不一定是真正的隨機變量p的熵,于是白胀,我們稱實踐中得到的熵為經(jīng)驗熵椭赋,類似地也就有了經(jīng)驗條件熵的概念。教科書上的表述:當熵和條件熵中的概率是由數(shù)據(jù)估計得到時或杠,所對應(yīng)的熵和條件熵分別稱為經(jīng)驗熵和經(jīng)驗條件熵哪怔。
決策樹的生成算法--ID3、C4.5向抢、CART
建立決策樹的關(guān)鍵认境,是在當前狀態(tài)下選擇哪個特征(即屬性)作為節(jié)點。之前已經(jīng)講過挟鸠,選擇節(jié)點的依據(jù)取決于哪個特征在當前節(jié)點的熵下降最快叉信。那么給出了一堆數(shù)據(jù),那么如何求每個特征的熵(或熵下降的程度)呢艘希?根據(jù)不同的目標函數(shù)硼身,決策樹算法主要有三種算法:ID3、C4.5覆享、CART佳遂。