決策樹Decision Tree

決策樹:

ID3:其核心是在決策樹的各級節(jié)點上伯诬,實用信息增益(information gain)作為屬性的選擇標準晚唇,來幫助確定生成每個節(jié)點是所應采用的合適屬性。ID3只是用于處理離散的描述屬性盗似。

C4.5: 相對于ID3的改進是使用信息增益率來選擇節(jié)點屬性哩陕。C4.5技能處理離散的描述屬性,也能處理連續(xù)的描述屬性赫舒。

CART:是一種十分有效的非參數分類和回歸方法悍及,通過構建樹、修剪樹接癌、評估樹來構建二叉樹心赶。當終結點是連續(xù)變量時,該樹為回歸樹缺猛;當終結點是分類變量時缨叫,該樹為分類樹。


ID3:基于信息增益選擇最佳屬性枯夜,構造一棵信息熵值下降最快的樹弯汰,樹不斷構建的過程也就是熵不斷下降的過程艰山。

信息熵:H(X) 描述X攜帶的信息量湖雹。 信息量越大(值變化越多,把事情搞清楚所需要的信息量就越多)曙搬,則越不確定摔吏,越不容易被預測鸽嫂。表示隨機變量的不確定性。

條件熵:在一個條件下征讲,隨機變量的不確定性据某。

信息增益IG(Y|X):?衡量一個屬性(x)區(qū)分樣本(y)的能力;在一個條件下诗箍,信息不確定性減少的程度癣籽。?當新增一個屬性(x)時,信息熵H(Y)的變化大小即為信息增益滤祖。 IG(Y|X)越大表示x越重要筷狼。

信息增益例子:明天下雨例如信息熵是2,條件熵(下雨|陰天)是0.01(因為如果是陰天就下雨的概率很大匠童,信息就少了)埂材,這樣相減后為1.99,在獲得陰天這個信息后汤求,下雨信息不確定性減少了1.99俏险!是很多的!所以信息增益大扬绪!也就是說竖独,陰天這個信息對下雨來說是很重要的!

采用劃分后樣本集的不確定性來作為衡量劃分好壞的標準挤牛,用信息增益值度量不確定性:信息增益越大预鬓,不確定性就越小。ID3在每個非葉節(jié)點選擇信息增益最大的屬性作為測試屬性赊颠,這樣可以得到當前情況下最純(最極端的情況是每個葉子節(jié)點只有一個樣本)的拆分格二,從而得到較小的決策樹

定義:特征A對訓練集D的信息增益g(D,A)竣蹦,定義為集合D的經驗熵H(D)與特征A給定條件下D的經驗條件熵H(D|A)之差:

信息增益
信息熵
特征A對數據集D的經驗條件熵

可以轉化得到:

建模步驟

1. 對當前樣本集合顶猜,計算所有屬性的信息增益

2. 選擇信息增益最大的屬性作為測試屬性,把測試屬性取值相同的樣本化為同一個樣本集

3. 若子樣本集的類別墅型只有單個屬性痘括,則為葉子節(jié)點长窄,判斷其屬性值并標上相應的符號,然后返回調用處纲菌;否則對子樣本集本算法

ID3例子

C4.5: 基于信息增益率(gain ratio)的ID3改進版挠日。ID3不足在于選擇具體特征作為節(jié)點的時候,它會偏向于選擇取值較多的特征翰舌。一個極端情況是:以是否出去玩為例嚣潜,假設新來的一列特征為partner,有n個取值椅贱,且每個取值只有一條記錄懂算,則特征的信息熵為0只冻,

每個特征自成一類。E(A)即上文中H(D|A)條件經驗熵

這樣的信息增益是最大的计技,必然選擇此特征為節(jié)點喜德,但是結果是樹很龐大而深度很淺,泛化預測能力較差垮媒。

gain ratio

IV(A): 屬性A的可能取值數目越多舍悯,則IV(A)的值通常越大。

IV(A): 固有值intrinsic value

這里的IV(A)也叫做split information

*注

增益率準則對可取值數目較小的特征有所偏好睡雇,所以C4.5并不是直接選增益率最大的候選劃分特征贱呐,而是使用了一個啟發(fā)式:先從候選劃分特征中找出信息增益高于平均水平的屬性,再從中選擇增益率最高的入桂。

對連續(xù)屬性的處理如下:

1.??????對特征的取值進行升序排序

2.??????兩個特征取值之間的中點作為可能的分裂點奄薇,將數據集分成兩部分,計算每個可能的分裂點的信息增益(InforGain)抗愁。優(yōu)化算法就是只計算分類屬性發(fā)生改變的那些特征取值馁蒂。

3.??????選擇修正后信息增益(InforGain)最大的分裂點作為該特征的最佳分裂點

4.??????計算最佳分裂點的信息增益率(Gain Ratio)作為特征的Gain Ratio。注意蜘腌,此處需對最佳分裂點的信息增益進行修正:減去log2(N-1)/|D|(N是連續(xù)特征的取值個數沫屡,D是訓練數據數目,此修正的原因在于:當離散屬性和連續(xù)屬性并存時撮珠,C4.5算法傾向于選擇連續(xù)特征做最佳樹分裂點)


CART(Classification And Regression Tree): 使用基尼指數(Gini index)來選擇劃分特征沮脖。該算法是一種二分遞歸分割法,把擋墻的樣本集合劃分為兩個子集合芯急,它生成的每個非葉子節(jié)點都只有兩個分支(binary tree)勺届。

基尼指數:表示數據的不純度性基尼指數越大娶耍,越不平等免姿。總體內包含的類別越雜亂榕酒,GINI指數就越大(跟熵的概念很相似)

給定一個數據集D胚膊,其中包含的分類類別總數為K,類別k在數據集中的個數為|C|,其Gini指數表示為:

數據集D的gini指數
特征a的gini指數

在候選特征集合A中想鹰,選擇那個使得劃分后基尼指數最小的特征為最優(yōu)化分數性紊婉,即:

a* = arg min GiniIndex(D,a)


小節(jié)

算法????支持模型????樹結構????特征選擇? ? ? ? ? ? ?連續(xù)值處理????缺失值處理????剪枝? ? ? ? 樣本量

ID3? ? ?分類????????????多叉樹? ? ?信息增益? ? ? ? ? ? 不支持? ? ? ? ? 不支持? ? ? ? ? ? 不支持? ? ? ? /

C4.5? ?分類????????????多叉樹? ? ?信息增益比? ? ? ? ?支持? ? ? ? ? ? ?支持? ? ? ? ? ? ? ? 支持? ? ? ? ?小樣本(大樣本耗時)

CART分類|回歸? ? ?二叉樹? ? 基尼系數|均方差? 支持? ? ? ? ? ? 支持? ? ? ? ? ? ? ? ?支持? ? ? ? 大樣本(小樣本泛化誤差大)


決策樹算法優(yōu)缺點:

優(yōu)點:

1.簡單直觀

2.基本不需要數據預處理,歸一化辑舷,處理缺失值

3.預測代價O(logm)喻犁,m為樣本數

4.適用于離散和連續(xù)數據

4.邏輯上可以較好的解釋,相較于神經網絡的黑盒

5.可以用交叉驗證的剪枝來提高泛化能力

6.對異常點容錯能力好

缺點:

1.非常容易過擬合≈旰海可以通過設置節(jié)點樣本數量和先知決策樹深度以及后剪枝來改進

2.樹的結構會因為樣本的一點點改動而劇烈改變「柩辏可以通過集成學習方法改進

3.因為是貪心算法乔妈,只能確定局部最優(yōu)。通過集成學習改進

4.如果某特征樣本比例過大氓皱,生成的決策樹容易偏向這些特征路召,造成欠擬合〔ú模可以通過調節(jié)樣本權重來改進股淡。


信息熵越大,不純度越高廷区,信息越雜亂


剪枝pruning

預剪枝是指在決策樹生成過程中唯灵,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化能力(在訓練時加入驗證集隨時進行泛化驗證)的提升隙轻,則停止劃分并將當前結點標記為葉節(jié)點埠帕。

根據不同決策樹算法,防止過擬合的參數有一些不同玖绿,但max_depth是通用的敛瓷;其他的一些參數:

min_samples_split:節(jié)點在分裂之前必須具有的最小樣本數。也就是斑匪,如果該節(jié)點上的樣本數量小于參數設置的數目時呐籽,不管怎樣,這個節(jié)點也不再分裂蚀瘸。

min_samples_leaf:葉節(jié)點必須擁有的最少樣本數狡蝶。如果分裂一個節(jié)點生成一些葉子,而某個葉子上的樣本數量少于參數設置的值時贮勃,將不將這些樣本單獨作為一個葉子牢酵。

min_weight_fraction_leaf:和上面一個參數差不多,但表示為加權實例總數的一小部分衙猪。

max_leaf_nodes:葉子節(jié)點的最大數量馍乙。


后剪枝則是先從訓練集中生成一顆完整的樹,然后自底向上對非葉節(jié)點進行考察垫释,若該節(jié)點對應的子樹替換為葉節(jié)點能夠提升泛化能力丝格,則進行剪枝將該子樹替換為葉節(jié)點,否則不剪枝棵譬。

評價函數:類似損失函數显蝌,越小越好。?

節(jié)點sample個數*信息熵/基尼系數
節(jié)點信息熵/基尼系數+當前樹的葉子個數



隨機森林random forest

bootstraping:有放回的抽樣

bagging:有放回的采樣n個樣本建立一個分類器

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市曼尊,隨后出現的幾起案子酬诀,更是在濱河造成了極大的恐慌,老刑警劉巖骆撇,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瞒御,死亡現場離奇詭異,居然都是意外死亡神郊,警方通過查閱死者的電腦和手機肴裙,發(fā)現死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涌乳,“玉大人蜻懦,你說我怎么就攤上這事∠ο” “怎么了宛乃?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蒸辆。 經常有香客問我烤惊,道長,這世上最難降的妖魔是什么吁朦? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任柒室,我火速辦了婚禮,結果婚禮上逗宜,老公的妹妹穿的比我還像新娘雄右。我一直安慰自己,他們只是感情好纺讲,可當我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布擂仍。 她就那樣靜靜地躺著,像睡著了一般熬甚。 火紅的嫁衣襯著肌膚如雪逢渔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天乡括,我揣著相機與錄音肃廓,去河邊找鬼。 笑死诲泌,一個胖子當著我的面吹牛盲赊,可吹牛的內容都是我干的。 我是一名探鬼主播敷扫,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼哀蘑,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起绘迁,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤合溺,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后缀台,有當地人在樹林里發(fā)現了一具尸體棠赛,經...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年将硝,在試婚紗的時候發(fā)現自己被綠了恭朗。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片屏镊。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡依疼,死狀恐怖晴叨,靈堂內的尸體忽然破棺而出穆律,到底是詐尸還是另有隱情比然,我是刑警寧澤钠右,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布岛杀,位于F島的核電站锦秒,受9級特大地震影響旋炒,放射性物質發(fā)生泄漏尤泽。R本人自食惡果不足惜歌逢,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一巾钉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧秘案,春花似錦砰苍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至赤惊,卻和暖如春吼旧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背未舟。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工圈暗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人裕膀。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓厂置,卻偏偏與公主長得像,于是被迫代替她去往敵國和親魂角。 傳聞我的和親對象是個殘疾皇子昵济,可洞房花燭夜當晚...
    茶點故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內容

  • 轉自算法雜貨鋪--決策樹決策樹和隨機森林學習筆記-歡迎補充 http://www.cnblogs.com/fion...
    明翼閱讀 10,742評論 1 6
  • 3.1、摘要 在前面兩篇文章中,分別介紹和討論了樸素貝葉斯分類與貝葉斯網絡兩種分類算法访忿。這兩種算法都以貝葉斯定理為...
    chaaffff閱讀 876評論 0 1
  • 決策樹是一個預測模型瞧栗,也是一個分類器,代表對象屬性和對象值的一種映射關系海铆。決策樹適用于小數據的分類迹恐。 決策樹例子圖...
    BadBadBadBoy閱讀 2,330評論 0 1
  • 決策樹理論在決策樹理論中,有這樣一句話卧斟,“用較少的東西殴边,照樣可以做很好的事情。越是小的決策樹珍语,越優(yōu)于大的決策樹”锤岸。...
    制杖灶灶閱讀 5,851評論 0 25
  • 簡介 決策樹也是一種監(jiān)督學習的算法,和貝葉斯板乙,SVM類似是偷。既然是“樹”,很自然的想到了二分募逞。其實決策樹就是根據特征...
    Eric_AIPO閱讀 1,213評論 0 3