決策樹(shù)筆記整理

決策樹(shù)模型時(shí)一種描述對(duì)實(shí)例進(jìn)行分類的樹(shù)形結(jié)構(gòu)垢乙。決策樹(shù)可以分成ID3查近、C4.5和CART眉踱。

1、基于信息增益(用于ID3和ID4.5)

只能用于離散的特征集霜威,用做分類谈喳。
P(x = x_i)=p_i, i=1,2,...,n
H(X) = -\sum_{i=1}^np_i\log{p_i} (注:熵越大,隨機(jī)變量的不確定性越大)
條件熵 H(Y|x) = -\sum_{i=1}^np_iH(Y|x = x_i)
信息熵增益 g(D,A) = H(D) - H(D|A) (特征A對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A)戈泼,定義為集合D的經(jīng)驗(yàn)熵H(D)與特征A給定條件下D的經(jīng)驗(yàn)條件熵H(D|A)之差)
信息增益比: g_R(D,A) = \frac{g(D,A)}{H_A(D)} (特征A的信息增益g(D,A)與訓(xùn)練數(shù)據(jù)集D關(guān)于特征A的值的熵H_A(D)之比)

基于信息增益算法的算法

當(dāng)前數(shù)據(jù)的熵婿禽,D表示數(shù)據(jù)總數(shù)赏僧,C_k表示數(shù)據(jù)集的k分類:
H(D) = - \sum_{k=1}^K\frac{|C_k|}{D}\log\frac{|C_k|}{|D|}
對(duì)于特征A的條件熵是:
H(D|A) = -\sum_{i=1}^{N}\frac{|D_i|}{|D|}H(D_i) = -\sum_{i=1}^{N}\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{D}\log\frac{|D_i|}{|D|}(其中D_{i}表示特征A中的特征取值i,D_{ik}表示特征取值i下的分類情況)
于是特征A的信息增益比是:g(D,A) = H(D) - H(D|A)

(1)ID3算法

選擇信息增益最大的特征作為結(jié)點(diǎn)的特征扭倾。

(2)ID4.5算法

選擇信息增益比最大特征作為結(jié)點(diǎn)的特征淀零。

決策樹(shù)剪枝

剪枝類型:預(yù)剪枝、后剪枝

?預(yù)剪枝:在構(gòu)造決策樹(shù)的同時(shí)進(jìn)行剪枝膛壹。所有決策樹(shù)的構(gòu)建方法驾中,都是在無(wú)法進(jìn)一步降低熵的情況下才會(huì)停止創(chuàng)建分支的過(guò)程,為了避免過(guò)擬合模聋,可以設(shè)定一個(gè)閾值肩民,熵減小的數(shù)量小于這個(gè)閾值,即使還可以繼續(xù)降低熵链方,也停止繼續(xù)創(chuàng)建分支持痰。但是這種方法實(shí)際中的效果并不好。
?后剪枝:是在決策樹(shù)生長(zhǎng)完成之后侄柔,對(duì)樹(shù)進(jìn)行剪枝共啃,得到簡(jiǎn)化版的決策樹(shù)。剪枝的過(guò)程是對(duì)擁有同樣父節(jié)點(diǎn)的一組節(jié)點(diǎn)進(jìn)行檢查暂题,判斷如果將其合并移剪,熵的增加量是否小于某一閾值。如果確實(shí)小薪者,則這一組節(jié)點(diǎn)可以合并一個(gè)節(jié)點(diǎn)纵苛,其中包含了所有可能的結(jié)果。后剪枝是目前最普遍的做法言津。
?后剪枝的剪枝過(guò)程是刪除一些子樹(shù)攻人,然后用其葉子節(jié)點(diǎn)代替,這個(gè)葉子節(jié)點(diǎn)所標(biāo)識(shí)的類別通過(guò)大多數(shù)原則(majority class criterion)確定悬槽。所謂大多數(shù)原則怀吻,是指剪枝過(guò)程中, 將一些子樹(shù)刪除而用葉節(jié)點(diǎn)代替,這個(gè)葉節(jié)點(diǎn)所標(biāo)識(shí)的類別用這棵子樹(shù)中大多數(shù)訓(xùn)練樣本所屬的類別來(lái)標(biāo)識(shí),所標(biāo)識(shí)的類稱為majority class ,(majority class 在很多英文文獻(xiàn)中也多次出現(xiàn))初婆。

2蓬坡、CART算法

用于回歸和分類。創(chuàng)建的是二叉決策樹(shù)磅叛。

1屑咳、回歸樹(shù)的生成

X與Y分別為輸入和輸出變量,并且Y為連續(xù)變量弊琴,給定數(shù)據(jù)集D=\{(x_i, y_1), (x_2, y_2), ..., (x_n,y_n)\}
(1).選擇最優(yōu)切分j與切分點(diǎn)S(j為特征兆龙,s為特征的且分點(diǎn),即二叉樹(shù)的分類點(diǎn))使得:
\min_\limits{j,s}[\min_\limits{c_1}\sum_{x_i\in R_1(j,s)}(y_i -c_1)^2+\min_\limits{c_2}\sum_{x_i\in R_2(j,s)}(y_i -c_2)^2]
其中c1表示集合x_i\in R_1(j,s)的平均值敲董,c2表示集合x_i\in R_2(j,s)的平均值紫皇,即:
R_1(j,s) = \{x| x^j \leq s\}, R_2(j,s) = \{x| x^j \geq s\}
\hat{c_i} = \frac{1}{N_m}\sum_{x_i \in R_m(j,s)}y_i, x\in R_m, m=1,2
(2).這樣就找到了一個(gè)最優(yōu)切分點(diǎn)慰安,然后調(diào)用步驟(1)
(3).最后生成決策樹(shù):f(x) = \sum_{m=1}^{M}\hat{c_m}I(x\in R_m)

2、分類樹(shù)的生成

基尼系數(shù):Gini(p) = \sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^Kp_{k}^2
二分類的基尼系數(shù):Gini(p) = 2p(1-p)
樣本集合D:Gini(D)=1-\sum_{k=1}^K(\frac{|C_k|}{D})^2
特征A條件下坝橡,集合D的基尼系數(shù):Gini(D, A) = \frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)
基尼指數(shù)越大泻帮,不確定性越大,選擇基尼系數(shù)最小的特征點(diǎn)计寇。
算法的過(guò)程和回歸樹(shù)的生成相似锣杂,也是遍歷特征和特征值的可能的二分點(diǎn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末番宁,一起剝皮案震驚了整個(gè)濱河市元莫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蝶押,老刑警劉巖踱蠢,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異棋电,居然都是意外死亡茎截,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)赶盔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)企锌,“玉大人,你說(shuō)我怎么就攤上這事于未∷涸埽” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵烘浦,是天一觀的道長(zhǎng)抖坪。 經(jīng)常有香客問(wèn)我,道長(zhǎng)闷叉,這世上最難降的妖魔是什么擦俐? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮握侧,結(jié)果婚禮上捌肴,老公的妹妹穿的比我還像新娘。我一直安慰自己藕咏,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布秽五。 她就那樣靜靜地躺著孽查,像睡著了一般。 火紅的嫁衣襯著肌膚如雪坦喘。 梳的紋絲不亂的頭發(fā)上盲再,一...
    開(kāi)封第一講書(shū)人閱讀 52,328評(píng)論 1 310
  • 那天西设,我揣著相機(jī)與錄音,去河邊找鬼答朋。 笑死贷揽,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的梦碗。 我是一名探鬼主播禽绪,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼洪规!你這毒婦竟也來(lái)了印屁?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤斩例,失蹤者是張志新(化名)和其女友劉穎雄人,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體念赶,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡础钠,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年阿弃,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了尼夺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片族铆。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡堰氓,死狀恐怖怔蚌,靈堂內(nèi)的尸體忽然破棺而出琼娘,到底是詐尸還是另有隱情预侯,我是刑警寧澤绽左,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布翻具,位于F島的核電站履怯,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏裆泳。R本人自食惡果不足惜叹洲,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望工禾。 院中可真熱鬧运提,春花似錦、人聲如沸闻葵。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)槽畔。三九已至栈妆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鳞尔。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工嬉橙, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人寥假。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓市框,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親糕韧。 傳聞我的和親對(duì)象是個(gè)殘疾皇子枫振,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359