決策樹回顧

簡述決策樹的原理响迂?

決策樹學(xué)習(xí)的目的是為了產(chǎn)生一棵泛化能力強(qiáng),即處理未見示例能力強(qiáng)的決策樹细疚,其基本流程遵循簡單且直觀地“分而治之”策略蔗彤。
決策樹學(xué)習(xí)的關(guān)鍵是選擇最優(yōu)劃分屬性。一般而言疯兼,隨著劃分過程不斷進(jìn)行然遏,決策樹的分支節(jié)點所包含的樣本將趨近于同一類別,即節(jié)點的“純度”越來越高吧彪。
衡量純度的指標(biāo)有:信息熵待侵、增益率、基尼指數(shù)姨裸。

什么是ID3決策樹秧倾?

ID3決策樹是以信息增益為準(zhǔn)則來選擇劃分屬性,信息增益即代表選擇某劃分屬性前后的信息熵的差值傀缩,信息增益越大那先,意味著該屬性越適合被選擇去劃分。

什么是C4.5決策樹赡艰?

C4.5決策樹是以增益率為準(zhǔn)則來選擇劃分屬性售淡,由于信息增益準(zhǔn)則對可取值數(shù)目多的屬性有所偏好,為減少這種偏好帶來的不利影響,增益率被提出揖闸,其定義為:將信息增益比上一個固有值(隨著取值數(shù)目的增多而增大的一個固定值)苦掘。但需要注意的是C4.5算法并不是直接選擇增益率最大的屬性,因為增益率準(zhǔn)則對可取值數(shù)目較少的屬性有偏好楔壤,C4.5算法先從候選屬性中找出信息增益高于平均水平的屬性鹤啡,然后再從中選擇增益率最高的。這是一個啟發(fā)式的規(guī)則蹲嚣。

什么是CART決策樹递瑰?

CART決策樹使用“基尼指數(shù)”來選擇劃分屬性,基尼指數(shù)反映了從數(shù)據(jù)集中隨機(jī)抽取兩個樣本隙畜,其類別標(biāo)記不一致的概率抖部。選擇基尼系數(shù)的原因是為了減少計算量,且易于理解议惰。

決策樹如何做回歸慎颗?

首先,我們要明白言询,什么是回歸樹俯萎,什么是分類樹。兩者的區(qū)別在于樣本輸出运杭,如果樣本輸出是離散值夫啊,那么這是一顆分類樹。如果果樣本輸出是連續(xù)值辆憔,那么那么這是一顆回歸樹撇眯。
除了概念的不同,CART回歸樹和CART分類樹的建立和預(yù)測的區(qū)別主要有下面兩點:
    1)連續(xù)值的處理方法不同
    2)決策樹建立后做預(yù)測的方式不同虱咧。
對于連續(xù)值的處理熊榛,我們知道CART分類樹采用的是用基尼系數(shù)的大小來度量特征的各個劃分點的優(yōu)劣情況。但是對于回歸模型腕巡,我們使用了常見的和方差的度量方式玄坦。CART回歸樹的度量目標(biāo)是,對于任意劃分特征A逸雹,對應(yīng)的任意劃分點s兩邊劃分成的數(shù)據(jù)集D1和D2营搅,求出使D1和D2各自集合的均方差最小云挟,同時D1和D2的均方差之和最小所對應(yīng)的特征和特征值劃分點
對于決策樹建立后做預(yù)測的方式梆砸,上面講到了CART分類樹采用葉子節(jié)點里概率最大的類別作為當(dāng)前節(jié)點的預(yù)測類別。而回歸樹輸出不是類別园欣,它采用的是用最終葉子的均值或者中位數(shù)來預(yù)測輸出結(jié)果帖世。

決策樹的缺點

1)決策樹算法非常容易過擬合,導(dǎo)致泛化能力不強(qiáng)∪战茫可以通過設(shè)置節(jié)點最少樣本數(shù)量和限制決策樹深度來改進(jìn)赂弓。
2)決策樹會因為樣本發(fā)生一點點的改動,就會導(dǎo)致樹結(jié)構(gòu)的劇烈改變哪轿。這個可以通過集成學(xué)習(xí)之類的方法解決盈魁。
3)尋找最優(yōu)的決策樹是一個NP難的問題,我們一般是通過啟發(fā)式方法窃诉,容易陷入局部最優(yōu)杨耙。可以通過集成學(xué)習(xí)之類的方法來改善飘痛。
4)有些比較復(fù)雜的關(guān)系珊膜,決策樹很難學(xué)習(xí),比如異或宣脉。這個就沒有辦法了车柠,一般這種關(guān)系可以換神經(jīng)網(wǎng)絡(luò)分類方法來解決。
5)如果某些特征的樣本比例過大塑猖,生成決策樹容易偏向于這些特征竹祷。這個可以通過調(diào)節(jié)樣本權(quán)重來改善。

簡述GBDT的原理羊苟?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末溶褪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子践险,更是在濱河造成了極大的恐慌猿妈,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件巍虫,死亡現(xiàn)場離奇詭異彭则,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)占遥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進(jìn)店門俯抖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人瓦胎,你說我怎么就攤上這事芬萍。” “怎么了搔啊?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵柬祠,是天一觀的道長。 經(jīng)常有香客問我负芋,道長漫蛔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮莽龟,結(jié)果婚禮上蠕嫁,老公的妹妹穿的比我還像新娘。我一直安慰自己毯盈,他們只是感情好剃毒,可當(dāng)我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著搂赋,像睡著了一般迟赃。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上厂镇,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天纤壁,我揣著相機(jī)與錄音,去河邊找鬼捺信。 笑死酌媒,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的迄靠。 我是一名探鬼主播秒咨,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼掌挚!你這毒婦竟也來了雨席?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤吠式,失蹤者是張志新(化名)和其女友劉穎陡厘,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體特占,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡糙置,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了是目。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谤饭。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖懊纳,靈堂內(nèi)的尸體忽然破棺而出揉抵,到底是詐尸還是另有隱情,我是刑警寧澤嗤疯,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布冤今,位于F島的核電站,受9級特大地震影響身弊,放射性物質(zhì)發(fā)生泄漏辟汰。R本人自食惡果不足惜列敲,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一阱佛、第九天 我趴在偏房一處隱蔽的房頂上張望帖汞。 院中可真熱鬧,春花似錦凑术、人聲如沸翩蘸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽催首。三九已至,卻和暖如春泄鹏,著一層夾襖步出監(jiān)牢的瞬間郎任,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工备籽, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留舶治,地道東北人。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓车猬,卻偏偏與公主長得像霉猛,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子珠闰,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容