一 決策樹的介紹
1.決策樹的介紹
決策樹是一種常見的分類模型核行,在金融分控精算、醫(yī)療輔助診斷等諸多行業(yè)具有較為廣泛的應(yīng)用伯病。決策樹的核心思想是基于樹結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行劃分线欲,這種思想是人類處理問題時(shí)的本能方法明场。例如在婚戀市場(chǎng)中,女方通常會(huì)先看男方是否有房產(chǎn)李丰,如果有房產(chǎn)再看是否有車產(chǎn)苦锨,如果有車產(chǎn)再看是否有穩(wěn)定工作……最后得出是否要深入了解的判斷。
決策樹的主要優(yōu)點(diǎn):
a 具有很好的解釋性趴泌,模型可以生成可以理解的規(guī)則舟舒。
b 可以發(fā)現(xiàn)特征的重要程度。
c 模型的計(jì)算復(fù)雜度較低嗜憔。
決策樹的主要缺點(diǎn):
a 模型容易過擬合秃励,需要采用減枝技術(shù)處理。
b 不能很好利用連續(xù)型特征吉捶。
c 預(yù)測(cè)能力有限夺鲜,無法達(dá)到其他強(qiáng)監(jiān)督模型效果。
d 方差較高呐舔,數(shù)據(jù)分布的輕微改變很容易造成樹結(jié)構(gòu)完全不同币励。
2.決策樹的應(yīng)用
由于決策樹模型中自變量與因變量的非線性關(guān)系以及決策樹簡(jiǎn)單的計(jì)算方法,使得它成為集成學(xué)習(xí)中最為廣泛使用的基模型珊拼。梯度提升樹(GBDT)食呻,XGBoost以及LightGBM等先進(jìn)的集成模型都采用了決策樹作為基模型,在廣告計(jì)算杆麸、CTR預(yù)估搁进、金融風(fēng)控等領(lǐng)域大放異彩,成為當(dāng)今與神經(jīng)網(wǎng)絡(luò)相提并論的復(fù)雜模型昔头,更是數(shù)據(jù)挖掘比賽中的潮剩客。在新的研究中揭斧,南京大學(xué)周志華老師提出一種多粒度級(jí)聯(lián)森林模型莱革,創(chuàng)造了一種全新的基于決策樹的深度集成方法,為我們提供了決策樹發(fā)展的另一種可能讹开。
同時(shí)決策樹在一些需要明確可解釋甚至提取分類規(guī)則的場(chǎng)景中被廣泛應(yīng)用盅视,而其他機(jī)器學(xué)習(xí)模型在這一點(diǎn)很難做到。例如在醫(yī)療輔助系統(tǒng)中旦万,為了方便專業(yè)人員發(fā)現(xiàn)錯(cuò)誤闹击,常常將決策樹算法用于輔助病癥檢測(cè)。例如在一個(gè)預(yù)測(cè)哮喘患者的模型中成艘,醫(yī)生發(fā)現(xiàn)測(cè)試的許多高級(jí)模型的效果非常差赏半。所以他們?cè)跀?shù)據(jù)上運(yùn)行了一個(gè)決策樹的模型贺归,發(fā)現(xiàn)算法認(rèn)為劇烈咳嗽的病人患哮喘的風(fēng)險(xiǎn)很小。但醫(yī)生非常清楚劇烈咳嗽一般都會(huì)被立刻檢查治療断箫,這意味著患有劇烈咳嗽的哮喘病人都會(huì)馬上得到收治拂酣。用于建模的數(shù)據(jù)認(rèn)為這類病人風(fēng)險(xiǎn)很小,是因?yàn)樗羞@類病人都得到了及時(shí)治療仲义,所以極少有人在此之后患病或死亡婶熬。