樹(shù)回歸:可以對(duì)復(fù)雜和非線性的數(shù)據(jù)進(jìn)行建模谣沸;適用數(shù)值型和標(biāo)稱型數(shù)據(jù)刷钢。
1、 CART:classification and regression trees(分類回歸樹(shù))乳附。每個(gè)葉節(jié)點(diǎn)上運(yùn)用各自的均值做預(yù)測(cè)
二元切割:每次把數(shù)據(jù)集切成兩份内地,如果等于切分所要求的值進(jìn)入左子樹(shù)伴澄,否則進(jìn)入右子樹(shù)。
CART使用二元切分來(lái)處理連續(xù)型變量阱缓。
回歸樹(shù)(連續(xù)型)分類樹(shù)(離散型):
回歸樹(shù):假設(shè)葉節(jié)點(diǎn)是常數(shù)值非凌,這種策略認(rèn)為數(shù)據(jù)中的復(fù)雜關(guān)系可以用樹(shù)結(jié)構(gòu)來(lái)概括。
度量數(shù)據(jù)的一致性:在給定節(jié)點(diǎn)時(shí)計(jì)算數(shù)據(jù)的混亂度茬祷。首先計(jì)算所有數(shù)據(jù)的均值清焕,然后計(jì)算每條數(shù)據(jù)的值到均值的差值(求其絕對(duì)值或平方),這里是總方差祭犯。
用該誤差計(jì)算準(zhǔn)則,去構(gòu)建數(shù)據(jù)集上的回歸樹(shù)滚停。
實(shí)現(xiàn)choosebestsplit的切分:用最佳方式切分?jǐn)?shù)據(jù)集沃粗,生成對(duì)應(yīng)的葉節(jié)點(diǎn),即切分后誤差最小键畴。
其實(shí)現(xiàn)偽代碼如下:
對(duì)每個(gè)特征進(jìn)行:
??對(duì)每個(gè)特征值:
????將數(shù)據(jù)集切分成兩份 計(jì)算切分的誤差 如果當(dāng)前誤差小于當(dāng)前最小誤差最盅,則將當(dāng)前切分作為最佳切分,并更新最小
????誤差
??返回最佳切分的特征和閾值
如果切分不降低原有的誤差起惕,則不再切分涡贱;如果剩余特征值只有一個(gè)值則不需要再切分;如果誤差減小不夠大惹想,則也直接創(chuàng)建葉節(jié)點(diǎn)问词。如果某個(gè)子集的大小小于用戶定義的參數(shù)tolN,也不應(yīng)切分。
模型過(guò)擬合:剪枝 pruning 提前中止的條件設(shè)定為預(yù)剪枝嘀粱。
后剪枝:在測(cè)試集上進(jìn)行 合并兩個(gè)葉節(jié)點(diǎn)激挪,并計(jì)算誤差,計(jì)算不合并的誤差锋叨,如果合并后誤差減小垄分,則進(jìn)行剪枝。
2娃磺、 模型樹(shù):需要在每個(gè)葉節(jié)點(diǎn)上構(gòu)建出一個(gè)線性模型薄湿。
把葉節(jié)點(diǎn)設(shè)定為分段線性函數(shù),piecewise linear 是指由多個(gè)線性片段組成偷卧。也就是先分類豺瘤,確定在什么地方進(jìn)行分段,從而在不同的段內(nèi)部使用不同的線性模型去擬合數(shù)據(jù)涯冠。
對(duì)于給定的數(shù)據(jù)集炉奴,應(yīng)先用線性的模型進(jìn)行擬合,然后計(jì)算真實(shí)的目標(biāo)值與預(yù)測(cè)值的差值蛇更,求和得到誤差瞻赶。
3赛糟、 決策樹(shù):是一種貪心算法,不關(guān)心全局是否最優(yōu)砸逊。ID3需事先將連續(xù)型轉(zhuǎn)換為離散型數(shù)據(jù)璧南,每次選取當(dāng)前最佳特征來(lái)分割數(shù)據(jù)并按照該特征所有可能取值來(lái)切分。
計(jì)算相關(guān)系數(shù)R2师逸,corrcoef(yHat,y,rowvar=0) yhat是預(yù)測(cè)值司倚,y是目標(biāo)變量的實(shí)際值。
越接近1說(shuō)明擬合程度越高篓像。