最近在學(xué)習(xí)數(shù)據(jù)分析画侣,嘗試把學(xué)習(xí)的內(nèi)容整理并整合成筆記并記錄下來(lái)。保持定期更新姓惑。
回到數(shù)據(jù)分析的目的译株,其實(shí)大部分是用來(lái)預(yù)測(cè)未來(lái)的結(jié)果。這就要求給到一些歷史的數(shù)據(jù)作為樣本挺益,觀察變化的趨勢(shì),并適當(dāng)總結(jié)出模型乘寒,才能方便進(jìn)行預(yù)測(cè)望众。通常來(lái)說(shuō),關(guān)系是比較簡(jiǎn)單的,由于變量越少模型越簡(jiǎn)單烂翰,比如說(shuō)身高與年齡的關(guān)系夯缺,比如小朋友隨著年齡的增長(zhǎng)就長(zhǎng)個(gè)子了,后來(lái)到了成年就慢慢穩(wěn)定了甘耿。身高和年齡在某個(gè)區(qū)間來(lái)說(shuō)踊兜,就是正相關(guān)。但是佳恬,有時(shí)候數(shù)據(jù)集中會(huì)包含一些復(fù)雜的相互關(guān)系捏境,使輸入數(shù)據(jù)和目標(biāo)變量之間存在非線性的關(guān)系。
對(duì)于這種復(fù)雜關(guān)系的建模毁葱,其中一種可行的方式是使用樹來(lái)對(duì)預(yù)測(cè)值分段垫言,包括分段常數(shù)(回歸樹)和分段直線(模型樹)。
CART算法可以用于構(gòu)建二元樹并處理離散型或連續(xù)型數(shù)據(jù)的切分倾剿。若使用不同的誤差準(zhǔn)則筷频,就可以通過(guò)CART算法構(gòu)建模型樹和回歸樹。如下圖前痘,使用兩條直線擬合會(huì)比使用一組常數(shù)來(lái)建模效果更好凛捏。如果使用常規(guī)的一元線性回歸,則得到一個(gè)擬合方程芹缔,以0.3為分界線啥容,左右側(cè)容易出現(xiàn)較大的誤差。若用決策樹沈堡,則 可以由[0.0,0.3]和[0.3,1.0]這兩個(gè)區(qū)間的兩條直線組成猴蹂。決策樹相比其他機(jī)器學(xué)習(xí)算法易于理解,而模型樹的可解釋性是它優(yōu)于回歸樹的特性之一窒所。模型樹同時(shí)具備更高的預(yù)測(cè)準(zhǔn)確度鹉勒。
但是,該算法構(gòu)建的樹傾向于對(duì)數(shù)據(jù)過(guò)擬合吵取,可采用剪枝的方法解決該問(wèn)題禽额。剪枝分為預(yù)剪枝(在樹的構(gòu)建過(guò)程中就進(jìn)行剪枝)和后剪枝(樹構(gòu)建完畢進(jìn)行剪枝)。預(yù)剪枝更有效但需要用戶定義一些參數(shù)皮官。一般地脯倒,為了尋找最佳模型可以同時(shí)使用兩種剪枝技術(shù)。
在學(xué)習(xí)的過(guò)程中捺氢,有很多不錯(cuò)的例子值得學(xué)習(xí)藻丢。