對于回歸提升樹
提升樹是以分類樹或回歸樹為基分類器吨艇。它的idea在于胖笛,第一個回歸樹預測的效果可能一般肪康,但是第二個回歸樹把第一個預測錯的殘差作為輸入。也就是說姜贡,如果一個點的值被預測錯誤试吁,那么在下一個回歸樹里面的模型的權(quán)值會變大。通過這個方式楼咳,來提高模型的效果潘悼。
關(guān)于提升樹的一個例子
訓練提升樹的步驟:
- step1 構(gòu)建第一個回歸樹T1(x)
- step 1.1 如何構(gòu)建回歸樹T1(x)
a. 從數(shù)據(jù)集里面找到一個切分點s,將數(shù)據(jù)集分成兩個部分爬橡。
b. 對于每個部分治唤,找到一個值c,使得內(nèi)部的y到所有的平方損失函數(shù)最小糙申。
(遍歷所有可能的切分點s宾添,找到最好的效果船惨。那么問題又來了,如何判斷一個點的切分的效果好與壞缕陕?)
- step 1.1 如何構(gòu)建回歸樹T1(x)
- 在上一顆回歸樹回歸的基礎(chǔ)上粱锐,把殘差作為下一棵回歸樹的任務(wù),繼續(xù)構(gòu)造回歸樹扛邑。
(不斷循環(huán)這個過程)
計算c的公式是:
判斷一個點s怜浅,切分效果的好與壞的評價標準的時候:
下面,我們帶入這個具體的例子里面進行分析蔬崩。
假設(shè)恶座,現(xiàn)在的切分點是s=1.5 , 那么數(shù)據(jù)集就會被分成兩個部分沥阳,一個是R1={1} 跨琳, R2={2, 3 , ..., 10} 。
那么桐罕,對于切分的兩個部分里面脉让,求c1和c2。根據(jù)上面的公式功炮,c1=5.56 , c2=7.50 溅潜。
那么,在我們這個例子里面薪伏,m(s)的值是:
如果滚澜,遍歷所有可能的切分點,對于每一個切分點都會有一個值毅该。
也就說博秫,當在s=6.5的時候,切分的效果是最好的眶掌。
也就是說挡育,我們現(xiàn)在得到了第一顆回歸樹,T1(x)朴爬。對于小于6.5的數(shù)據(jù)即寒,我們把他預測成6.24,對于大于等于6.5的數(shù)據(jù)召噩,我們把它預測成8.91母赵。
然后,就到了最重要的一步具滴,將殘差數(shù)據(jù)放入下一個回歸樹進行訓練凹嘲。
下面去訓練下一個學習器:
判斷的終止條件是:
對于求出的第一個回歸樹:
對于求出的第二個回歸樹:
依次類推:
最后:
參考 : 《統(tǒng)計學習方法》