背后的思想:對(duì)于一個(gè)復(fù)雜的任務(wù),講多個(gè)專家的判定進(jìn)行適當(dāng)?shù)木C合得出的判斷性芬,要比其中任何一個(gè)專家單獨(dú)的判斷好峡眶。(三個(gè)臭皮匠賽過諸葛亮)
再概率近似正確學(xué)習(xí)的框架中:
- 強(qiáng)可學(xué)習(xí):存在一個(gè)多項(xiàng)式的學(xué)習(xí)算法,并且它的正確率很高
- 弱可學(xué)習(xí):存在一個(gè)多項(xiàng)式的學(xué)習(xí)算法植锉,它的正確率比隨機(jī)猜想好
- 強(qiáng)可學(xué)習(xí)和弱可學(xué)習(xí)等價(jià)
找到弱可學(xué)習(xí)的方法比較容易辫樱,最出名的就是 Adaboost算法。
對(duì)于提示算法處理分類問題:
- 每一輪如何改變數(shù)據(jù)的權(quán)值或者概率分布
- 如何將弱分類器組合成一個(gè)強(qiáng)分類器
Adaboost的套路是:1. 訓(xùn)練的時(shí)候提高弱分類器錯(cuò)誤分類樣本的權(quán)值俊庇,這樣可以更加關(guān)注沒有正確分類的數(shù)據(jù)狮暑;2. 采取加權(quán)多數(shù)表決的方法,加大分類錯(cuò)誤率小的弱分類器的權(quán)值暇赤,使其再表決中起較大的作用。
算法流程:
image.png
image.png
image.png
AdaBoost 算法的解釋:AdaBoost算法的模型是加法模型宵凌、損失函數(shù)為指數(shù)函數(shù)鞋囊、學(xué)習(xí)算法為前進(jìn)分步算法時(shí)的二類分類學(xué)習(xí)方法。
提升樹算法---以分類樹或者回歸樹為基本分類器的提升方法瞎惫,其被認(rèn)為是統(tǒng)計(jì)學(xué)習(xí)中性能最好的方法之一溜腐。 [加法模型(基函數(shù)的線性組合) + 前向分布算法]
image.png
以決策樹為基函數(shù)的提升方法稱為提升樹(boosting tree). 對(duì)分類問題決策樹是二叉樹译株,對(duì)于回歸問題決策樹是二叉回歸樹。
算法簡(jiǎn)介
首先確定初始提升書f0(x)=0, 第m步模型為:
image.png
image.png
image.png
梯度提升算法
Freidman提出了梯度提升算法(Gradient Boosting)挺益, 其關(guān)鍵是利用損失函數(shù)的負(fù)梯度再當(dāng)前模型的值作為回歸問題提升樹算法中的殘差的近似值歉糜,擬合一個(gè)回歸樹。
image.png