作者:JSong再来,日期:2017.10.10
簡(jiǎn)書一直不肯支持?jǐn)?shù)學(xué)公式,沒辦法碗短,只能截圖啦魁衙。原文請(qǐng)移步博客園
集成學(xué)習(xí)(ensemble learning)通過(guò)構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),澄装常可獲得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能认烁,這對(duì)“弱學(xué)習(xí)器”尤為明顯。
目前介汹,有三種常見的集成學(xué)習(xí)框架:bagging却嗡,boosting和stacking。第一種是并行的嘹承,各個(gè)基學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系窗价,代表是隨機(jī)森林算法。后兩者是串行的叹卷,基學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系撼港,必須串行生成。具體可參見我的文章 機(jī)器學(xué)習(xí)|集成學(xué)習(xí)骤竹。
1帝牡、前向分步算法(forward stagewise algorithm)
算法(前向分步算法):
2、AdaBoost算法
前向分布算法是一種算法的框架蒙揣,接下來(lái)我們對(duì)于二分類問題構(gòu)造一個(gè)具體的boosting算法靶溜。
注:此時(shí)的 $e_{m}$ 與 $\gamma_{m}$ 的極小化函數(shù)完全等價(jià),又注意到 $w_{mi}$ 和為1,所以不妨把 $\gamma_{m}$ 的極小化函數(shù)修改為 $e_m$, 這個(gè)意義下 $e_m$ 即是基函數(shù)的分類誤差率懒震。
注意到罩息,這個(gè)時(shí)候事實(shí)上并不需要參數(shù) $\gamma$ 的顯示存在,其隱形的存在于每個(gè)基函數(shù)的訓(xùn)練時(shí)使用的損失函數(shù)中挎狸,更進(jìn)一步扣汪,其代表了每個(gè)樣本的權(quán)重。通俗點(diǎn)講锨匆,算法在串行迭代過(guò)程中崭别,那些分類不準(zhǔn)確的樣本點(diǎn)在下一步的基分類模型中是會(huì)被重點(diǎn)照顧冬筒。
最后我們把上述過(guò)程整理成Adaboost算法
算法(Adaboost算法):
3、Gradient Boosting
一條不一樣的路茅主,待續(xù)