前言
如果你能找到這里,真是我的幸運(yùn)~這里是藍(lán)白絳的學(xué)習(xí)筆記,本集合主要針對(duì)《百面機(jī)器學(xué)習(xí)——算法工程師帶你去面試》這本書试躏。主要記錄我認(rèn)為重要的知識(shí)點(diǎn),希望對(duì)大家有幫助设褐。
第十二章 集成學(xué)習(xí)
5冗酿、梯度提升決策樹的基本原理
- 梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是Boosting算法中非常流行的模型络断。Gradient Boosting是Boosting中的一大類算法裁替,基本思想是根據(jù)當(dāng)前模型損失函數(shù)的負(fù)梯度信息來訓(xùn)練新加入的弱分類器,然后將訓(xùn)練好的弱分類器以累加的形式結(jié)合到現(xiàn)有模型中。采用決策樹為弱分類器的Gradient Boosting算法被稱為GBDT,有時(shí)也稱MART(Multiple Additive Regression Tree)盆顾。GBDT中使用的決策樹通常為CART樹。
- 梯度提升和梯度下降的區(qū)別和聯(lián)系:
- 聯(lián)系:兩者均是在每一輪迭代中昌腰,利用損失函數(shù)相對(duì)于模型的負(fù)梯度方向的信息來對(duì)當(dāng)前模型進(jìn)行更新。
- 區(qū)別:在梯度下降中膀跌,模型是以參數(shù)化形式表示遭商,從而模型的更新等價(jià)于參數(shù)的更新;在梯度提升中捅伤,模型并不需要進(jìn)行參數(shù)化表示劫流,而是直接定義在函數(shù)空間中,從而大大擴(kuò)展了可以使用的模型種類丛忆。
提升算法 | 目標(biāo) | 迭代公式 | 損失 |
---|---|---|---|
梯度提升 | 函數(shù)空間 |
||
梯度下降 | 參數(shù)空間 |
- GBDT的優(yōu)點(diǎn)和局限性:
- 優(yōu)點(diǎn):
(1) 預(yù)測(cè)階段的計(jì)算速度快祠汇,樹與樹之間可并行計(jì)算。
(2) 在分布稠密的數(shù)據(jù)集上熄诡,泛化能力和表達(dá)能力都很好可很。
(3) 采用決策樹作為弱分類器使得GBDT模型具有較好的解釋性和魯棒性,能夠自動(dòng)發(fā)現(xiàn)特征間的高階關(guān)系凰浮,也不需要對(duì)數(shù)據(jù)進(jìn)行特殊的預(yù)處理如歸一化等我抠。 - 局限:
(1) GBDT在高維稀疏的數(shù)據(jù)集上苇本,表現(xiàn)不如支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)。
(2) GBDT在處理文本分類特征問題上菜拓,相對(duì)于其他模型優(yōu)勢(shì)不如在處理數(shù)值特征時(shí)明顯瓣窄。
(3) 訓(xùn)練過程需要串行訓(xùn)練,只能在決策樹內(nèi)部采用一些局部并行的手段提升訓(xùn)練速度尘惧。
6、XGBoost與GBDT的聯(lián)系和區(qū)別
- XGBoost與GBDT的聯(lián)系和區(qū)別可以總結(jié)成以下幾個(gè)方面:
- GBDT是機(jī)器學(xué)習(xí)算法递递,XGBoost是該算法的工程實(shí)現(xiàn)喷橙。
- 在使用CART作為基分類器時(shí),XGBoost就顯式地加入了正則項(xiàng)來控制模型的復(fù)雜度登舞,有利于防止過擬合贰逾,提高模型的泛化能力。
- GBDT在模型訓(xùn)練時(shí)只使用了代價(jià)函數(shù)的一階導(dǎo)數(shù)信息菠秒,XGBoost對(duì)代價(jià)函數(shù)進(jìn)行二階泰勒展開疙剑,可以同時(shí)使用一階和二階導(dǎo)數(shù)。
- 傳統(tǒng)的GBDT使用CART作為基分類器践叠,XGBoost支持多種類型的基分類器言缤,比如線性分類器。
- 傳統(tǒng)的GBDT在每輪迭代時(shí)使用全部的數(shù)據(jù)禁灼,XGBoost則采用了與隨機(jī)森林相似的策略管挟,支持對(duì)數(shù)據(jù)進(jìn)行采樣。
- 傳統(tǒng)的GBDT沒有設(shè)計(jì)對(duì)缺失值進(jìn)行處理弄捕,XGBoost能夠自動(dòng)學(xué)習(xí)出缺失值的處理策略僻孝。
小結(jié)
這是本章的第二部分,主要講了梯度提升和梯度下降的區(qū)別守谓、GBDT的優(yōu)缺點(diǎn)穿铆、XGBoost與GBDT的聯(lián)系與區(qū)別。
結(jié)尾
如果您發(fā)現(xiàn)我的文章有任何錯(cuò)誤斋荞,或?qū)ξ业奈恼掠惺裁春玫慕ㄗh荞雏,請(qǐng)聯(lián)系我!如果您喜歡我的文章平酿,請(qǐng)點(diǎn)喜歡~*我是藍(lán)白絳讯檐,感謝你的閱讀!