集成學(xué)習(xí)之Boosting-gbdt

一、什么是GBDT

二厂僧、GBDT與傳統(tǒng)Adaboost的不同之處

三扣草、GBDT的負(fù)梯度擬合

四、GBDT算法流程

五颜屠、GBDT工作過(guò)程實(shí)例

六辰妙、GBDT常用損失函數(shù)

七、算法的優(yōu)缺點(diǎn)

八甫窟、補(bǔ)充說(shuō)明：幾種常見(jiàn)的損失函數(shù)

***************************************************************************************************************

一密浑、什么是gbdt

? ? ? ? GBDT的全稱梯度提升樹(shù)算法(Gradient Boosting Decison Tree)。我們?cè)谶M(jìn)行模型訓(xùn)練時(shí)有兩個(gè)原則：1.如何使L損失函數(shù)最写志尔破；2.怎樣快速地使L損失函數(shù)變小。對(duì)于問(wèn)1可以求導(dǎo)來(lái)確定浇衬，對(duì)于問(wèn)2無(wú)論此時(shí)的cost?function是什么懒构，是均方差還是均差，只要它以誤差作為衡量標(biāo)準(zhǔn)耘擂，殘差向量比如(-1,?1,?-1,?1)都是它的全局最優(yōu)方向胆剧，這就是Gradient。另外醉冤，這里的決策樹(shù)選取Cart樹(shù)秩霍。

? 二、GBDT與傳統(tǒng)Adaboost的不同之處?

????????GBDT也是集成學(xué)習(xí)Boosting家族的成員冤灾，但是卻和傳統(tǒng)的Adaboost有很大的不同前域。對(duì)于Adaboost利用前一輪迭代弱學(xué)習(xí)器的誤差率來(lái)更新樣本的權(quán)重，利用更新后的樣本來(lái)訓(xùn)練下一個(gè)迭代弱學(xué)習(xí)器韵吨，這樣不斷地迭代下去。然而移宅，對(duì)于GBDT而言本輪的弱學(xué)習(xí)器 $ft-1(x)$ , 損失函數(shù)是L(y,ft?1(x))归粉。我們本輪迭代的目標(biāo)是找到一個(gè)CART回歸樹(shù)模型的弱學(xué)習(xí)器 $ht(x)$ ，讓本輪的損失函數(shù) $L(y,ft(x)=L(y,ft?1(x)+ht(x))$ 最小漏峰。也就是說(shuō)糠悼，本輪迭代找到?jīng)Q策樹(shù)，要讓樣本的損失盡量變得更小浅乔。

????????用一個(gè)通俗的例子來(lái)講假如有個(gè)人30歲倔喂，我們首先用20歲去擬合铝条，發(fā)現(xiàn)損失有10歲，這時(shí)我們用6歲去擬合剩下的損失席噩，發(fā)現(xiàn)差距還有4歲班缰，第三輪我們用3歲擬合剩下的差距，差距就只有一歲了悼枢。如果我們的迭代輪數(shù)還沒(méi)有完埠忘，可以繼續(xù)迭代下面，每一輪迭代馒索，擬合的歲數(shù)誤差都會(huì)減小莹妒。

三、gbdt的負(fù)梯度擬合

? ? ? ? 1.為什么進(jìn)行負(fù)梯度擬合绰上？

? ? ? ? GBDT的思想就是不斷迭代去擬合殘差旨怠，使殘差不斷減少。每次迭代構(gòu)造的Cart樹(shù)都是前一輪的殘差擬合的蜈块。當(dāng)GBDT損失函數(shù)為誤差平方函數(shù)時(shí)运吓，GBDT的負(fù)梯度就是擬合的是殘差。但是如果損失函數(shù)不是誤差平方函數(shù)的話Freidman提出了梯度提升算法：利用最速下降的近似方法疯趟，即利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值拘哨，作為回歸問(wèn)題中提升樹(shù)算法的殘差的近似值，擬合一個(gè)回歸樹(shù)信峻。其實(shí)負(fù)梯度就是Loss Function減少最快的方向倦青。

? ? ? ? 2.負(fù)梯度怎樣擬合殘差？

????????大牛Freidman提出了用損失函數(shù)的負(fù)梯度來(lái)擬合本輪損失的近似值盹舞，進(jìn)而擬合一個(gè)CART回歸樹(shù)产镐。第t輪的第i個(gè)樣本的損失函數(shù)的負(fù)梯度表示為：

?????????注：這里ctj是葉子節(jié)點(diǎn)的輸出值，下一節(jié)結(jié)合具體例子來(lái)說(shuō)明ctj的值踢步。但是這里有個(gè)疑問(wèn)癣亚，損失函數(shù)的最小值只能輸出一個(gè)，葉子節(jié)點(diǎn)ctj這么多輸出一個(gè)值嗎获印？?

四述雾、GBDT算法流程????????

? ? ? ? 1.GBDT回歸算法

? ? ? ? 下面是GBDT回歸算法的具體過(guò)程，這里沒(méi)有一起說(shuō)GBDT分類算法是因?yàn)槠漭敵龅念悇e值而不是連續(xù)值兼丰，無(wú)法用負(fù)梯度來(lái)擬合殘差玻孟。所以要進(jìn)行變化才能應(yīng)用負(fù)梯度。

? ? ? ? 2.GBDT二元分類算法

? ??????GBDT的分類算法從思想上和GBDT的回歸算法沒(méi)有區(qū)別鳍征，但是由于樣本輸出不是連續(xù)的值黍翎，而是離散的類別，導(dǎo)致我們無(wú)法直接從輸出類別去擬合類別輸出的誤差艳丛。

? ??????了解決這個(gè)問(wèn)題匣掸，主要有兩個(gè)方法趟紊，一個(gè)是用指數(shù)損失函數(shù)，此時(shí)GBDT退化為Adaboost算法碰酝。另一種方法是用類似于邏輯回歸的對(duì)數(shù)似然損失函數(shù)的方法霎匈。也就是說(shuō)，我們用的是類別的預(yù)測(cè)概率值和真實(shí)概率值(可應(yīng)用負(fù)梯度)的差來(lái)擬合損失砰粹。本文僅討論用對(duì)數(shù)似然損失函數(shù)的GBDT分類唧躲。而對(duì)于對(duì)數(shù)似然損失函數(shù)，我們又有二元分類和多元分類的區(qū)別碱璃。

? ? ? ? 注：正因?yàn)槎诸怗BDT算法輸出的值是類別沒(méi)有具體的值弄痹，那我們應(yīng)該想辦法找到一個(gè)具體的值并且還能對(duì)應(yīng)到輸出的類別上，這時(shí)想到預(yù)測(cè)樣本x是y的概率值嵌器。把預(yù)測(cè)正確的概率值與損失函數(shù)結(jié)合到一起肛真，即預(yù)測(cè)的概率值越大那么損失函是的值越小。又因?yàn)榇鷥r(jià)函數(shù)的值是各個(gè)樣本損失函數(shù)的值加和一起爽航，同時(shí)概率之間的同時(shí)滿足需要使用乘法p(y1|x).p(y2|x)...p(y3|x),所以我們定義度數(shù)似然函數(shù)為損失函數(shù) $L(y,p(y|x))=-logp(y|x)$ 蚓让，即代價(jià)函數(shù)為 $costFunc=-log(p(y1|x).p(y2|x)...p(yn|x))$ $=-[logp1+logp2+...+logpn]$

五、GBDT工作過(guò)程實(shí)例

? ? ? ? https://www.cnblogs.com/peizhe123/p/6105696.html

六讥珍、GBDT常用損失函數(shù)

? ??????https://www.cnblogs.com/pinard/p/6140514.html參看鏈接

七历极、算法的優(yōu)缺點(diǎn)?

八、幾種常見(jiàn)的損失函數(shù)

? ? ? ? 1.損失函數(shù)（loss function）:定義在單個(gè)樣本上的衷佃，是指一個(gè)樣本的誤差趟卸。

? ? ? ? 2.代價(jià)函數(shù)（cost function）:是定義在整個(gè)訓(xùn)練集上的，是所有樣本誤差的平均氏义，也就是所有損失函數(shù)值的平均锄列。

? ? ? ? 3.目標(biāo)函數(shù)（object function）:是指最終需要優(yōu)化的函數(shù)，一般來(lái)說(shuō)是經(jīng)驗(yàn)風(fēng)險(xiǎn)+結(jié)構(gòu)風(fēng)險(xiǎn)惯悠，也就是（代價(jià)函數(shù)+正則化項(xiàng)）邻邮。

? ??????https://www.cnblogs.com/lliuye/p/9549881.html參考鏈接

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市克婶，隨后出現(xiàn)的幾起案子筒严，更是在濱河造成了極大的恐慌，老刑警劉巖鸠补，帶你破解...
沈念sama閱讀 217,542評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件萝风，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡紫岩，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,822評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)睬塌，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)泉蝌，“玉大人歇万，你說(shuō)我怎么就攤上這事⊙悖” “怎么了贪磺？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,912評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)诅愚。經(jīng)常有香客問(wèn)我寒锚，道長(zhǎng)，這世上最難降的妖魔是什么违孝？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,449評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任刹前，我火速辦了婚禮，結(jié)果婚禮上雌桑，老公的妹妹穿的比我還像新娘喇喉。我一直安慰自己，他們只是感情好校坑，可當(dāng)我...
茶點(diǎn)故事閱讀 67,500評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布拣技。她就那樣靜靜地躺著，像睡著了一般耍目。火紅的嫁衣襯著肌膚如雪膏斤。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,370評(píng)論 1贊 302
城市分裂傳說(shuō)
那天邪驮，我揣著相機(jī)與錄音莫辨，去河邊找鬼。笑死耕捞，一個(gè)胖子當(dāng)著我的面吹牛衔掸，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播俺抽，決...
沈念sama閱讀 40,193評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼敞映，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了磷斧？” 一聲冷哼從身側(cè)響起振愿，我...
開(kāi)封第一講書(shū)人閱讀 39,074評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎弛饭，沒(méi)想到半個(gè)月后冕末，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,505評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡侣颂，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,722評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年档桃，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片憔晒。...
茶點(diǎn)故事閱讀 39,841評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡藻肄，死狀恐怖蔑舞，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情嘹屯，我是刑警寧澤攻询，帶...
沈念sama閱讀 35,569評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站州弟，受9級(jí)特大地震影響钧栖，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜婆翔，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,168評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一拯杠、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧浙滤，春花似錦阴挣、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,783評(píng)論 0贊 22
一樁弒父案畔咧，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至揖膜，卻和暖如春誓沸，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背壹粟。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,918評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工拜隧，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人趁仙。一個(gè)月前我還...
沈念sama閱讀 47,962評(píng)論 2贊 370
代替公主和親
正文我出身青樓洪添，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親雀费。傳聞我的和親對(duì)象是個(gè)殘疾皇子干奢，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,781評(píng)論 2贊 354

集成學(xué)習(xí)之Boosting-gbdt

推薦閱讀更多精彩內(nèi)容