集成學(xué)習(xí)之Boosting-gbdt

一、什么是GBDT

二厂僧、GBDT與傳統(tǒng)Adaboost的不同之處

三扣草、GBDT的負(fù)梯度擬合

四、GBDT算法流程

五颜屠、GBDT工作過(guò)程實(shí)例

六辰妙、GBDT常用損失函數(shù)

七、算法的優(yōu)缺點(diǎn)

八甫窟、補(bǔ)充說(shuō)明:幾種常見(jiàn)的損失函數(shù)

***************************************************************************************************************

一密浑、什么是gbdt

? ? ? ? GBDT的全稱梯度提升樹(shù)算法(Gradient Boosting Decison Tree)。我們?cè)谶M(jìn)行模型訓(xùn)練時(shí)有兩個(gè)原則:1.如何使L損失函數(shù)最写志尔破;2.怎樣快速地使L損失函數(shù)變小。對(duì)于問(wèn)1可以求導(dǎo)來(lái)確定浇衬,對(duì)于問(wèn)2無(wú)論此時(shí)的cost?function是什么懒构,是均方差還是均差,只要它以誤差作為衡量標(biāo)準(zhǔn)耘擂,殘差向量比如(-1,?1,?-1,?1)都是它的全局最優(yōu)方向胆剧,這就是Gradient。另外醉冤,這里的決策樹(shù)選取Cart樹(shù)秩霍。

? 二、GBDT與傳統(tǒng)Adaboost的不同之處?

????????GBDT也是集成學(xué)習(xí)Boosting家族的成員冤灾,但是卻和傳統(tǒng)的Adaboost有很大的不同前域。對(duì)于Adaboost利用前一輪迭代弱學(xué)習(xí)器的誤差率來(lái)更新樣本的權(quán)重,利用更新后的樣本來(lái)訓(xùn)練下一個(gè)迭代弱學(xué)習(xí)器韵吨,這樣不斷地迭代下去。然而移宅,對(duì)于GBDT而言本輪的弱學(xué)習(xí)器ft-1(x), 損失函數(shù)是L(y,ft?1(x))归粉。我們本輪迭代的目標(biāo)是找到一個(gè)CART回歸樹(shù)模型的弱學(xué)習(xí)器ht(x),讓本輪的損失函數(shù)L(y,ft(x)=L(y,ft?1(x)+ht(x))最小漏峰。也就是說(shuō)糠悼,本輪迭代找到?jīng)Q策樹(shù),要讓樣本的損失盡量變得更小浅乔。

????????用一個(gè)通俗的例子來(lái)講假如有個(gè)人30歲倔喂,我們首先用20歲去擬合铝条,發(fā)現(xiàn)損失有10歲,這時(shí)我們用6歲去擬合剩下的損失席噩,發(fā)現(xiàn)差距還有4歲班缰,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了悼枢。如果我們的迭代輪數(shù)還沒(méi)有完埠忘,可以繼續(xù)迭代下面,每一輪迭代馒索,擬合的歲數(shù)誤差都會(huì)減小莹妒。

三、gbdt的負(fù)梯度擬合

? ? ? ? 1.為什么進(jìn)行負(fù)梯度擬合绰上?

? ? ? ? GBDT的思想就是不斷迭代去擬合殘差旨怠,使殘差不斷減少。每次迭代構(gòu)造的Cart樹(shù)都是前一輪的殘差擬合的蜈块。當(dāng)GBDT損失函數(shù)為誤差平方函數(shù)時(shí)运吓,GBDT的負(fù)梯度就是擬合的是殘差。但是如果損失函數(shù)不是誤差平方函數(shù)的話Freidman提出了梯度提升算法:利用最速下降的近似方法疯趟,即利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值拘哨,作為回歸問(wèn)題中提升樹(shù)算法的殘差的近似值,擬合一個(gè)回歸樹(shù)信峻。其實(shí)負(fù)梯度就是Loss Function減少最快的方向倦青。

? ? ? ? 2.負(fù)梯度怎樣擬合殘差?

????????大牛Freidman提出了用損失函數(shù)的負(fù)梯度來(lái)擬合本輪損失的近似值盹舞,進(jìn)而擬合一個(gè)CART回歸樹(shù)产镐。第t輪的第i個(gè)樣本的損失函數(shù)的負(fù)梯度表示為:

?????????注:這里ctj是葉子節(jié)點(diǎn)的輸出值,下一節(jié)結(jié)合具體例子來(lái)說(shuō)明ctj的值踢步。但是這里有個(gè)疑問(wèn)癣亚,損失函數(shù)的最小值只能輸出一個(gè),葉子節(jié)點(diǎn)ctj這么多輸出一個(gè)值嗎获印??

四述雾、GBDT算法流程????????

? ? ? ? 1.GBDT回歸算法

? ? ? ? 下面是GBDT回歸算法的具體過(guò)程,這里沒(méi)有一起說(shuō)GBDT分類算法是因?yàn)槠漭敵龅念悇e值而不是連續(xù)值兼丰,無(wú)法用負(fù)梯度來(lái)擬合殘差玻孟。所以要進(jìn)行變化才能應(yīng)用負(fù)梯度。

? ? ? ? 2.GBDT二元分類算法

? ??????GBDT的分類算法從思想上和GBDT的回歸算法沒(méi)有區(qū)別鳍征,但是由于樣本輸出不是連續(xù)的值黍翎,而是離散的類別,導(dǎo)致我們無(wú)法直接從輸出類別去擬合類別輸出的誤差艳丛。

? ??????了解決這個(gè)問(wèn)題匣掸,主要有兩個(gè)方法趟紊,一個(gè)是用指數(shù)損失函數(shù),此時(shí)GBDT退化為Adaboost算法碰酝。另一種方法是用類似于邏輯回歸的對(duì)數(shù)似然損失函數(shù)的方法霎匈。也就是說(shuō),我們用的是類別的預(yù)測(cè)概率值和真實(shí)概率值(可應(yīng)用負(fù)梯度)的差來(lái)擬合損失砰粹。本文僅討論用對(duì)數(shù)似然損失函數(shù)的GBDT分類唧躲。而對(duì)于對(duì)數(shù)似然損失函數(shù),我們又有二元分類和多元分類的區(qū)別碱璃。

? ? ? ? 注:正因?yàn)槎诸怗BDT算法輸出的值是類別沒(méi)有具體的值弄痹,那我們應(yīng)該想辦法找到一個(gè)具體的值并且還能對(duì)應(yīng)到輸出的類別上,這時(shí)想到預(yù)測(cè)樣本x是y的概率值嵌器。把預(yù)測(cè)正確的概率值與損失函數(shù)結(jié)合到一起肛真,即預(yù)測(cè)的概率值越大那么損失函是的值越小。又因?yàn)榇鷥r(jià)函數(shù)的值是各個(gè)樣本損失函數(shù)的值加和一起爽航,同時(shí)概率之間的同時(shí)滿足需要使用乘法p(y1|x).p(y2|x)...p(y3|x),所以我們定義度數(shù)似然函數(shù)為損失函數(shù)L(y,p(y|x))=-logp(y|x)蚓让,即代價(jià)函數(shù)為costFunc=-log(p(y1|x).p(y2|x)...p(yn|x))=-[logp1+logp2+...+logpn]

五、GBDT工作過(guò)程實(shí)例

? ? ? ? https://www.cnblogs.com/peizhe123/p/6105696.html

六讥珍、GBDT常用損失函數(shù)

? ??????https://www.cnblogs.com/pinard/p/6140514.html參看鏈接

七历极、算法的優(yōu)缺點(diǎn)?

八、幾種常見(jiàn)的損失函數(shù)

? ? ? ? 1.損失函數(shù)(loss function):定義在單個(gè)樣本上的衷佃,是指一個(gè)樣本的誤差趟卸。

? ? ? ? 2.代價(jià)函數(shù)(cost function):是定義在整個(gè)訓(xùn)練集上的,是所有樣本誤差的平均氏义,也就是所有損失函數(shù)值的平均锄列。

? ? ? ? 3.目標(biāo)函數(shù)(object function):是指最終需要優(yōu)化的函數(shù),一般來(lái)說(shuō)是經(jīng)驗(yàn)風(fēng)險(xiǎn)+結(jié)構(gòu)風(fēng)險(xiǎn)惯悠,也就是(代價(jià)函數(shù)+正則化項(xiàng))邻邮。

? ??????https://www.cnblogs.com/lliuye/p/9549881.html參考鏈接

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市克婶,隨后出現(xiàn)的幾起案子筒严,更是在濱河造成了極大的恐慌,老刑警劉巖鸠补,帶你破解...
    沈念sama閱讀 217,542評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萝风,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡紫岩,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén)睬塌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)泉蝌,“玉大人歇万,你說(shuō)我怎么就攤上這事⊙悖” “怎么了贪磺?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,912評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)诅愚。 經(jīng)常有香客問(wèn)我寒锚,道長(zhǎng),這世上最難降的妖魔是什么违孝? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,449評(píng)論 1 293
  • 正文 為了忘掉前任刹前,我火速辦了婚禮,結(jié)果婚禮上雌桑,老公的妹妹穿的比我還像新娘喇喉。我一直安慰自己,他們只是感情好校坑,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布拣技。 她就那樣靜靜地躺著,像睡著了一般耍目。 火紅的嫁衣襯著肌膚如雪膏斤。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,370評(píng)論 1 302
  • 那天邪驮,我揣著相機(jī)與錄音莫辨,去河邊找鬼。 笑死耕捞,一個(gè)胖子當(dāng)著我的面吹牛衔掸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播俺抽,決...
    沈念sama閱讀 40,193評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼敞映,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了磷斧?” 一聲冷哼從身側(cè)響起振愿,我...
    開(kāi)封第一講書(shū)人閱讀 39,074評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎弛饭,沒(méi)想到半個(gè)月后冕末,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡侣颂,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評(píng)論 3 335
  • 正文 我和宋清朗相戀三年档桃,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片憔晒。...
    茶點(diǎn)故事閱讀 39,841評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡藻肄,死狀恐怖蔑舞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情嘹屯,我是刑警寧澤攻询,帶...
    沈念sama閱讀 35,569評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站州弟,受9級(jí)特大地震影響钧栖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜婆翔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評(píng)論 3 328
  • 文/蒙蒙 一拯杠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧浙滤,春花似錦阴挣、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,783評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至揖膜,卻和暖如春誓沸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背壹粟。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,918評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工拜隧, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人趁仙。 一個(gè)月前我還...
    沈念sama閱讀 47,962評(píng)論 2 370
  • 正文 我出身青樓洪添,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親雀费。 傳聞我的和親對(duì)象是個(gè)殘疾皇子干奢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容