GBDT算法梳理

前向分布算法

前向分步算法

負(fù)梯度擬合

偽殘差

使用負(fù)梯度作為偽殘差擬合決策樹易遣。

損失函數(shù)

均方誤差
L(y, h(x))=(y-h(x))^{2}

回歸

二分類普监,多分類

正則化

優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

  • 預(yù)測精度高
  • 適合低維數(shù)據(jù)
  • 能處理非線性數(shù)據(jù)
  • 可以靈活處理各種類型的數(shù)據(jù)录别,包括連續(xù)值和離散值。
  • 在相對少的調(diào)參時(shí)間情況下嘿悬,預(yù)測的準(zhǔn)備率也可以比較高低零。這個(gè)是相對SVM來說的婆翔。
  • 使用一些健壯的損失函數(shù),對異常值的魯棒性非常強(qiáng)掏婶。比如 Huber損失函數(shù)和Quantile損失函數(shù)啃奴。

缺點(diǎn):

  • 由于弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并行訓(xùn)練數(shù)據(jù)雄妥。不過可以通過自采樣的SGBT來達(dá)到部分并行最蕾。
  • 如果數(shù)據(jù)維度較高時(shí)會(huì)加大算法的計(jì)算復(fù)雜度

sklearn參數(shù)

  • 劃分時(shí)考慮的最大特征數(shù)max_features: 可以使用很多種類型的值,默認(rèn)是"None",意味著劃分時(shí)考慮所有的特征數(shù)老厌;如果是"log2"意味著劃分時(shí)最多考慮log2Nlog2N個(gè)特征揖膜;如果是"sqrt"或者"auto"意味著劃分時(shí)最多考慮N??√N(yùn)個(gè)特征。如果是整數(shù)梅桩,代表考慮的特征絕對數(shù)壹粟。如果是浮點(diǎn)數(shù),代表考慮特征百分比宿百,即考慮(百分比xN)取整后的特征數(shù)趁仙。其中N為樣本總特征數(shù)。一般來說垦页,如果樣本特征數(shù)不多雀费,比如小于50,我們用默認(rèn)的"None"就可以了痊焊,如果特征數(shù)非常多盏袄,我們可以靈活使用剛才描述的其他取值來控制劃分時(shí)考慮的最大特征數(shù),以控制決策樹的生成時(shí)間薄啥。
  • 決策樹最大深度max_depth: 默認(rèn)可以不輸入辕羽,如果不輸入的話,決策樹在建立子樹的時(shí)候不會(huì)限制子樹的深度垄惧。一般來說刁愿,數(shù)據(jù)少或者特征少的時(shí)候可以不管這個(gè)值。如果模型樣本量多到逊,特征也多的情況下铣口,推薦限制這個(gè)最大深度,具體的取值取決于數(shù)據(jù)的分布觉壶。常用的可以取值10-100之間脑题。
  • 內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)min_samples_split: 這個(gè)值限制了子樹繼續(xù)劃分的條件,如果某節(jié)點(diǎn)的樣本數(shù)少于min_samples_split铜靶,則不會(huì)繼續(xù)再嘗試選擇最優(yōu)特征來進(jìn)行劃分叔遂。 默認(rèn)是2.如果樣本量不大,不需要管這個(gè)值。如果樣本量數(shù)量級非常大掏熬,則推薦增大這個(gè)值。
  • 葉子節(jié)點(diǎn)最少樣本數(shù)min_samples_leaf: 這個(gè)值限制了葉子節(jié)點(diǎn)最少的樣本數(shù)秒梅,如果某葉子節(jié)點(diǎn)數(shù)目小于樣本數(shù)旗芬,則會(huì)和兄弟節(jié)點(diǎn)一起被剪枝。 默認(rèn)是1,可以輸入最少的樣本數(shù)的整數(shù)捆蜀,或者最少樣本數(shù)占樣本總數(shù)的百分比疮丛。如果樣本量不大,不需要管這個(gè)值辆它。如果樣本量數(shù)量級非常大誊薄,則推薦增大這個(gè)值。
  • 葉子節(jié)點(diǎn)最小的樣本權(quán)重和min_weight_fraction_leaf:這個(gè)值限制了葉子節(jié)點(diǎn)所有樣本權(quán)重和的最小值锰茉,如果小于這個(gè)值呢蔫,則會(huì)和兄弟節(jié)點(diǎn)一起被剪枝。 默認(rèn)是0飒筑,就是不考慮權(quán)重問題片吊。一般來說,如果我們有較多樣本有缺失值协屡,或者分類樹樣本的分布類別偏差很大俏脊,就會(huì)引入樣本權(quán)重,這時(shí)我們就要注意這個(gè)值了肤晓。
  • 最大葉子節(jié)點(diǎn)數(shù)max_leaf_nodes: 通過限制最大葉子節(jié)點(diǎn)數(shù)爷贫,可以防止過擬合,默認(rèn)是"None”补憾,即不限制最大的葉子節(jié)點(diǎn)數(shù)漫萄。如果加了限制,算法會(huì)建立在最大葉子節(jié)點(diǎn)數(shù)內(nèi)最優(yōu)的決策樹盈匾。如果特征不多卷胯,可以不考慮這個(gè)值,但是如果特征分成多的話威酒,可以加以限制窑睁,具體的值可以通過交叉驗(yàn)證得到。
  • 節(jié)點(diǎn)劃分最小不純度min_impurity_split: 這個(gè)值限制了決策樹的增長葵孤,如果某節(jié)點(diǎn)的不純度(基于基尼系數(shù)担钮,均方差)小于這個(gè)閾值,則該節(jié)點(diǎn)不再生成子節(jié)點(diǎn)尤仍。即為葉子節(jié)點(diǎn) 箫津。一般不推薦改動(dòng)默認(rèn)值1e-7。

應(yīng)用場景

GBDT幾乎可用于所有回歸問題(線性/非線性),相對logistic regression僅能用于線性回歸苏遥,GBDT的適用面非常廣饼拍。亦可用于二分類問題(設(shè)定閾值,大于閾值為正例田炭,反之為負(fù)例)师抄。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市教硫,隨后出現(xiàn)的幾起案子叨吮,更是在濱河造成了極大的恐慌,老刑警劉巖瞬矩,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件茶鉴,死亡現(xiàn)場離奇詭異,居然都是意外死亡景用,警方通過查閱死者的電腦和手機(jī)涵叮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來伞插,“玉大人围肥,你說我怎么就攤上這事》湓酰” “怎么了穆刻?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長杠步。 經(jīng)常有香客問我氢伟,道長,這世上最難降的妖魔是什么幽歼? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任朵锣,我火速辦了婚禮,結(jié)果婚禮上甸私,老公的妹妹穿的比我還像新娘诚些。我一直安慰自己,他們只是感情好皇型,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布诬烹。 她就那樣靜靜地躺著,像睡著了一般弃鸦。 火紅的嫁衣襯著肌膚如雪绞吁。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天唬格,我揣著相機(jī)與錄音家破,去河邊找鬼颜说。 笑死,一個(gè)胖子當(dāng)著我的面吹牛汰聋,可吹牛的內(nèi)容都是我干的门粪。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼烹困,長吁一口氣:“原來是場噩夢啊……” “哼玄妈!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起韭邓,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤措近,失蹤者是張志新(化名)和其女友劉穎溶弟,沒想到半個(gè)月后女淑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡辜御,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年鸭你,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片擒权。...
    茶點(diǎn)故事閱讀 40,115評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡袱巨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出碳抄,到底是詐尸還是另有隱情愉老,我是刑警寧澤,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布剖效,位于F島的核電站嫉入,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏璧尸。R本人自食惡果不足惜咒林,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望爷光。 院中可真熱鬧垫竞,春花似錦、人聲如沸蛀序。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽徐裸。三九已至引有,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間倦逐,已是汗流浹背譬正。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工宫补, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人曾我。 一個(gè)月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像贫贝,于是被迫代替她去往敵國和親稚晚。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容