All About Interview - Day 2

RF、GBDT和XGBoost都屬于集成學(xué)習(xí)(Ensemble Learning)箩张,集成學(xué)習(xí)的目的是通過(guò)結(jié)合多個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果來(lái)改善單個(gè)學(xué)習(xí)器的泛化能力和魯棒性甩骏。
  根據(jù)個(gè)體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致分為兩大類:即個(gè)體學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系先慷、必須串行生成的序列化方法饮笛,以及個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時(shí)生成的并行化方法论熙;前者的代表就是Boosting福青,后者的代表是Bagging和“隨機(jī)森林”(Random Forest)。

1脓诡、RF
1.1 原理
  提到隨機(jī)森林无午,就不得不提Bagging,Bagging可以簡(jiǎn)單的理解為:放回抽樣祝谚,多數(shù)表決(分類)或簡(jiǎn)單平均(回歸),同時(shí)Bagging的基學(xué)習(xí)器之間屬于并列生成宪迟,不存在強(qiáng)依賴關(guān)系。
  Random Forest(隨機(jī)森林)是Bagging的擴(kuò)展變體交惯,它在以決策樹 為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上次泽,進(jìn)一步在決策樹的訓(xùn)練過(guò)程中引入了隨機(jī)特征選擇,因此可以概括RF包括四個(gè)部分:1席爽、隨機(jī)選擇樣本(放回抽樣)意荤;2、隨機(jī)選擇特征只锻;3玖像、構(gòu)建決策樹;4齐饮、隨機(jī)森林投票(平均)捐寥。
  隨機(jī)選擇樣本和Bagging相同,隨機(jī)選擇特征是指在樹的構(gòu)建中沈矿,會(huì)從樣本集的特征集合中隨機(jī)選擇部分特征上真,然后再?gòu)倪@個(gè)子集中選擇最優(yōu)的屬 性用于劃分,這種隨機(jī)性導(dǎo)致隨機(jī)森林的偏差會(huì)有稍微的增加(相比于單棵不隨機(jī)樹)羹膳,但是由于隨機(jī)森林的‘平均’特性睡互,會(huì)使得它的方差減小,而且方差的減小補(bǔ)償了偏差的增大陵像,因此總體而言是更好的模型就珠。
  (As a result of this randomness, the bias of the forest usually slightly increases (with respect to the bias of a single non-random tree) but, due to averaging, its variance also decreases, usually more than compensating for the increase in bias, hence yielding an overall better model.)
  在構(gòu)建決策樹的時(shí)候,RF的每棵決策樹都最大可能的進(jìn)行生長(zhǎng)而不進(jìn)行剪枝醒颖;在對(duì)預(yù)測(cè)輸出進(jìn)行結(jié)合時(shí)妻怎,RF通常對(duì)分類問題使用簡(jiǎn)單投票法,回歸任務(wù)使用簡(jiǎn)單平均法泞歉。
  RF的重要特性是不用對(duì)其進(jìn)行交叉驗(yàn)證或者使用一個(gè)獨(dú)立的測(cè)試集獲得無(wú)偏估計(jì)逼侦,它可以在內(nèi)部進(jìn)行評(píng)估匿辩,也就是說(shuō)在生成的過(guò)程中可以對(duì)誤差進(jìn)行無(wú)偏估計(jì),由于每個(gè)基學(xué)習(xí)器只使用了訓(xùn)練集中約63.2%的樣本榛丢,剩下約36.8%的樣本可用做驗(yàn)證集來(lái)對(duì)其泛化性能進(jìn)行“包外估計(jì)”铲球。
  RF和Bagging對(duì)比:RF的起始性能較差,特別當(dāng)只有一個(gè)基學(xué)習(xí)器時(shí)晰赞,隨著學(xué)習(xí)器數(shù)目增多稼病,隨機(jī)森林通常會(huì)收斂到更低的泛化誤差。隨機(jī)森林的訓(xùn)練效率也會(huì)高于Bagging掖鱼,因?yàn)樵趩蝹€(gè)決策樹的構(gòu)建中然走,Bagging使用的是‘確定性’決策樹,在選擇特征劃分結(jié)點(diǎn)時(shí)戏挡,要對(duì)所有的特征進(jìn)行考慮芍瑞,而隨機(jī)森林使用的是‘隨機(jī)性’特征數(shù),只需考慮特征的子集增拥。

1.2 優(yōu)缺點(diǎn)
  隨機(jī)森林的優(yōu)點(diǎn)較多啄巧,簡(jiǎn)單總結(jié):1、在數(shù)據(jù)集上表現(xiàn)良好掌栅,相對(duì)于其他算法有較大的優(yōu)勢(shì)(訓(xùn)練速度秩仆、預(yù)測(cè)準(zhǔn)確度);2猾封、能夠處理很高維的數(shù)據(jù)澄耍,并且不用特征選擇,而且在訓(xùn)練完后晌缘,給出特征的重要性齐莲;3、容易做成并行化方法磷箕。
  RF的缺點(diǎn):在噪聲較大的分類或者回歸問題上回過(guò)擬合选酗。

2、GBDT
  提GBDT之前岳枷,談一下Boosting芒填,Boosting是一種與Bagging很類似的技術(shù)。不論是Boosting還是Bagging空繁,所使用的多個(gè)分類器類型都是一致的殿衰。但是在前者當(dāng)中,不同的分類器是通過(guò)串行訓(xùn)練而獲得的盛泡,每個(gè)新分類器都根據(jù)已訓(xùn)練的分類器的性能來(lái)進(jìn)行訓(xùn)練闷祥。Boosting是通過(guò)關(guān)注被已有分類器錯(cuò)分的那些數(shù)據(jù)來(lái)獲得新的分類器。
  由于Boosting分類的結(jié)果是基于所有分類器的加權(quán)求和結(jié)果的傲诵,因此Boosting與Bagging不太一樣凯砍,Bagging中的分類器權(quán)值是一樣的箱硕,而Boosting中的分類器權(quán)重并不相等,每個(gè)權(quán)重代表對(duì)應(yīng)的分類器在上一輪迭代中的成功度果覆。

2.1 原理
  GBDT與傳統(tǒng)的Boosting區(qū)別較大颅痊,它的每一次計(jì)算都是為了減少上一次的殘差,而為了消除殘差局待,我們可以在殘差減小的梯度方向上建立模型,所以說(shuō),在GradientBoost中菱属,每個(gè)新的模型的建立是為了使得之前的模型的殘差往梯度下降的方法钳榨,與傳統(tǒng)的Boosting中關(guān)注正確錯(cuò)誤的樣本加權(quán)有著很大的區(qū)別。
  在GradientBoosting算法中纽门,關(guān)鍵就是利用損失函數(shù)的負(fù)梯度方向在當(dāng)前模型的值作為殘差的近似值薛耻,進(jìn)而擬合一棵CART回歸樹。
  GBDT的會(huì)累加所有樹的結(jié)果赏陵,而這種累加是無(wú)法通過(guò)分類完成的饼齿,因此GBDT的樹都是CART回歸樹,而不是分類樹(盡管GBDT調(diào)整后也可以用于分類但不代表GBDT的樹為分類樹)蝙搔。

2.2 優(yōu)缺點(diǎn)
  GBDT的性能在RF的基礎(chǔ)上又有一步提升缕溉,因此其優(yōu)點(diǎn)也很明顯,1吃型、它能靈活的處理各種類型的數(shù)據(jù)证鸥;2、在相對(duì)較少的調(diào)參時(shí)間下勤晚,預(yù)測(cè)的準(zhǔn)確度較高枉层。
  當(dāng)然由于它是Boosting,因此基學(xué)習(xí)器之前存在串行關(guān)系赐写,難以并行訓(xùn)練數(shù)據(jù)鸟蜡。

3、XGBoost
3.1 原理
  XGBoost的性能在GBDT上又有一步提升挺邀,而其性能也能通過(guò)各種比賽管窺一二揉忘。坊間對(duì)XGBoost最大的認(rèn)知在于其能夠自動(dòng)地運(yùn)用CPU的多線程進(jìn)行并行計(jì)算,同時(shí)在算法精度上也進(jìn)行了精度的提高悠夯。
  由于GBDT在合理的參數(shù)設(shè)置下癌淮,往往要生成一定數(shù)量的樹才能達(dá)到令人滿意的準(zhǔn)確率,在數(shù)據(jù)集較復(fù)雜時(shí)沦补,模型可能需要幾千次迭代運(yùn)算乳蓄。但是XGBoost利用并行的CPU更好的解決了這個(gè)問題。
  其實(shí)XGBoost和GBDT的差別也較大夕膀,這一點(diǎn)也同樣體現(xiàn)在其性能表現(xiàn)上虚倒,詳見XGBoost與GBDT的區(qū)別美侦。

4、區(qū)別
4.1 GBDT和XGBoost區(qū)別
傳統(tǒng)的GBDT以CART樹作為基學(xué)習(xí)器魂奥,XGBoost還支持線性分類器菠剩,這個(gè)時(shí)候XGBoost相當(dāng)于L1和L2正則化的邏輯斯蒂回歸(分類)或者線性回歸(回歸);
傳統(tǒng)的GBDT在優(yōu)化的時(shí)候只用到一階導(dǎo)數(shù)信息耻煤,XGBoost則對(duì)代價(jià)函數(shù)進(jìn)行了二階泰勒展開具壮,得到一階和二階導(dǎo)數(shù);
XGBoost在代價(jià)函數(shù)中加入了正則項(xiàng)哈蝇,用于控制模型的復(fù)雜度棺妓。從權(quán)衡方差偏差來(lái)看,它降低了模型的方差炮赦,使學(xué)習(xí)出來(lái)的模型更加簡(jiǎn)單怜跑,放置過(guò)擬合,這也是XGBoost優(yōu)于傳統(tǒng)GBDT的一個(gè)特性吠勘;
shrinkage(縮減)性芬,相當(dāng)于學(xué)習(xí)速率(XGBoost中的eta)。XGBoost在進(jìn)行完一次迭代時(shí)剧防,會(huì)將葉子節(jié)點(diǎn)的權(quán)值乘上該系數(shù)植锉,主要是為了削弱每棵樹的影響,讓后面有更大的學(xué)習(xí)空間诵姜。(GBDT也有學(xué)習(xí)速率)汽煮;
列抽樣。XGBoost借鑒了隨機(jī)森林的做法棚唆,支持列抽樣暇赤,不僅防止過(guò) 擬合,還能減少計(jì)算宵凌;
對(duì)缺失值的處理鞋囊。對(duì)于特征的值有缺失的樣本,XGBoost還可以自動(dòng) 學(xué)習(xí)出它的分裂方向瞎惫;
XGBoost工具支持并行溜腐。Boosting不是一種串行的結(jié)構(gòu)嗎?怎么并行 的?注意XGBoost的并行不是tree粒度的并行瓜喇,XGBoost也是一次迭代完才能進(jìn)行下一次迭代的(第t次迭代的代價(jià)函數(shù)里包含了前面t-1次迭代的預(yù)測(cè)值)挺益。XGBoost的并行是在特征粒度上的。我們知道乘寒,決策樹的學(xué)習(xí)最耗時(shí)的一個(gè)步驟就是對(duì)特征的值進(jìn)行排序(因?yàn)橐_定最佳分割點(diǎn))望众,XGBoost在訓(xùn)練之前,預(yù)先對(duì)數(shù)據(jù)進(jìn)行了排序,然后保存為block結(jié)構(gòu)烂翰,后面的迭代 中重復(fù)地使用這個(gè)結(jié)構(gòu)夯缺,大大減小計(jì)算量。這個(gè)block結(jié)構(gòu)也使得并行成為了可能甘耿,在進(jìn)行節(jié)點(diǎn)的分裂時(shí)踊兜,需要計(jì)算每個(gè)特征的增益,最終選增益最大的那個(gè)特征去做分裂佳恬,那么各個(gè)特征的增益計(jì)算就可以開多線程進(jìn)行捏境。
————————————————
版權(quán)聲明:本文為CSDN博主「Vico_Men」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議毁葱,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明典蝌。
原文鏈接:https://blog.csdn.net/qq_28031525/article/details/70207918

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市头谜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌鸠澈,老刑警劉巖柱告,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異笑陈,居然都是意外死亡际度,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門涵妥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)乖菱,“玉大人,你說(shuō)我怎么就攤上這事蓬网≈纤” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵帆锋,是天一觀的道長(zhǎng)吵取。 經(jīng)常有香客問我,道長(zhǎng)锯厢,這世上最難降的妖魔是什么皮官? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮实辑,結(jié)果婚禮上捺氢,老公的妹妹穿的比我還像新娘。我一直安慰自己剪撬,他們只是感情好摄乒,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般缺狠。 火紅的嫁衣襯著肌膚如雪问慎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天挤茄,我揣著相機(jī)與錄音如叼,去河邊找鬼。 笑死穷劈,一個(gè)胖子當(dāng)著我的面吹牛笼恰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播歇终,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼社证,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了评凝?” 一聲冷哼從身側(cè)響起追葡,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎奕短,沒想到半個(gè)月后宜肉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡翎碑,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年谬返,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片日杈。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡遣铝,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出莉擒,到底是詐尸還是另有隱情酿炸,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布啰劲,位于F島的核電站梁沧,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏蝇裤。R本人自食惡果不足惜廷支,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望栓辜。 院中可真熱鬧恋拍,春花似錦、人聲如沸藕甩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至僵娃,卻和暖如春概作,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背默怨。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工讯榕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人匙睹。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓愚屁,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親痕檬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子霎槐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容