01 集成學(xué)習(xí) - 概述迹恐、Bagging - 隨機(jī)森林、袋外錯(cuò)誤率

這幾章我們聊聊集成學(xué)習(xí)卧斟，集成學(xué)習(xí)算法是目前為止我們?cè)?strong>相同特征條件下做特征工程時(shí)殴边，建立模型評(píng)分和效果最好的算法。比之前講過(guò)的線性回歸珍语、Logist回歸锤岸、KNN、決策樹(shù)的評(píng)分效果都好板乙。

集成學(xué)習(xí)的講解分三個(gè)部分：Bagging-自舉匯聚是偷、Boosting-提升算法、Stacking-模型融合募逞。注意：Stacking模型是一個(gè)很有趣的算法晓猛，在比賽中用到有時(shí)候效果會(huì)出奇得好，但有時(shí)候會(huì)出現(xiàn)畫(huà)蛇添足的效果凡辱，需要大家在比賽中自己體會(huì)一番戒职，這個(gè)后續(xù)我們會(huì)講到。

Bagging算法：隨機(jī)森林透乾，隨機(jī)森林的思想就是Bagging算法的核心思想洪燥。
Boosting算法：集成學(xué)習(xí)中最重點(diǎn)的內(nèi)容磕秤，GBDT-迭代決策樹(shù)/梯度提升決策樹(shù)、Adaboost-自適應(yīng)提升捧韵、XGBoost市咆、LightGBM。

在比賽中XGBoost算法用得比較多再来，模型效果相當(dāng)不錯(cuò)蒙兰。

此外需要進(jìn)一步研究學(xué)習(xí)的一個(gè)重要算法是LightGBM，這是微軟算法研究團(tuán)隊(duì)推出的一套芒篷，以直方圖為標(biāo)準(zhǔn)的提升算法搜变。其運(yùn)算效率在集成學(xué)習(xí)算法中是最快的。

一针炉、為什么要進(jìn)行集成學(xué)習(xí)

集成學(xué)習(xí)的思想是將若干個(gè)學(xué)習(xí)器(分類器挠他、回歸器)組合之后產(chǎn)生一個(gè)新的學(xué)習(xí)器。

弱分類器(weak learner): 指那些分類準(zhǔn)確率值只稍好于隨機(jī)猜測(cè)的分類器(error<0.5);

集成算法的成功在于保證弱分類器的多樣性篡帕。而且集成不穩(wěn)定的算法也能夠得到一個(gè)比較明顯的性能提升殖侵。

選擇集成學(xué)習(xí)主要原因：
1、弱分類器間存在一定的差異性镰烧，這會(huì)導(dǎo)致分類的邊界不同拢军，也就是說(shuō)可能存在錯(cuò)誤。那么將多個(gè)若分類器合并后怔鳖，就可以得到更加合理的邊界朴沿，減少整體的錯(cuò)誤率，實(shí)現(xiàn)更好的效果败砂。

2赌渣、對(duì)于數(shù)據(jù)集過(guò)大或者過(guò)小，可以分別進(jìn)行劃分和有放回的操作昌犹，產(chǎn)生不同的數(shù)據(jù)子集坚芜，然后使用數(shù)據(jù)子集訓(xùn)練不同的分類器，最終再合并成一個(gè)大分類器斜姥。

3鸿竖、如果數(shù)據(jù)的劃分邊界過(guò)于復(fù)雜，使用線性模型很難描述情況铸敏，那么可以訓(xùn)練多個(gè)模型缚忧，然后再進(jìn)行模型的融合。

4杈笔、對(duì)于多個(gè)異構(gòu)的特征集闪水，很難進(jìn)行融合。那么可以考慮為每個(gè)數(shù)據(jù)集構(gòu)建一個(gè)分類模型蒙具，然后將多個(gè)模型融合球榆。

方法：構(gòu)建多個(gè)分類模型始腾，最終將模型進(jìn)行融合。
A數(shù)據(jù)集中空执，將電腦和日用品進(jìn)行分類浪箭，分成兩個(gè)大類。
A-電腦和B結(jié)合脆烟，生成一個(gè)模型進(jìn)行預(yù)測(cè)山林。
A-日用品和C結(jié)合房待，生成一個(gè)模型進(jìn)行預(yù)測(cè)邢羔。
最后得到的模型進(jìn)行融合。

二桑孩、Bagging方法

Bagging方法又稱自舉匯聚法拜鹤，思想是：在原始數(shù)據(jù)集上，通過(guò)有放回的抽樣的方法流椒，重新選擇出S個(gè)新數(shù)據(jù)集來(lái)分別訓(xùn)練S個(gè)分類器的集成技術(shù)敏簿。即：這些模型訓(xùn)練的數(shù)據(jù)中允許存在重復(fù)的數(shù)據(jù)。

樣本沒(méi)有被抽到的概率

之前講過(guò)宣虾，這里回顧一下：從m個(gè)樣本中惯裕，抽取出m個(gè)新的觀測(cè)值，此時(shí)任意一個(gè)樣本沒(méi)有被抽到的概率為36.8%绣硝。

解析：某個(gè)樣本一次被抽到的概率是1/m 蜻势，那么一次沒(méi)有被抽到的概率就是 1-1/m，m次都沒(méi)有抽取到的聯(lián)合概率是 (1-1/m)^m 即樣本沒(méi)有出現(xiàn)在新的數(shù)據(jù)集中的概率鹉胖。假如樣本的數(shù)據(jù)集足夠的大握玛，即當(dāng)m趨向于無(wú)窮大的時(shí)候求出的極限為1/e，約等于36.8%甫菠。

Bagging方法訓(xùn)練出的模型在預(yù)測(cè)新樣本分類時(shí)挠铲，會(huì)使用多數(shù)投票、求均值的方式來(lái)統(tǒng)計(jì)最終分類結(jié)果寂诱。

Bagging方法的弱學(xué)習(xí)器可以是基本的算法模型：Linear拂苹、Ridge、Lasso痰洒、Logistic醋寝、Softmax搞挣、ID3、C4.5音羞、CART囱桨、SVM、KNN等嗅绰。

總結(jié)： Bagging是有放回的抽樣舍肠，并且每個(gè)自己的樣本數(shù)量必須和原樣本數(shù)量一致，允許子集存在重復(fù)數(shù)據(jù)窘面。

訓(xùn)練過(guò)程

預(yù)測(cè)過(guò)程

三翠语、隨機(jī)森林(Random Forest)

在Bagging策略的基礎(chǔ)上進(jìn)行修改后的一種算法
1、從原始樣本集m個(gè)中用Bootstrap采樣-有放回重采樣财边，選出m個(gè)樣本肌括。
2、從所有屬性中隨機(jī)選出k個(gè)屬性酣难，選擇最佳分割屬性作為節(jié)點(diǎn)創(chuàng)建決策樹(shù)谍夭。
3、重復(fù)以上兩步s次憨募，即建立s個(gè)決策樹(shù)紧索。
4、這s個(gè)決策樹(shù)形成隨機(jī)森林菜谣，通過(guò)投票表決結(jié)果珠漂，決定數(shù)據(jù)屬于哪一類。

隨機(jī)森林包含兩個(gè)隨機(jī)的層面：樣本隨機(jī)尾膊，選擇特征隨機(jī)媳危。

PS：隨機(jī)森林在傳統(tǒng)行業(yè)，比如金融行業(yè)用的比較多冈敛。一般金融行業(yè)用到的算法：Logistic回歸待笑、決策樹(shù)、隨機(jī)森林莺债。但在比賽中隨機(jī)森林用到的概率比較低滋觉，原因在于比賽數(shù)據(jù)比較復(fù)雜，如果沒(méi)有很好的進(jìn)行特征工程齐邦，那么在訓(xùn)練集上模型的表現(xiàn)就很差了椎侠。

比較決策樹(shù)和隨機(jī)森林：
決策樹(shù)做分支的時(shí)候，考慮的是所有的屬性措拇。而隨機(jī)森林分支的時(shí)候是對(duì)隨機(jī)選出的屬性做分類我纪。

決策樹(shù)的構(gòu)建方式： 從原始K個(gè)特征中，每一個(gè)特征都找到當(dāng)前特征的最優(yōu)分割點(diǎn)。然后基于最優(yōu)分割點(diǎn)浅悉，找到最優(yōu)的分割屬性趟据。

傳統(tǒng)決策樹(shù)

隨機(jī)森林的構(gòu)建方式： 抽取K個(gè)特征，找到每個(gè)特征的最優(yōu)分割點(diǎn)术健，再選擇最優(yōu)的分割屬性汹碱。

隨機(jī)森林

隨機(jī)森林算法：
1、隨機(jī)有放回抽樣荞估，選取S個(gè)數(shù)據(jù)集咳促，建立S個(gè)模型。
2勘伺、在每一個(gè)基模型構(gòu)建過(guò)程中跪腹，對(duì)于劃分決策樹(shù)時(shí)，隨機(jī)選擇K個(gè)特征進(jìn)行劃分飞醉。

隨機(jī)森林算法本身(bagging方法)冲茸，不會(huì)對(duì)原有數(shù)據(jù)集中的數(shù)據(jù)內(nèi)容進(jìn)行改變，只是對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣缅帘。

四轴术、袋外錯(cuò)誤率 - 隨機(jī)森林的評(píng)價(jià)指標(biāo)

袋外： out of bag，error rate

隨機(jī)森林有一個(gè)重要的有點(diǎn)是：沒(méi)有必要對(duì)它進(jìn)行交叉驗(yàn)證或用一個(gè)獨(dú)立的測(cè)試集來(lái)獲得誤差的一個(gè)無(wú)偏估計(jì)股毫。它可以在內(nèi)部進(jìn)行評(píng)估膳音，即在生成過(guò)程中就對(duì)誤差建立了一個(gè)無(wú)偏估計(jì)召衔。

在構(gòu)建每個(gè)樹(shù)時(shí)铃诬，我們對(duì)訓(xùn)練集使用了不同的bootstrap sample(隨機(jī)且有放回地抽取)。所以對(duì)每棵樹(shù)而言苍凛，假設(shè)對(duì)第k棵樹(shù)趣席，大約有1/3的示例沒(méi)有參與第k課樹(shù)的生成，它們稱為第k棵樹(shù)的oob樣本醇蝴。

袋外錯(cuò)誤率的計(jì)算方式：
根據(jù)采樣的特點(diǎn)我們可以進(jìn)行oob估計(jì)宣肚，計(jì)算方式如下：
1、對(duì)每個(gè)樣本悠栓，計(jì)算它作為oob樣本的樹(shù)霉涨，對(duì)它的分類情況(約1/3的樹(shù))。
解釋：設(shè)有S個(gè)樹(shù)惭适，如上我們所知笙瑟，任意一個(gè)樣本大約會(huì)出現(xiàn)在2/3S個(gè)樹(shù)上，同時(shí)也約有1/3S棵樹(shù)上沒(méi)有出現(xiàn)這個(gè)樣本癞志。這個(gè)樣本是這1/3S棵樹(shù)上的oob往枷。這也意味著，這個(gè)樣本可以作為1/3S棵樹(shù)上的測(cè)試樣本。

2错洁、然后以簡(jiǎn)單多數(shù)投票作為該樣本的分類結(jié)果秉宿。
解釋：將某個(gè)樣本放入1/3S棵樹(shù)上，每個(gè)樹(shù)都會(huì)得出一個(gè)預(yù)測(cè)結(jié)果屯碴，對(duì)這1/3S個(gè)數(shù)據(jù)進(jìn)行投票描睦。

3、最后用誤分個(gè)數(shù)占樣本總數(shù)的比率导而，作為隨機(jī)森林oob的誤分率酌摇。
解釋： 將每個(gè)預(yù)測(cè)結(jié)果和真實(shí)值進(jìn)行比較，即y_m^ 和 y_m 是否相等嗡载。找出錯(cuò)誤預(yù)測(cè)的個(gè)數(shù)占總數(shù)m的比率窑多，即隨機(jī)森林oob的誤分率。

誤分率示例

oob誤分率是隨機(jī)森林泛化誤差的一個(gè)無(wú)偏估計(jì)洼滚，它的結(jié)果近似于需要大量計(jì)算的k折交叉驗(yàn)證埂息。

泛化誤差： 測(cè)試集上表現(xiàn)好，說(shuō)明泛化能力強(qiáng)遥巴。反之說(shuō)明泛化能力弱千康。

袋外錯(cuò)誤率 = 測(cè)試集的錯(cuò)誤率

02 集成學(xué)習(xí) - Bagging - 特征重要度、隨機(jī)森林推廣算法

最后編輯于：2018.11.15 22:38:48

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末铲掐，一起剝皮案震驚了整個(gè)濱河市拾弃，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌摆霉，老刑警劉巖豪椿，帶你破解...
沈念sama閱讀 222,590評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異携栋，居然都是意外死亡搭盾，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,157評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)婉支，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)鸯隅，“玉大人，你說(shuō)我怎么就攤上這事向挖◎蛞裕” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 169,301評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵何之，是天一觀的道長(zhǎng)跟畅。經(jīng)常有香客問(wèn)我，道長(zhǎng)帝美，這世上最難降的妖魔是什么碍彭？我笑而不...
開(kāi)封第一講書(shū)人閱讀 60,078評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任晤硕，我火速辦了婚禮，結(jié)果婚禮上庇忌，老公的妹妹穿的比我還像新娘舞箍。我一直安慰自己，他們只是感情好皆疹，可當(dāng)我...
茶點(diǎn)故事閱讀 69,082評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布疏橄。她就那樣靜靜地躺著，像睡著了一般略就。火紅的嫁衣襯著肌膚如雪捎迫。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 52,682評(píng)論 1贊 312
城市分裂傳說(shuō)
那天表牢，我揣著相機(jī)與錄音窄绒，去河邊找鬼。笑死崔兴，一個(gè)胖子當(dāng)著我的面吹牛彰导，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播敲茄，決...
沈念sama閱讀 41,155評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼位谋，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了堰燎？” 一聲冷哼從身側(cè)響起掏父，我...
開(kāi)封第一講書(shū)人閱讀 40,098評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎秆剪，沒(méi)想到半個(gè)月后赊淑，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,638評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡鸟款，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,701評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年膏燃，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了茂卦。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片何什。...
茶點(diǎn)故事閱讀 40,852評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖等龙，靈堂內(nèi)的尸體忽然破棺而出处渣，到底是詐尸還是另有隱情，我是刑警寧澤蛛砰，帶...
沈念sama閱讀 36,520評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布罐栈，位于F島的核電站，受9級(jí)特大地震影響泥畅，放射性物質(zhì)發(fā)生泄漏荠诬。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,181評(píng)論 3贊 335
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望柑贞。院中可真熱鬧方椎，春花似錦、人聲如沸钧嘶。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,674評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)有决。三九已至闸拿，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間书幕，已是汗流浹背新荤。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,788評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留台汇，地道東北人迟隅。一個(gè)月前我還...
沈念sama閱讀 49,279評(píng)論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像励七，于是被迫代替她去往敵國(guó)和親智袭。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,851評(píng)論 2贊 361

01 集成學(xué)習(xí) - 概述、Bagging - 隨機(jī)森林海铆、袋外錯(cuò)誤率

01 集成學(xué)習(xí) - 概述迹恐、Bagging - 隨機(jī)森林、袋外錯(cuò)誤率

一针炉、為什么要進(jìn)行集成學(xué)習(xí)

二桑孩、Bagging方法

三翠语、隨機(jī)森林(Random Forest)

四轴术、袋外錯(cuò)誤率 - 隨機(jī)森林的評(píng)價(jià)指標(biāo)

推薦閱讀更多精彩內(nèi)容