集成學(xué)習(xí)

集成學(xué)習(xí)與個(gè)體學(xué)習(xí)器

  • 集成學(xué)習(xí)是機(jī)器學(xué)習(xí)中常用的一種方法,常用的集成學(xué)習(xí)方法有boosting,bagging以及隨機(jī)森林凌受,前者基學(xué)習(xí)器相互之間有著較大關(guān)聯(lián)的一種集成學(xué)習(xí)方法宛蚓,后兩者是基學(xué)習(xí)器之間較為獨(dú)立的集成學(xué)習(xí)方法嗤详。通常較好的集成學(xué)習(xí)算法的基學(xué)習(xí)器有著“好而不同”的特點(diǎn)幌衣,即在我們構(gòu)建基學(xué)習(xí)的過(guò)程中希望我們得到的基學(xué)習(xí)器能夠有較高的準(zhǔn)確率并且能夠保證不同的學(xué)習(xí)器之間有著不同的結(jié)果,但是這兩項(xiàng)指標(biāo)在某種程度上是矛盾的碗殷,所以我們?cè)跇?gòu)建基學(xué)習(xí)的過(guò)程中并不能完全做到“好而不同”。
  • 個(gè)體學(xué)習(xí)器是指集成學(xué)習(xí)中被集成的單個(gè)學(xué)習(xí)器速缨。常見的學(xué)習(xí)器有以下兩種:1.C4.5決策樹算法 2.BP神經(jīng)網(wǎng)絡(luò)亿扁。我們將用同種算法集成的學(xué)習(xí)器稱為“同質(zhì)”學(xué)習(xí)器,學(xué)習(xí)算法稱為“基學(xué)習(xí)算法”鸟廓,不同的算法集成的學(xué)習(xí)器稱為“異質(zhì)”學(xué)習(xí)器从祝。個(gè)體學(xué)習(xí)器應(yīng)該采用不同的數(shù)據(jù)集訓(xùn)練,以達(dá)到個(gè)體學(xué)習(xí)器之間相互獨(dú)立的條件引谜,但是在現(xiàn)實(shí)生活中數(shù)據(jù)與數(shù)據(jù)之間并不能保證數(shù)據(jù)集的完全獨(dú)立牍陌,所以訓(xùn)練好的學(xué)習(xí)器只能保證大體獨(dú)立,集成后的學(xué)習(xí)器的結(jié)果由測(cè)試數(shù)據(jù)集來(lái)度量學(xué)習(xí)器的好壞员咽。

Boosting & bagging

  • Boosting算法是一族分類器之間有強(qiáng)關(guān)聯(lián)的一種算法毒涧,由較弱的分類器逐漸訓(xùn)練成精準(zhǔn)度較高的強(qiáng)分類器。在Boosting算法中贝室,最有名的算法叫Adaboost算法契讲。其基本思想是對(duì)于每個(gè)分類器設(shè)定一個(gè)相同的權(quán)重,之后再對(duì)每個(gè)分類器進(jìn)行訓(xùn)練滑频,得到分類器的誤差捡偏,對(duì)于誤差較大的分類器增加它的權(quán)重值,而對(duì)于誤差較小的分類器減小他們的權(quán)重值峡迷,之后再重新訓(xùn)練直到最終的損失函數(shù)達(dá)到收斂银伟。
1.為每一個(gè)分類器設(shè)定權(quán)重值Di = 1/N
2.設(shè)定訓(xùn)練次數(shù)m = 1,2,3,4......M
  a.使用具有Dm的訓(xùn)練集進(jìn)行訓(xùn)練你虹,得到基本分類器Gm(x)
  b.計(jì)算這次迭代的誤差em=∑Wmi*I(Gm(xi)!=Yi)
  c.計(jì)算Gm(x)的系數(shù)(話語(yǔ)權(quán))αm=1/2 * log((1-em)/em)
  d.更新權(quán)重值
3.構(gòu)建基本分類器的線性組合
      G(x)=sign(∑αmGm(x))
  • Bagging算法是一種分類器之間沒有較大關(guān)聯(lián)的增強(qiáng)算法,分類器之間的結(jié)果可以近似看做獨(dú)立的彤避。它的主要思想是“投票”傅物,訓(xùn)練T個(gè)分類器,T個(gè)分類器分別投票琉预,選出最終的結(jié)果董饰。算法流程如下圖所示。
1.設(shè)定需要的分類器個(gè)數(shù)T
2.開始迭代t = 1,2,3,4....T
  a.對(duì)樣本集進(jìn)行有放回采樣圆米,共采取m個(gè)尖阔。
  b.對(duì)這m個(gè)樣本進(jìn)行訓(xùn)練得到分類器Gt(x)。
3.對(duì)這m個(gè)分類器進(jìn)行線性組合榨咐,最終結(jié)果是
          G(x)= argmax ∑ Gt(x)

隨機(jī)森林的思想與推廣

  • 隨機(jī)森林(Random forest)是一種基于決策樹的分類算法介却。首先決策樹用了CART決策樹作為弱學(xué)習(xí)器。同時(shí)采用了bagging的思想块茁,由于集成學(xué)習(xí)要求分類器之間有“好而不同”的特征齿坷,所以在決策樹決定最佳分類節(jié)點(diǎn)的時(shí)候并不是在所有特征中選取一個(gè)最佳特征,而是在待選取的Nsub個(gè)特征中選取一個(gè)数焊,這樣就極大的增加了分類器的泛化程度永淌,由于是集成學(xué)習(xí)也可以極大的增加結(jié)果精確性。最終的結(jié)果由T個(gè)分類器投票決定佩耳。
首先設(shè)定弱分類器的的個(gè)數(shù)T遂蛀,以及訓(xùn)練數(shù)據(jù)集大小m
1.對(duì)于t=1,2,3,4......T
  a.對(duì)待訓(xùn)練數(shù)據(jù)進(jìn)行t第t次有放回的抽樣,抽取m個(gè)干厚。
  b.對(duì)這m個(gè)數(shù)據(jù)按照上面所說(shuō)的方式進(jìn)行訓(xùn)練得到?jīng)Q策樹分類器Gt(x)李滴。
2.對(duì)這T個(gè)分類器進(jìn)行線性疊加,如果是分類則返回其中最多的那個(gè)蛮瞄,如果是回歸所坯,則返回所以分類器的加權(quán)平均。
  • 隨機(jī)森林的推廣(暫時(shí)還沒看)
    1.extra trees
    2.Totally Random Trees Embedding
    3.Isolation Forest

隨機(jī)森林的優(yōu)缺點(diǎn)

  • 優(yōu)點(diǎn)
    1.訓(xùn)練可以并行的進(jìn)行挂捅,不想boosting需要串行芹助,能夠極大的加快訓(xùn)練的速度。
    2.由于是選擇特征進(jìn)行分類闲先,所以可以分類較高維的數(shù)據(jù)状土。
    3.訓(xùn)練后可以給出各個(gè)維度的重要程度。
    4.RF相對(duì)Adaboost實(shí)現(xiàn)相對(duì)簡(jiǎn)單伺糠。
    5.方差小蒙谓,泛化能力強(qiáng),對(duì)特征缺失不敏感退盯。
  • 缺點(diǎn)
    1.在噪點(diǎn)較多的數(shù)據(jù)集上容易過(guò)擬合彼乌。
    2.取值劃分比較多的特征容易對(duì)RF的決策產(chǎn)生更大的影響泻肯,從而影響擬合的模型的效果渊迁。

sklearn中的參數(shù)

  • 在sklearn機(jī)器學(xué)習(xí)包中慰照,隨機(jī)森林在集成學(xué)習(xí)模塊,具體在sklearn.ensemble.RandomForestClassifier()中琉朽,主要參數(shù)如下所示毒租。
n_estimators:這個(gè)參數(shù)定義了隨機(jī)森林的分類器個(gè)數(shù)。
criterion:這個(gè)參數(shù)定義了在構(gòu)建每個(gè)分類器時(shí)箱叁,選取待選取節(jié)點(diǎn)特征的指標(biāo)墅垮。
max_depth:這個(gè)參數(shù)定義了在構(gòu)建決策樹時(shí),樹最大的深度耕漱。
booststrap:這個(gè)參數(shù)表示在構(gòu)建樹時(shí)是否使用自舉樣本算色。
oob_score:這個(gè)參數(shù)表示是否用袋外數(shù)據(jù)來(lái)估計(jì)某個(gè)分類器的好壞。默認(rèn)為否螟够。

隨機(jī)森林的使用場(chǎng)景

  • 嚴(yán)格來(lái)說(shuō)灾梦,隨機(jī)森林其實(shí)算是一種集成算法。它首先隨機(jī)選取不同的特征(feature)和訓(xùn)練樣本(training sample)妓笙,生成大量的決策樹若河,然后綜合這些決策樹的結(jié)果來(lái)進(jìn)行最終的分類。
    隨機(jī)森林在現(xiàn)實(shí)分析中被大量使用寞宫,它相對(duì)于決策樹萧福,在準(zhǔn)確性上有了很大的提升,同時(shí)一定程度上改善了決策樹容易被攻擊的特點(diǎn)辈赋。
    適用情景:
    1.數(shù)據(jù)維度相對(duì)低(幾十維)鲫忍,同時(shí)對(duì)準(zhǔn)確性有較高要求時(shí)。
    2.因?yàn)椴恍枰芏鄥?shù)調(diào)整就可以達(dá)到不錯(cuò)的效果钥屈,基本上不知道用什么方法的時(shí)候都可以先試一下隨機(jī)森林饲窿。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市焕蹄,隨后出現(xiàn)的幾起案子逾雄,更是在濱河造成了極大的恐慌,老刑警劉巖腻脏,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鸦泳,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡永品,警方通過(guò)查閱死者的電腦和手機(jī)做鹰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)鼎姐,“玉大人钾麸,你說(shuō)我怎么就攤上這事更振。” “怎么了饭尝?”我有些...
    開封第一講書人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵肯腕,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我钥平,道長(zhǎng)实撒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任涉瘾,我火速辦了婚禮知态,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘立叛。我一直安慰自己负敏,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開白布秘蛇。 她就那樣靜靜地躺著其做,像睡著了一般。 火紅的嫁衣襯著肌膚如雪彤叉。 梳的紋絲不亂的頭發(fā)上庶柿,一...
    開封第一講書人閱讀 49,950評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音秽浇,去河邊找鬼浮庐。 笑死,一個(gè)胖子當(dāng)著我的面吹牛柬焕,可吹牛的內(nèi)容都是我干的审残。 我是一名探鬼主播,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼斑举,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼搅轿!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起富玷,我...
    開封第一講書人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤璧坟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后赎懦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體雀鹃,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年励两,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了黎茎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡当悔,死狀恐怖傅瞻,靈堂內(nèi)的尸體忽然破棺而出踢代,到底是詐尸還是另有隱情,我是刑警寧澤嗅骄,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布胳挎,位于F島的核電站,受9級(jí)特大地震影響掸读,放射性物質(zhì)發(fā)生泄漏串远。R本人自食惡果不足惜宏多,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一儿惫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧伸但,春花似錦肾请、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至却妨,卻和暖如春饵逐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背彪标。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工倍权, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人捞烟。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓薄声,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親题画。 傳聞我的和親對(duì)象是個(gè)殘疾皇子默辨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容

  • 假設(shè)你去隨機(jī)問很多人一個(gè)很復(fù)雜的問題,然后把它們的答案合并起來(lái)苍息。通常情況下你會(huì)發(fā)現(xiàn)這個(gè)合并的答案比一個(gè)專家的答案要...
    城市中迷途小書童閱讀 2,496評(píng)論 0 1
  • (第一部分 機(jī)器學(xué)習(xí)基礎(chǔ))第01章 機(jī)器學(xué)習(xí)概覽第02章 一個(gè)完整的機(jī)器學(xué)習(xí)項(xiàng)目(上)第02章 一個(gè)完整的機(jī)器學(xué)習(xí)...
    SeanCheney閱讀 5,189評(píng)論 0 17
  • 集成學(xué)習(xí) 原理 《機(jī)器學(xué)習(xí)》周志華 8.1 個(gè)體與集成 集成學(xué)習(xí)(ensemble learning) 通過(guò)構(gòu)建并...
    hxiaom閱讀 1,022評(píng)論 0 2
  • About 個(gè)人同時(shí)在簡(jiǎn)書和自制個(gè)人博客兩個(gè)地方同時(shí)更新文章缩幸,有興趣的話可以來(lái)我的博客玩呀,一般而言排版會(huì)好不少竞思。...
    DeamoV閱讀 2,954評(píng)論 0 1
  • 糾糾結(jié)結(jié)大半個(gè)月表谊,最后還是在這一天走了。一坐上車衙四,心底里說(shuō)不出的難受铃肯。
    穆苗閱讀 285評(píng)論 0 0