集成學(xué)習(xí)

1.集成學(xué)習(xí)概念

通過(guò)訓(xùn)練若干個(gè)個(gè)體學(xué)習(xí)器,通過(guò)結(jié)合策略狈癞,最終形成一個(gè)強(qiáng)學(xué)習(xí)器履羞。

2.個(gè)體學(xué)習(xí)器概念

個(gè)體學(xué)習(xí)器又稱弱學(xué)習(xí)器峦萎,是集成學(xué)習(xí)的基本組成屡久,一般有兩種,一個(gè)是所有的個(gè)體學(xué)習(xí)器是一種類型的爱榔,比如都是決策樹(shù)被环,或者神經(jīng)網(wǎng)絡(luò),第二種采用不同類型的详幽,最后組合起來(lái)筛欢,結(jié)合策略類似stacking。

3.boosting&bagging

boosting&bagging是集成學(xué)習(xí)的兩種算法分類妒潭,代表著2中不同內(nèi)容的算法悴能。針對(duì)解決的問(wèn)題也是不同的。

boosting原理是利用多個(gè)弱學(xué)習(xí)器雳灾,他們偏差大漠酿,但是方差小。通過(guò)將多個(gè)弱學(xué)習(xí)器串行谎亩,每一輪都調(diào)整訓(xùn)練集的權(quán)重炒嘲,提升上一輪預(yù)測(cè)錯(cuò)的樣本權(quán)重,降低預(yù)測(cè)正確的樣本權(quán)重匈庭,這樣是學(xué)習(xí)器重點(diǎn)在于預(yù)測(cè)錯(cuò)誤的樣本上夫凸。最終通過(guò)結(jié)合策略進(jìn)行整合。強(qiáng)學(xué)習(xí)器表現(xiàn)就是低方差阱持,也成功降低了偏差夭拌。

boosting代表算法:adaboost,GBDT衷咽。

bagging原理是利用多個(gè)弱學(xué)習(xí)器鸽扁,他們的偏差小,但是方差大镶骗。bagging的目的就是通過(guò)策略降低這些弱學(xué)習(xí)器的方差桶现,并兼容他們偏差小。將多個(gè)弱學(xué)習(xí)器并行鼎姊,對(duì)訓(xùn)練集進(jìn)行隨機(jī)取樣骡和,取T份,用來(lái)訓(xùn)練T個(gè)弱學(xué)習(xí)器相寇,再對(duì)這T個(gè)弱學(xué)習(xí)器進(jìn)行結(jié)合慰于。

bagging代表算法:隨機(jī)森林RF,極端樹(shù)ET。

4.結(jié)合策略(平均法唤衫,投票法东囚,學(xué)習(xí)法)

1.平均法-回歸問(wèn)題

對(duì)于數(shù)值回歸問(wèn)題,最簡(jiǎn)單就是將每個(gè)弱學(xué)習(xí)器預(yù)測(cè)的值加起來(lái)战授,取平均數(shù)页藻,如果每個(gè)弱學(xué)習(xí)器有自身的權(quán)重(例如adaboost)就進(jìn)行加權(quán)平均。

2.投票法-分類問(wèn)題

對(duì)于分類問(wèn)題的預(yù)測(cè)植兰,采用投票法份帐,就是少數(shù)服從多數(shù)。還有加權(quán)投票法楣导,就是每個(gè)票都有相應(yīng)的權(quán)重废境。

3.學(xué)習(xí)法-stacking

上述都相對(duì)簡(jiǎn)單,學(xué)習(xí)法就是stacking筒繁,我們將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入噩凹,將訓(xùn)練集的輸出作為輸出,重新訓(xùn)練一個(gè)學(xué)習(xí)器來(lái)得到最終結(jié)果毡咏。

在這種情況下驮宴,我們將弱學(xué)習(xí)器稱為初級(jí)學(xué)習(xí)器,將用于結(jié)合的學(xué)習(xí)器稱為次級(jí)學(xué)習(xí)器呕缭。對(duì)于測(cè)試集堵泽,我們首先用初級(jí)學(xué)習(xí)器預(yù)測(cè)一次,得到次級(jí)學(xué)習(xí)器的輸入樣本恢总,再用次級(jí)學(xué)習(xí)器預(yù)測(cè)一次迎罗,得到最終的預(yù)測(cè)結(jié)果。

stacking類似于網(wǎng)狀結(jié)構(gòu)片仿。

將原始數(shù)據(jù)分為train(m×n),test.

利用交叉驗(yàn)證纹安,將train進(jìn)行k折交叉驗(yàn)證。

對(duì)于每個(gè)model來(lái)說(shuō)砂豌,對(duì)其進(jìn)行k折交叉驗(yàn)證厢岂,最終得到k個(gè)模型,每個(gè)模型通過(guò)驗(yàn)證集得到k份預(yù)測(cè)結(jié)果奸鸯,將這些預(yù)測(cè)結(jié)果(k×1)繼續(xù)組合咪笑,最終拼湊一個(gè)完整行數(shù)的預(yù)測(cè)結(jié)果m×1。

假如有T個(gè)初級(jí)模型娄涩,就有m×T大小的次級(jí)訓(xùn)練集窗怒。

對(duì)于測(cè)試集來(lái)說(shuō),在每個(gè)k折model中進(jìn)行預(yù)測(cè)test蓄拣,得到k個(gè)test預(yù)測(cè)結(jié)果扬虚,組成m×k大小的數(shù)組。

5.隨機(jī)森林的思想

通過(guò)隨機(jī)取樣球恤,并行訓(xùn)練那些方差大辜昵,偏差小的強(qiáng)學(xué)習(xí)器,最終通過(guò)加權(quán)平均法得到最終學(xué)習(xí)器咽斧。目的是降低方差堪置。

6.隨機(jī)森林的推廣

extra tree:原理和RF相同躬存,rf是采用隨機(jī)采樣多份不同的訓(xùn)練子集,來(lái)訓(xùn)練多個(gè)學(xué)習(xí)器舀锨,et是用原始的訓(xùn)練集岭洲。但是在特征選擇時(shí),RF是根據(jù)基尼系數(shù)或者均方差作為原則坎匿,ET十分極端盾剩,直接隨機(jī)一個(gè)特征作為特征劃分決策樹(shù)。這樣造成ET的方差十分小替蔬,泛化能力強(qiáng)告私,而且訓(xùn)練的時(shí)間大大減少。以更高的偏差換取方差承桥。

7.隨機(jī)森林的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

1.主要的就是高度可并行訓(xùn)練學(xué)習(xí)器驻粟,對(duì)于大數(shù)據(jù)大大減少了訓(xùn)練時(shí)間。

2.可以隨機(jī)選擇特征進(jìn)行特征劃分快毛,對(duì)于高維特征格嗅,仍然十分高效的訓(xùn)練模型。

3.由于采用決策樹(shù)模型唠帝,可以在訓(xùn)練后輸出特征重要性屯掖。

4.由于采用決策樹(shù)模型,不需要對(duì)訓(xùn)練集進(jìn)行歸一化襟衰,對(duì)缺失值也不敏感贴铜。

缺點(diǎn):

噪聲大的樣本集,容易陷入過(guò)擬合瀑晒。

8.隨機(jī)森林的應(yīng)用場(chǎng)景

數(shù)目大的樣本集

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末绍坝,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子苔悦,更是在濱河造成了極大的恐慌轩褐,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件玖详,死亡現(xiàn)場(chǎng)離奇詭異把介,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蟋座,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門拗踢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人向臀,你說(shuō)我怎么就攤上這事巢墅。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵君纫,是天一觀的道長(zhǎng)驯遇。 經(jīng)常有香客問(wèn)我,道長(zhǎng)蓄髓,這世上最難降的妖魔是什么妹懒? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮双吆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘会前。我一直安慰自己好乐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布瓦宜。 她就那樣靜靜地躺著蔚万,像睡著了一般。 火紅的嫁衣襯著肌膚如雪临庇。 梳的紋絲不亂的頭發(fā)上反璃,一...
    開(kāi)封第一講書(shū)人閱讀 52,441評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音假夺,去河邊找鬼淮蜈。 笑死,一個(gè)胖子當(dāng)著我的面吹牛已卷,可吹牛的內(nèi)容都是我干的梧田。 我是一名探鬼主播,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼侧蘸,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼裁眯!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起讳癌,我...
    開(kāi)封第一講書(shū)人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤穿稳,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后晌坤,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體逢艘,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年泡仗,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了埋虹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡娩怎,死狀恐怖搔课,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤爬泥,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布柬讨,位于F島的核電站,受9級(jí)特大地震影響袍啡,放射性物質(zhì)發(fā)生泄漏踩官。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一境输、第九天 我趴在偏房一處隱蔽的房頂上張望蔗牡。 院中可真熱鬧,春花似錦嗅剖、人聲如沸辩越。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)黔攒。三九已至,卻和暖如春强缘,著一層夾襖步出監(jiān)牢的瞬間督惰,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工旅掂, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赏胚,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓辞友,卻偏偏與公主長(zhǎng)得像栅哀,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子称龙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容