1.集成學(xué)習(xí)概念
通過(guò)訓(xùn)練若干個(gè)個(gè)體學(xué)習(xí)器,通過(guò)結(jié)合策略狈癞,最終形成一個(gè)強(qiáng)學(xué)習(xí)器履羞。
2.個(gè)體學(xué)習(xí)器概念
個(gè)體學(xué)習(xí)器又稱弱學(xué)習(xí)器峦萎,是集成學(xué)習(xí)的基本組成屡久,一般有兩種,一個(gè)是所有的個(gè)體學(xué)習(xí)器是一種類型的爱榔,比如都是決策樹(shù)被环,或者神經(jīng)網(wǎng)絡(luò),第二種采用不同類型的详幽,最后組合起來(lái)筛欢,結(jié)合策略類似stacking。
3.boosting&bagging
boosting&bagging是集成學(xué)習(xí)的兩種算法分類妒潭,代表著2中不同內(nèi)容的算法悴能。針對(duì)解決的問(wèn)題也是不同的。
boosting原理是利用多個(gè)弱學(xué)習(xí)器雳灾,他們偏差大漠酿,但是方差小。通過(guò)將多個(gè)弱學(xué)習(xí)器串行谎亩,每一輪都調(diào)整訓(xùn)練集的權(quán)重炒嘲,提升上一輪預(yù)測(cè)錯(cuò)的樣本權(quán)重,降低預(yù)測(cè)正確的樣本權(quán)重匈庭,這樣是學(xué)習(xí)器重點(diǎn)在于預(yù)測(cè)錯(cuò)誤的樣本上夫凸。最終通過(guò)結(jié)合策略進(jìn)行整合。強(qiáng)學(xué)習(xí)器表現(xiàn)就是低方差阱持,也成功降低了偏差夭拌。
boosting代表算法:adaboost,GBDT衷咽。
bagging原理是利用多個(gè)弱學(xué)習(xí)器鸽扁,他們的偏差小,但是方差大镶骗。bagging的目的就是通過(guò)策略降低這些弱學(xué)習(xí)器的方差桶现,并兼容他們偏差小。將多個(gè)弱學(xué)習(xí)器并行鼎姊,對(duì)訓(xùn)練集進(jìn)行隨機(jī)取樣骡和,取T份,用來(lái)訓(xùn)練T個(gè)弱學(xué)習(xí)器相寇,再對(duì)這T個(gè)弱學(xué)習(xí)器進(jìn)行結(jié)合慰于。
bagging代表算法:隨機(jī)森林RF,極端樹(shù)ET。
4.結(jié)合策略(平均法唤衫,投票法东囚,學(xué)習(xí)法)
1.平均法-回歸問(wèn)題
對(duì)于數(shù)值回歸問(wèn)題,最簡(jiǎn)單就是將每個(gè)弱學(xué)習(xí)器預(yù)測(cè)的值加起來(lái)战授,取平均數(shù)页藻,如果每個(gè)弱學(xué)習(xí)器有自身的權(quán)重(例如adaboost)就進(jìn)行加權(quán)平均。
2.投票法-分類問(wèn)題
對(duì)于分類問(wèn)題的預(yù)測(cè)植兰,采用投票法份帐,就是少數(shù)服從多數(shù)。還有加權(quán)投票法楣导,就是每個(gè)票都有相應(yīng)的權(quán)重废境。
3.學(xué)習(xí)法-stacking
上述都相對(duì)簡(jiǎn)單,學(xué)習(xí)法就是stacking筒繁,我們將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入噩凹,將訓(xùn)練集的輸出作為輸出,重新訓(xùn)練一個(gè)學(xué)習(xí)器來(lái)得到最終結(jié)果毡咏。
在這種情況下驮宴,我們將弱學(xué)習(xí)器稱為初級(jí)學(xué)習(xí)器,將用于結(jié)合的學(xué)習(xí)器稱為次級(jí)學(xué)習(xí)器呕缭。對(duì)于測(cè)試集堵泽,我們首先用初級(jí)學(xué)習(xí)器預(yù)測(cè)一次,得到次級(jí)學(xué)習(xí)器的輸入樣本恢总,再用次級(jí)學(xué)習(xí)器預(yù)測(cè)一次迎罗,得到最終的預(yù)測(cè)結(jié)果。
stacking類似于網(wǎng)狀結(jié)構(gòu)片仿。
將原始數(shù)據(jù)分為train(m×n),test.
利用交叉驗(yàn)證纹安,將train進(jìn)行k折交叉驗(yàn)證。
對(duì)于每個(gè)model來(lái)說(shuō)砂豌,對(duì)其進(jìn)行k折交叉驗(yàn)證厢岂,最終得到k個(gè)模型,每個(gè)模型通過(guò)驗(yàn)證集得到k份預(yù)測(cè)結(jié)果奸鸯,將這些預(yù)測(cè)結(jié)果(k×1)繼續(xù)組合咪笑,最終拼湊一個(gè)完整行數(shù)的預(yù)測(cè)結(jié)果m×1。
假如有T個(gè)初級(jí)模型娄涩,就有m×T大小的次級(jí)訓(xùn)練集窗怒。
對(duì)于測(cè)試集來(lái)說(shuō),在每個(gè)k折model中進(jìn)行預(yù)測(cè)test蓄拣,得到k個(gè)test預(yù)測(cè)結(jié)果扬虚,組成m×k大小的數(shù)組。
5.隨機(jī)森林的思想
通過(guò)隨機(jī)取樣球恤,并行訓(xùn)練那些方差大辜昵,偏差小的強(qiáng)學(xué)習(xí)器,最終通過(guò)加權(quán)平均法得到最終學(xué)習(xí)器咽斧。目的是降低方差堪置。
6.隨機(jī)森林的推廣
extra tree:原理和RF相同躬存,rf是采用隨機(jī)采樣多份不同的訓(xùn)練子集,來(lái)訓(xùn)練多個(gè)學(xué)習(xí)器舀锨,et是用原始的訓(xùn)練集岭洲。但是在特征選擇時(shí),RF是根據(jù)基尼系數(shù)或者均方差作為原則坎匿,ET十分極端盾剩,直接隨機(jī)一個(gè)特征作為特征劃分決策樹(shù)。這樣造成ET的方差十分小替蔬,泛化能力強(qiáng)告私,而且訓(xùn)練的時(shí)間大大減少。以更高的偏差換取方差承桥。
7.隨機(jī)森林的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
1.主要的就是高度可并行訓(xùn)練學(xué)習(xí)器驻粟,對(duì)于大數(shù)據(jù)大大減少了訓(xùn)練時(shí)間。
2.可以隨機(jī)選擇特征進(jìn)行特征劃分快毛,對(duì)于高維特征格嗅,仍然十分高效的訓(xùn)練模型。
3.由于采用決策樹(shù)模型唠帝,可以在訓(xùn)練后輸出特征重要性屯掖。
4.由于采用決策樹(shù)模型,不需要對(duì)訓(xùn)練集進(jìn)行歸一化襟衰,對(duì)缺失值也不敏感贴铜。
缺點(diǎn):
噪聲大的樣本集,容易陷入過(guò)擬合瀑晒。
8.隨機(jī)森林的應(yīng)用場(chǎng)景
數(shù)目大的樣本集