集成學(xué)習(xí):構(gòu)建多個分類器(弱分類器)茧泪,用某種策略將多個結(jié)果集成起來,作為最終結(jié)果聋袋。
要求:每個弱分類器具備一定的“準(zhǔn)確性”队伟,分類器之間具備“差異性”。
集成學(xué)習(xí)有效的理論依據(jù):最簡單的voting方法幽勒。假設(shè)所有的弱分類器的錯誤率為e嗜侮。則得出T個分類器得到的結(jié)果的錯誤率類似于二項分布中正確大于T/2的概率的和,小于e啥容。且隨著T的增加锈颗,錯誤率指數(shù)級下降,趨近于0咪惠。
上述基于理論依據(jù)击吱,基于每個弱(基)分類器的誤差相互獨立,但是解決相同問題遥昧,此假設(shè)不可能做到覆醇。因此集成學(xué)習(xí)的關(guān)鍵是,使得弱分類器之間“好而不同炭臭∮琅В”
集成學(xué)習(xí)大致分兩大類:1)基分類器之間強(qiáng)依賴,必須串行鞋仍。Boosting ? 2)基分類器之間無強(qiáng)依賴憨奸,可并行。Bagging凿试、隨機(jī)森林(Random Forest)排宰。
1. Boosting :一族將弱分類器提升為強(qiáng)分類學(xué)習(xí)器的算法。
? ?思路:從初始訓(xùn)練集得到基學(xué)習(xí)器那婉,根據(jù)其表現(xiàn)板甘,對訓(xùn)練樣本進(jìn)行調(diào)整,使得之前分類錯誤的樣本后續(xù)更受關(guān)注详炬,用改變后的樣本學(xué)習(xí)下一個分類器盐类。重復(fù)學(xué)習(xí)T個分類器寞奸,T個分類器的結(jié)果加權(quán)得到最終結(jié)果。
代表AdaBoost:
2. Bagging(Bootstrap Aggregating 再采樣) ?
要做到各弱分類器之間盡可能相互獨立≡谔現(xiàn)實中枪萄,做到分類器之間盡可能有較大的差異。如果分出若干子集猫妙,在數(shù)據(jù)量小的情況下不可行瓷翻。因此,使用相互有交疊的采樣子集割坠。
對包含m個樣本的集合齐帚,采用有放回隨機(jī)抽樣,得到T個訓(xùn)練集彼哼,每個訓(xùn)練集包含m個樣本对妄。基于每個采樣進(jìn)行訓(xùn)練敢朱。對結(jié)果采用簡單投票法(分類)或者簡單平均法(回歸)得到最終結(jié)果剪菱。復(fù)雜度(采樣+訓(xùn)練+集成計算)與訓(xùn)練單個基學(xué)習(xí)器近似。
未被采樣的樣本拴签,稱為包外樣本孝常。可用作驗證集篓吁。若為決策樹茫因,可輔助剪枝蚪拦,輔助對0結(jié)點的處理杖剪。若為神經(jīng)網(wǎng)絡(luò),可輔助early stopping驰贷,減小過擬合盛嘿。
Bagging 關(guān)注于降低方差,因此在不剪枝決策樹括袒、神經(jīng)網(wǎng)絡(luò)等易受樣本擾動的學(xué)習(xí)器上效果明顯次兆。
一般采用決策樹做variance弱分類器,線性分類器不適合锹锰,這是因為: 樹分類器訓(xùn)練簡單芥炭,線性分類器訓(xùn)練時間長。 線性分類器比如說LR和LinearSVM分類準(zhǔn)確率都比較高恃慧,與弱分類器的定義相違背园蝠。 每個弱分類器的作用是學(xué)習(xí)某一個方面的特征,然后把多個弱的組合成強(qiáng)的痢士,這是決策樹的優(yōu)勢彪薛。
3. 隨機(jī)森林?
隨機(jī)采樣(Bagging)+隨機(jī)選擇特征(隨機(jī)的k個子集中取最優(yōu))。k決定了隨機(jī)性的程度。k最大善延,每棵樹與普通決策樹無異少态。k=1,則為單特征決策樹易遣。推薦k=log2d彼妻。
Bagging減小方差。
4. GBDT: 見決策樹一章训挡。
5. 機(jī)器學(xué)習(xí)中的 方差(variance)澳骤、偏差(bias)、誤差(error)
Error = Bias + Variance+ Noise
Error反映的是整個模型的準(zhǔn)確度澜薄,Bias反映的是一個模型在樣本上的輸出與真實值之間的誤差为肮,即模型本身的精準(zhǔn)度,Variance反映的是模型每一次輸出結(jié)果與模型輸出期望之間的誤差肤京,即模型的穩(wěn)定性颊艳。