Philosophy:
通過在不同數(shù)據(jù)子集的學(xué)習(xí)艘款,得到簡單的規(guī)則离熏,讓后通過合并簡單規(guī)則,生成最終的規(guī)則凤壁。
集成學(xué)習(xí)為什么要在數(shù)據(jù)子集而不是大數(shù)據(jù)上學(xué)習(xí)?
只有在數(shù)據(jù)子集上才能學(xué)到簡單的規(guī)則跪另,而在大數(shù)據(jù)上則不能拧抖。
如何挑選數(shù)據(jù)子集?
均勻采樣免绿。
如何集成唧席?
例如:求Mean;
解釋 Bagging
Bagging (也叫 bootstrap aggregation)是集成學(xué)習(xí)的特殊版本嘲驾,也就是mean的思想淌哟,先采集不同的數(shù)據(jù)子集,然后在各個(gè)子集上
學(xué)習(xí)弱分類器辽故,求多個(gè)弱分類器的平均預(yù)測值徒仓。一般不建議在高bias的baseline模型上使用bagging.
解釋 Boosting
不再均勻地選擇訓(xùn)練數(shù)據(jù),而是通過考慮數(shù)據(jù)的分布D誊垢,選擇“困難”的數(shù)據(jù)(類比我們?nèi)祟悓W(xué)習(xí)的時(shí)候掉弛,主要精力學(xué)不會的知識,已經(jīng)學(xué)會的知識就花更少的精力喂走。)Voting過程也不是簡單地平均殃饿,而是通過某種標(biāo)準(zhǔn)進(jìn)行weighted mean
什么是weak learner?
只要比隨機(jī)猜測好,就是weak learner.
請解釋什么是Adaboost芋肠?
Adaboost是采用boosting思想的一種具體的算法乎芳。其特色是一種線性加權(quán)模型。如下圖:每個(gè)弱分類器對數(shù)據(jù)集中有各自的樣本權(quán)重业栅,最終幾個(gè)弱分類器按照“某一系數(shù)”進(jìn)行線性加權(quán)秒咐,形成最后的非線性決策平面。這個(gè)過程其實(shí)有兩種加權(quán):1.樣本權(quán)重碘裕; 2.分類器權(quán)重携取。
Adaboost算法中最終集成公式中的alpha系數(shù)的公式中為什么采用ln自然對數(shù)?
我也沒搞懂帮孔,這里只是沿用書本中的公式雷滋,需要進(jìn)一步查閱paper進(jìn)行相關(guān)理論的學(xué)習(xí)。