集成學(xué)習(xí) —Bagging 墓贿、Boosting-周志華

集成學(xué)習(xí):構(gòu)建多個分類器(弱分類器)茧泪,用某種策略將多個結(jié)果集成起來,作為最終結(jié)果聋袋。

要求:每個弱分類器具備一定的“準(zhǔn)確性”队伟,分類器之間具備“差異性”。

集成學(xué)習(xí)有效的理論依據(jù):最簡單的voting方法幽勒。假設(shè)所有的弱分類器的錯誤率為e嗜侮。則得出T個分類器得到的結(jié)果的錯誤率類似于二項分布中正確大于T/2的概率的和,小于e啥容。且隨著T的增加锈颗,錯誤率指數(shù)級下降,趨近于0咪惠。

上述基于理論依據(jù)击吱,基于每個弱(基)分類器的誤差相互獨立,但是解決相同問題遥昧,此假設(shè)不可能做到覆醇。因此集成學(xué)習(xí)的關(guān)鍵是,使得弱分類器之間“好而不同炭臭∮琅В”

集成學(xué)習(xí)大致分兩大類:1)基分類器之間強(qiáng)依賴,必須串行鞋仍。Boosting ? 2)基分類器之間無強(qiáng)依賴憨奸,可并行。Bagging凿试、隨機(jī)森林(Random Forest)排宰。

1. Boosting :一族將弱分類器提升為強(qiáng)分類學(xué)習(xí)器的算法。

? ?思路:從初始訓(xùn)練集得到基學(xué)習(xí)器那婉,根據(jù)其表現(xiàn)板甘,對訓(xùn)練樣本進(jìn)行調(diào)整,使得之前分類錯誤的樣本后續(xù)更受關(guān)注详炬,用改變后的樣本學(xué)習(xí)下一個分類器盐类。重復(fù)學(xué)習(xí)T個分類器寞奸,T個分類器的結(jié)果加權(quán)得到最終結(jié)果。

代表AdaBoost:

2. Bagging(Bootstrap Aggregating 再采樣) ?

要做到各弱分類器之間盡可能相互獨立≡谔現(xiàn)實中枪萄,做到分類器之間盡可能有較大的差異。如果分出若干子集猫妙,在數(shù)據(jù)量小的情況下不可行瓷翻。因此,使用相互有交疊的采樣子集割坠。

對包含m個樣本的集合齐帚,采用有放回隨機(jī)抽樣,得到T個訓(xùn)練集彼哼,每個訓(xùn)練集包含m個樣本对妄。基于每個采樣進(jìn)行訓(xùn)練敢朱。對結(jié)果采用簡單投票法(分類)或者簡單平均法(回歸)得到最終結(jié)果剪菱。復(fù)雜度(采樣+訓(xùn)練+集成計算)與訓(xùn)練單個基學(xué)習(xí)器近似

未被采樣的樣本拴签,稱為包外樣本孝常。可用作驗證集篓吁。若為決策樹茫因,可輔助剪枝蚪拦,輔助對0結(jié)點的處理杖剪。若為神經(jīng)網(wǎng)絡(luò),可輔助early stopping驰贷,減小過擬合盛嘿。

Bagging 關(guān)注于降低方差,因此在不剪枝決策樹括袒、神經(jīng)網(wǎng)絡(luò)易受樣本擾動的學(xué)習(xí)器上效果明顯次兆。

一般采用決策樹做variance弱分類器,線性分類器不適合锹锰,這是因為: 樹分類器訓(xùn)練簡單芥炭,線性分類器訓(xùn)練時間長。 線性分類器比如說LR和LinearSVM分類準(zhǔn)確率都比較高恃慧,與弱分類器的定義相違背园蝠。 每個弱分類器的作用是學(xué)習(xí)某一個方面的特征,然后把多個弱的組合成強(qiáng)的痢士,這是決策樹的優(yōu)勢彪薛。

3. 隨機(jī)森林?

隨機(jī)采樣(Bagging)+隨機(jī)選擇特征(隨機(jī)的k個子集中取最優(yōu))。k決定了隨機(jī)性的程度。k最大善延,每棵樹與普通決策樹無異少态。k=1,則為單特征決策樹易遣。推薦k=log2d彼妻。

Bagging減小方差。

4. GBDT: 見決策樹一章训挡。

5. 機(jī)器學(xué)習(xí)中的 方差(variance)澳骤、偏差(bias)、誤差(error)

Error = Bias + Variance+ Noise

Error反映的是整個模型準(zhǔn)確度澜薄,Bias反映的是一個模型在樣本上的輸出與真實值之間的誤差为肮,即模型本身的精準(zhǔn)度,Variance反映的是模型每一次輸出結(jié)果與模型輸出期望之間的誤差肤京,即模型的穩(wěn)定性颊艳。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市忘分,隨后出現(xiàn)的幾起案子棋枕,更是在濱河造成了極大的恐慌,老刑警劉巖妒峦,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件重斑,死亡現(xiàn)場離奇詭異,居然都是意外死亡肯骇,警方通過查閱死者的電腦和手機(jī)窥浪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來笛丙,“玉大人漾脂,你說我怎么就攤上這事∨哐欤” “怎么了骨稿?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長姜钳。 經(jīng)常有香客問我坦冠,道長,這世上最難降的妖魔是什么哥桥? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任辙浑,我火速辦了婚禮,結(jié)果婚禮上泰讽,老公的妹妹穿的比我還像新娘例衍。我一直安慰自己昔期,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布佛玄。 她就那樣靜靜地躺著硼一,像睡著了一般。 火紅的嫁衣襯著肌膚如雪梦抢。 梳的紋絲不亂的頭發(fā)上般贼,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天,我揣著相機(jī)與錄音奥吩,去河邊找鬼哼蛆。 笑死,一個胖子當(dāng)著我的面吹牛霞赫,可吹牛的內(nèi)容都是我干的腮介。 我是一名探鬼主播,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼端衰,長吁一口氣:“原來是場噩夢啊……” “哼叠洗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起旅东,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤灭抑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后抵代,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體腾节,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年荤牍,在試婚紗的時候發(fā)現(xiàn)自己被綠了案腺。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡参淫,死狀恐怖救湖,靈堂內(nèi)的尸體忽然破棺而出愧杯,到底是詐尸還是另有隱情涎才,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布力九,位于F島的核電站耍铜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏跌前。R本人自食惡果不足惜棕兼,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望抵乓。 院中可真熱鬧伴挚,春花似錦靶衍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至田弥,卻和暖如春涛酗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背偷厦。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工商叹, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人只泼。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓剖笙,卻偏偏與公主長得像,于是被迫代替她去往敵國和親请唱。 傳聞我的和親對象是個殘疾皇子枯途,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容