機器學習(八) 集成學習

8.1 基本思想

集成學習通過構(gòu)建并結(jié)合多個學習器來完成學習任務(wù)弛针。
集成學習把性能較低的 多種弱學習器,通過適當組合形成高性能強學習器的方法肯尺。
常見的集成學習有兩種:bagging和boosting。
兩種集成學習的過程如下圖:


8.2 bagging

Bagging是根據(jù)英文單詞BootstrapAggregation創(chuàng)造的新詞,統(tǒng)計學上的Bootstrap稱為自主法, 是指有重復隨機選取n個樣本, 生成和原始樣本集稍有差異樣本集的方法.
Bagging學習法, 一方面經(jīng)由自主法生成虛擬訓練樣本, 并對這些樣本學習;另一方面, 反復重復該過程后對得到的多個分類器輸出通過投票的方式做出集體決策.
Bagging學習, 重復次數(shù)較大, 不易過擬合; 對多個弱分類器學習是并行過程,故Bagging可并行學習.
典型的Bagging學習法是基于決策樹基分類器的隨機森林(Random Forest).

8.3 Boosting

boosting方法訓練基分類器時采用串行方式, 各個基分類器之間有依賴.
基本思路: 基分類器層層疊加, 每一層訓練時, 對前一層基分類器分錯的樣本,給予更高的權(quán)重. 測試時, 對各層分類器結(jié)果加權(quán)得到最終結(jié)果.
同時, 進行加權(quán)時, 最開始就能正確分類的樣本,權(quán)重會逐漸減小, 有可能造成簡單樣本反而不能正確分類, 故, Boosting學習應(yīng)邊學習邊更新樣本券種, 并把學習過程中得到的所有分類器放在一起, 對其可信度平局后得到最終強分類器.
樣本加權(quán)方法有很多, 最標準的就是Adaboost算法, Adaboost是英文Adaptive Boosting的縮寫, 是自適應(yīng)增強的意思.

8.4 Bagging和Boosting的差異

基分類器錯誤率大于集成分類器, 基分類器的錯誤是偏差和方差之和. 基分類器表達能力有限, 表現(xiàn)在訓練數(shù)據(jù)不收斂, 產(chǎn)生偏差; 分類器對樣本分布過于敏感, 導致訓練樣本較少時容易過擬合, 產(chǎn)生方差.

Bagging各弱分類器盡量獨立, 可減少基分類器偏差
(1) Bagging采用采取分而治之的策略, 對訓練樣本多次有放回采樣, 并分別訓練多個不同模型,然后綜合投票 .
(2)設(shè)n個隨機變量, 方差為\sigma^2, 各隨機變量完全獨立時, n個隨機變量的方差為\frac{\sigma^2}{n}, 整體方差減小到原來的\frac{1}{n}
(3) Bagging分類器, 個子模型應(yīng)盡量完全獨立, 為了追求模型的獨立性, 隨機森林算法, 每次選取節(jié)點分裂屬性時, 會隨機抽取一些屬性自己, 而不是選取最優(yōu)屬性, 這樣可避免弱分類器之間過強的相關(guān)性; 此外, 對訓練集的Boostrap重采樣也可使弱分類器之間保持一定的獨立性, 從而降低Bagging后模型的方差.

Boosting各弱分類器之間強相關(guān), 可減小偏差
(1) Boosting通過逐步聚焦基分類器分錯的樣本, 可減少集成分類器偏差
(2) Boosting訓練好一個弱分類器后, 需計算此分類器的殘差, 作為下一個弱分類器輸入, 這個過程本身就在不斷減小損失函數(shù), 使模型不斷逼近"靶心", 從而模型偏差不斷降低
(3)Boosting不會降低模型方差, 因為訓練過程各弱分類器之間強相關(guān),缺乏獨立性

參考:機器學習算法深度總結(jié)(10)-集成學習

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市奶段,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌巍杈,老刑警劉巖忧饭,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異筷畦,居然都是意外死亡词裤,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進店門鳖宾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吼砂,“玉大人,你說我怎么就攤上這事鼎文∮婕纾” “怎么了?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵拇惋,是天一觀的道長周偎。 經(jīng)常有香客問我抹剩,道長,這世上最難降的妖魔是什么蓉坎? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任澳眷,我火速辦了婚禮,結(jié)果婚禮上蛉艾,老公的妹妹穿的比我還像新娘钳踊。我一直安慰自己,他們只是感情好勿侯,可當我...
    茶點故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布拓瞪。 她就那樣靜靜地躺著,像睡著了一般助琐。 火紅的嫁衣襯著肌膚如雪祭埂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天弓柱,我揣著相機與錄音沟堡,去河邊找鬼。 笑死矢空,一個胖子當著我的面吹牛航罗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播屁药,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼粥血,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了酿箭?” 一聲冷哼從身側(cè)響起复亏,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎缭嫡,沒想到半個月后缔御,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡妇蛀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年耕突,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片评架。...
    茶點故事閱讀 38,646評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡眷茁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出纵诞,到底是詐尸還是另有隱情上祈,我是刑警寧澤,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站登刺,受9級特大地震影響籽腕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜塘砸,卻給世界環(huán)境...
    茶點故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一节仿、第九天 我趴在偏房一處隱蔽的房頂上張望晤锥。 院中可真熱鬧掉蔬,春花似錦、人聲如沸矾瘾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽壕翩。三九已至蛉迹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間放妈,已是汗流浹背北救。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留芜抒,地道東北人珍策。 一個月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像宅倒,于是被迫代替她去往敵國和親攘宙。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,514評論 2 348

推薦閱讀更多精彩內(nèi)容