從機器學(xué)習(xí)到深度學(xué)習(xí)(六)集成學(xué)習(xí)

集成學(xué)習(xí)

著重于在訓(xùn)練集上做文章:將訓(xùn)練集劃分為各種子集或權(quán)重變換后用較弱的基模型擬合聘萨,然后綜合若干個基模型的預(yù)測作為最終整體結(jié)果芭挽。

兩種算法:Bagging method剩岳、Boosting method
Bagging method:若干個模型在若干個子集上單獨訓(xùn)練坎缭,預(yù)測時使用所有基模型預(yù)測得到結(jié)果(投票表決或求平均)
Boosting method:模型訓(xùn)練按順序進行沮榜,每個基模型訓(xùn)練后都進行預(yù)測屈芜、根據(jù)預(yù)測結(jié)果選擇下一次訓(xùn)練數(shù)據(jù)集郊愧,預(yù)測時使用所有基模型預(yù)測得到結(jié)果

偏差和方差:進行模型預(yù)測時,每組預(yù)測值與真值之間的差值組成錯誤值集合井佑,使用高斯分布擬合錯誤值集合属铁,可以得到參數(shù)u和σ2,使得 Error~N(u,σ2)躬翁,其中u可以理解為**偏差**焦蘑,σ2為方差
偏差對應(yīng)“擬合不足”的情況,方差對應(yīng)“過度擬合”的情況盒发。

為什么集成多個弱模型會得到比較好的效果呢例嘱?
弱模型通常存在擬合不足的情況,即高偏差宁舰、低方差拼卵,預(yù)測時綜合各模型效果可以看成是這些錯誤高斯分布求平均的過程。根據(jù)高斯分布的計算公式有:Error~N((u1+u2+...)/N,(σ12+σ22+...)蛮艰,其中N是弱模型的數(shù)量腋腮。因為偏差有正有負,因此會起到降低偏差的作用壤蚜,因此集成學(xué)習(xí)達到了能自動找到最優(yōu)錯誤偏差和方差的效果即寡。

隨機森林

是Bagging Method的一個典型代表,是一種使用決策樹作為基模型的集成學(xué)習(xí)方法袜刷。

上圖抽樣子訓(xùn)練集的方式通常采用 有放回采樣聪富。
一般選用有較大偏差、較小方差的樹模型著蟹,具體表現(xiàn)在:
1.樣本裁剪:通過隨機采樣墩蔓,每個弱模型只訓(xùn)練部分樣本數(shù)據(jù)梢莽。(剩余數(shù)據(jù)可以作為各基模型的測試集)
2.特征裁剪:每個基模型的決策樹只選用數(shù)據(jù)特征中的一部分進行訓(xùn)練和預(yù)測,隨機抽樣保證了所有特征都能被部分弱模型學(xué)習(xí)到钢拧。
3.小樹:由于特征和樣本數(shù)量有限每個弱模型決策樹都長不高,所以不需要像普通決策樹那樣在訓(xùn)練結(jié)束后為避免過度擬合而執(zhí)行剪枝炕横。

自適應(yīng)增強

即AdaBoost源内,是Boosting Method類集成算法的典型代表,其全稱是Adaptive Boosting份殿。
通過調(diào)整訓(xùn)練集中每個樣本的權(quán)重使得每次迭代在不同的訓(xùn)練集上運行膜钓。



AdaBoost 的每次迭代中都使用了全部訓(xùn)練樣本,但訓(xùn)練集中的每個樣本都被賦予了權(quán)值卿嘲,基模型必須支持基于樣本權(quán)值的訓(xùn)練方法(常見算法如支持向量機颂斜、樸素貝葉斯、決策樹等都支持基于樣本權(quán)值進行訓(xùn)練)拾枣。

每次訓(xùn)練降低預(yù)測正確的樣本的權(quán)值沃疮,提高預(yù)測錯誤的樣本的權(quán)值。
由于模型是不斷進化的梅肤,因此在最終決策后生成的基模型往往比先生成基模型的決策權(quán)更大司蔬,預(yù)測時可采用加權(quán)投票或平均。

引用

1.從機器學(xué)習(xí)到深度學(xué)習(xí):基于scikit-learn與tensorflow的高效開發(fā)實戰(zhàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末姨蝴,一起剝皮案震驚了整個濱河市俊啼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌左医,老刑警劉巖授帕,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異浮梢,居然都是意外死亡跛十,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門秕硝,熙熙樓的掌柜王于貴愁眉苦臉地迎上來偶器,“玉大人,你說我怎么就攤上這事缝裤∑梁洌” “怎么了?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵憋飞,是天一觀的道長霎苗。 經(jīng)常有香客問我,道長榛做,這世上最難降的妖魔是什么唁盏? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任内狸,我火速辦了婚禮,結(jié)果婚禮上厘擂,老公的妹妹穿的比我還像新娘昆淡。我一直安慰自己,他們只是感情好刽严,可當(dāng)我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布昂灵。 她就那樣靜靜地躺著,像睡著了一般舞萄。 火紅的嫁衣襯著肌膚如雪眨补。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天倒脓,我揣著相機與錄音撑螺,去河邊找鬼。 笑死崎弃,一個胖子當(dāng)著我的面吹牛甘晤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播饲做,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼安皱,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了艇炎?” 一聲冷哼從身側(cè)響起酌伊,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎缀踪,沒想到半個月后居砖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡驴娃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年奏候,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片唇敞。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡蔗草,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出疆柔,到底是詐尸還是另有隱情咒精,我是刑警寧澤,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布旷档,位于F島的核電站模叙,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏鞋屈。R本人自食惡果不足惜范咨,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一故觅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧渠啊,春花似錦输吏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至灭返,卻和暖如春盗迟,著一層夾襖步出監(jiān)牢的瞬間坤邪,已是汗流浹背熙含。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留艇纺,地道東北人怎静。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像黔衡,于是被迫代替她去往敵國和親蚓聘。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容