集成學(xué)習(xí)簡記

集成學(xué)習(xí)
顧名思義樟蠕,就是將多個(gè)單一模型進(jìn)行組合,最后形成一個(gè)更好的模型的過程靠柑。之所以組合多個(gè)單一學(xué)習(xí)器寨辩,是因?yàn)楹芏鄷r(shí)候單一學(xué)習(xí)器的效果不夠理想,多個(gè)模型組合可以互幫互助歼冰,各取所長靡狞,從而能夠更好的完成任務(wù)。集成學(xué)習(xí)一般的結(jié)構(gòu)是先學(xué)習(xí)單一的學(xué)習(xí)器隔嫡,之后通過某種策略將其組合在一起甸怕。

  • 條件
  1. 首先應(yīng)該保證分類器之間的差異性,如果分類器都相同腮恩,那么組合的出來的結(jié)果是不會有變化的梢杭。
  2. 每個(gè)個(gè)體分類器的精度必須大于0.5,如果個(gè)體分類器的精度低于0.5秸滴,那集成之后的精度低于規(guī)模的增大而降低武契。但如果精度是大于0.5的,最后的分類結(jié)果會趨于1荡含。

根據(jù)個(gè)體學(xué)習(xí)器的生成方式咒唆,目前可以分成兩類:第一類是單個(gè)學(xué)習(xí)器之間有著很強(qiáng)的依賴關(guān)系,需要以串行的序列化的方式生成释液,代表方法:Boosting全释。Boosting方法中也有很多分類:Adaboost、GBDT等等误债。第二類就是個(gè)體學(xué)習(xí)器之間不存在很強(qiáng)的依賴關(guān)系浸船,學(xué)習(xí)器可以并行生成,代表方法:Bagging 和Random Forest

Bagging(套袋法)

  • Bagging的思想比較簡單糟袁,即每一輪迭代前從原始數(shù)據(jù)中根據(jù)均勻概率分布有放回的抽取和原始數(shù)據(jù)大小相同的樣本集合,樣本可能會出現(xiàn)重復(fù)躺盛,形成新的訓(xùn)練集(該方法叫做bootstrap)。共抽取k輪形帮,k為分類器個(gè)數(shù)槽惫,然后對每一次產(chǎn)生的訓(xùn)練集構(gòu)造一個(gè)分類器周叮,再對分類器進(jìn)行組合。
  • 對分類問題:將上步得到的k個(gè)模型采用投票的方式得到分類結(jié)果界斜;對回歸問題仿耽,計(jì)算上述模型的均值作為最后的結(jié)果。(所有模型的的預(yù)測函數(shù)權(quán)重相同各薇,即重要性相同

Boosting

  • Boosting則是訓(xùn)練集合本身保持不變项贺,每次變化的是訓(xùn)練集中樣例的權(quán)重。每一次迭代峭判,都根據(jù)上一次迭代的結(jié)果开缎,減小在上一輪正確樣本的權(quán)重,增加被錯(cuò)誤分類的樣本的分布權(quán)重林螃,每一輪的訓(xùn)練集不變奕删,只是訓(xùn)練集中每個(gè)樣例在分類器中的權(quán)重發(fā)生變化,這是一個(gè)不斷學(xué)習(xí)的過程疗认,也是一個(gè)不斷提升的過程完残,這也就是boosting思想的本質(zhì)所在。
  • 迭代完成之后横漏,將每次迭代的基分類器進(jìn)行集成谨设。Boosting預(yù)測函數(shù)權(quán)重不同,模型預(yù)測誤差越小的權(quán)重越大缎浇,有助于增加組合后模型準(zhǔn)確率扎拣。

綜上,Bagging和Boosting的區(qū)別可以歸納為:

  1. 訓(xùn)練數(shù)據(jù)集的抽樣方式
    (Bagging均勻抽樣华畏,Boosting根據(jù)上一輪結(jié)果調(diào)整權(quán)重鹏秋,錯(cuò)誤率越大的樣本權(quán)重越大)
  2. 預(yù)測函數(shù)
    (Bagging所有的預(yù)測函數(shù)權(quán)重相同,Boosting預(yù)測函數(shù)權(quán)重不同亡笑,預(yù)測誤差小的模型權(quán)重越大)
  3. 并行計(jì)算
    (Bagging個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系侣夷,可以并行生成,Boosting只能順序生成仑乌,因?yàn)楹笠粋€(gè)預(yù)測要用到上一個(gè)結(jié)果)
  4. 個(gè)體分類器
    Bagging多使用強(qiáng)分類器進(jìn)行組合百拓,個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系,Boosting則使用弱分類器(個(gè)體分類器精度略大于0.5)進(jìn)行組合晰甚,個(gè)體學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系衙传,是一種序列化方法。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末厕九,一起剝皮案震驚了整個(gè)濱河市蓖捶,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌扁远,老刑警劉巖俊鱼,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件刻像,死亡現(xiàn)場離奇詭異,居然都是意外死亡并闲,警方通過查閱死者的電腦和手機(jī)细睡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來帝火,“玉大人溜徙,你說我怎么就攤上這事∠睿” “怎么了蠢壹?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長宏浩。 經(jīng)常有香客問我知残,道長,這世上最難降的妖魔是什么比庄? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任求妹,我火速辦了婚禮,結(jié)果婚禮上佳窑,老公的妹妹穿的比我還像新娘制恍。我一直安慰自己,他們只是感情好神凑,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布净神。 她就那樣靜靜地躺著,像睡著了一般溉委。 火紅的嫁衣襯著肌膚如雪鹃唯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天瓣喊,我揣著相機(jī)與錄音坡慌,去河邊找鬼。 笑死藻三,一個(gè)胖子當(dāng)著我的面吹牛洪橘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播棵帽,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼熄求,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了逗概?” 一聲冷哼從身側(cè)響起弟晚,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后卿城,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體淑履,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年藻雪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狸吞。...
    茶點(diǎn)故事閱讀 39,696評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡勉耀,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蹋偏,到底是詐尸還是另有隱情便斥,我是刑警寧澤,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布威始,位于F島的核電站枢纠,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏黎棠。R本人自食惡果不足惜晋渺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望脓斩。 院中可真熱鬧木西,春花似錦、人聲如沸随静。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽燎猛。三九已至恋捆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間重绷,已是汗流浹背沸停。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留论寨,地道東北人星立。 一個(gè)月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像葬凳,于是被迫代替她去往敵國和親绰垂。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評論 2 353