lihungyi的ensemble learning intro課

  • Ensemble的簡(jiǎn)易原理
    Ensemble就是一種一次性結(jié)合多種機(jī)器學(xué)習(xí)模型,以提高機(jī)器學(xué)習(xí)結(jié)果的方法

  • Ensemble的過程


為了處理Ensemble中遇到的不同問題抡医,Ensemble有很多中不同的方法
  • <方法1>Ensemble的Bagging方法(Bagging := Bootstrap aggregation)用于多個(gè)復(fù)雜模型/容易o(hù)verfitting模型/low bias high variance模型的融合以及降低variance
    (1)Bagging的動(dòng)機(jī): 我們知道丘逸,對(duì)于一個(gè)機(jī)器學(xué)習(xí)模型犁功,如果提高其模型的復(fù)雜性(比如:線性模型把input feature增加)囚霸,那么這個(gè)模型的bias是會(huì)不斷地降低的瞧省,可是此時(shí)variance同時(shí)又會(huì)開始不斷增加硼一,所以綜合起來累澡,復(fù)雜的模型是有可能overfitting的(overfitting的一個(gè)統(tǒng)計(jì)學(xué)體現(xiàn)就是:小的bias 和 大的 variance)。 但是般贼,學(xué)界給出了一個(gè)使用混合模型減小復(fù)雜模variance的方法愧哟,也就是bagging。

    Bias,variance和整體預(yù)測(cè)水平間的關(guān)系圖

    混合模型以減少?gòu)?fù)雜模型產(chǎn)生的variance的方法

  • Bagging的步驟:

  • 假設(shè)訓(xùn)練數(shù)據(jù)集大小為N哼蛆。

  • 1.為了使用bagging訓(xùn)練模型蕊梧,每次訓(xùn)練一個(gè)模型時(shí),從數(shù)據(jù)集中有放回的抽取M個(gè)樣本(通常設(shè)M = N)人芽。

    1. 然后我們就根據(jù)步驟1望几,訓(xùn)練T個(gè)機(jī)器學(xué)習(xí)模型(這里的機(jī)器學(xué)習(xí)模型可以是不一樣的,比如可以是linear regression, svm, decision tree等)萤厅。
  • 3.訓(xùn)練好T個(gè)機(jī)器學(xué)習(xí)模型以后橄抹。當(dāng)每次要處理test集的時(shí)候靴迫, 對(duì)于每個(gè)test集,都讓T個(gè)機(jī)器學(xué)習(xí)模型分別做一下結(jié)果楼誓,然后再把所有的結(jié)果進(jìn)行 avg(當(dāng)任務(wù)是預(yù)測(cè)時(shí))/ voting(當(dāng)任務(wù)是分類時(shí))玉锌。

  • 4.最后,根據(jù)avg/voting的結(jié)果疟羹,當(dāng)作test集的結(jié)果就行主守。



Decision Tree的intuition
  • Decision Tree是一個(gè)非線性分類器
  • Decision Tree會(huì)通過tree node把整個(gè)解空間分割成一小塊一小塊,然后每個(gè)小塊就代表著不同的結(jié)果榄融。


Random Forest (注意:因?yàn)锽agging是用來通過降多個(gè)high variance的復(fù)雜模型的方法参淫。所以,如果你手頭有幾個(gè)underfitting的模型愧杯,那么即使做了Bagging涎才,也不會(huì)提高fit的程度,只會(huì)導(dǎo)致最后的結(jié)果還是high bias & underfitting力九。所以耍铜,Random Forest在當(dāng)前你的Decision Tree還不能很好地fit數(shù)據(jù)集的時(shí)候,那是沒有提升作用的跌前!)
  • 主要思想:Random Forest就是把很多Decision Tree模型做Bagging得到的棕兼。

  • Random Forest的難點(diǎn)(1):就是對(duì)一組數(shù)據(jù)集做Bagging的Decision Tree時(shí),那個(gè)數(shù)據(jù)集的隨機(jī)選取抵乓,和特征選取是關(guān)鍵伴挚,比較難。如果直接給每個(gè)Decision Tree分配不同的數(shù)據(jù)集臂寝,在剛好使用完數(shù)據(jù)集中的所有數(shù)據(jù)以后章鲤,事實(shí)上,我們這樣得到的多個(gè)Decision Tree的訓(xùn)練結(jié)果會(huì)趨同,這樣的話咆贬,即使在對(duì)這些Decision Tree做Bagging,那么結(jié)果也不會(huì)得到明顯地提高帚呼。

  • 為了解決Decision Tree訓(xùn)練趨同這個(gè)Random Forest的難點(diǎn):我們可以人為的在每個(gè)Decision Tree的訓(xùn)練過程中掏缎,隨機(jī)允許數(shù)據(jù)集的一部分特征參與Decision Tree的訓(xùn)練,而不是讓每個(gè)模型訓(xùn)練時(shí)都使用到數(shù)據(jù)集的所有特征煤杀。

  • Random Forest的難點(diǎn)(2):因?yàn)榫祢冢瑀andom forest使用了Bagging技術(shù),所以整個(gè)數(shù)據(jù)集被很多個(gè)模型同時(shí)用沈自,所以酌儒,如何合理地設(shè)計(jì)數(shù)據(jù)集的使用過程,以及利用數(shù)據(jù)集在訓(xùn)練完模型后還可以進(jìn)行交叉驗(yàn)證枯途。

  • 解決Random Forest的Cross Validation的方法:我們使用一種Out-Of_Bag的cross validation技術(shù)忌怎。

  • 1.為每個(gè)Decision Tree均勻地分配訓(xùn)練數(shù)據(jù)籍滴。

  • 2.然后,根據(jù)不同組合(如這里的f2和f4),使用沒用分配給f2和f4的訓(xùn)練數(shù)據(jù)作為test數(shù)據(jù)榴啸,進(jìn)行cross validation孽惰。

  • 3.最后,把所有的Out-Of-Bag的結(jié)果綜合起來鸥印,記作OOB error勋功。


    Out-Of-Bag validation
  • <方法二>.Ensemble的Boosting方法(Boosting很好記,就是一種和Bagging相反的方法库说,當(dāng)我們使用Boosting的時(shí)候狂鞋,是應(yīng)該想要將對(duì)數(shù)據(jù)集fitting不是很好的模型變得更加的fit,也就是說Boosting是用作提升模型的fit程度,降低模型的Bias值的Ensemble方法)

  • Boosting的優(yōu)勢(shì):Boosting承諾潜的,只要你當(dāng)前的模型的測(cè)試正確率比亂猜好一點(diǎn)(如:二分類要销,測(cè)試正確率比50%高一點(diǎn)),Boosting就有能力把正確率提升至百分之百夏块。

  • Boosting的主要步驟: (注意:在訓(xùn)練Boosting中的多個(gè)模型時(shí)疏咐,需要按順序訓(xùn)練,先訓(xùn)練模型1脐供,然后是模型2浑塞,然后是模型3...)


知道Boosting需要訓(xùn)練多個(gè)不同的模型(比如:多個(gè)不同的classifier),那么,如何分配訓(xùn)練集,才能做到政己,在同一個(gè)大的訓(xùn)練集下面訓(xùn)練出多個(gè)不同的模型酌壕?:
  • 1.需要使用同一個(gè)大的訓(xùn)練集,訓(xùn)練出多個(gè)不同的模型的基本思路就是歇由,把訓(xùn)練數(shù)據(jù)集做一個(gè)分割卵牍,然后把子訓(xùn)練集喂給多個(gè)模型去訓(xùn)練,這樣就是叫做: Re-sampling沦泌。
  • 2.Resampling的缺點(diǎn): Re-sampling作為讓一個(gè)數(shù)據(jù)集訓(xùn)練出多個(gè)不同模型的一種簡(jiǎn)單方法糊昙,是很直接有效的。但是谢谦,Re-sampling有分割數(shù)據(jù)集的粒度太粗的缺點(diǎn)释牺。也就是說,在re-sampling數(shù)據(jù)集的時(shí)候回挽,對(duì)于數(shù)據(jù)集中的一個(gè)數(shù)據(jù)没咙,只能完整地喂給某個(gè)模型,而不能說千劈,分0.5個(gè)數(shù)據(jù)集給模型1祭刚。。。
  • 3.Re-Weighting解決細(xì)粒度分割數(shù)據(jù)集的問題:
    此時(shí)涡驮,我們給數(shù)據(jù)集中的每一對(duì)數(shù)據(jù)都分配一個(gè)weight值ui暗甥,這樣一來,我們就可以從定義權(quán)重的角度遮怜,細(xì)粒度淋袖,連續(xù)地分割數(shù)據(jù)集給多個(gè)模型了。(值得注意的是锯梁,在進(jìn)行Re-weighting的時(shí)候即碗,其主要目的就是對(duì)模型的objective function(or called loss function)進(jìn)行一番修改,也就是在計(jì)算每單筆loss的時(shí)候陌凳,系數(shù)上面要帶上本條數(shù)據(jù)的weight值)
Boosting的一種算法:AdaBoost


  • 計(jì)算d1的數(shù)學(xué)步驟:



  • 更詳細(xì)的



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末剥懒,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子合敦,更是在濱河造成了極大的恐慌初橘,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件充岛,死亡現(xiàn)場(chǎng)離奇詭異保檐,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)崔梗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門夜只,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蒜魄,你說我怎么就攤上這事扔亥。” “怎么了谈为?”我有些...
    開封第一講書人閱讀 164,862評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵旅挤,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我伞鲫,道長(zhǎng)粘茄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,728評(píng)論 1 294
  • 正文 為了忘掉前任榔昔,我火速辦了婚禮驹闰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘撒会。我一直安慰自己,他們只是感情好师妙,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,743評(píng)論 6 392
  • 文/花漫 我一把揭開白布诵肛。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪怔檩。 梳的紋絲不亂的頭發(fā)上褪秀,一...
    開封第一講書人閱讀 51,590評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音薛训,去河邊找鬼媒吗。 笑死,一個(gè)胖子當(dāng)著我的面吹牛乙埃,可吹牛的內(nèi)容都是我干的闸英。 我是一名探鬼主播,決...
    沈念sama閱讀 40,330評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼甫何,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了辙喂?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤巍耗,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后渐排,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡飞盆,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,885評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了孽水。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,001評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡女气,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出测柠,到底是詐尸還是另有隱情炼鞠,我是刑警寧澤,帶...
    沈念sama閱讀 35,723評(píng)論 5 346
  • 正文 年R本政府宣布轰胁,位于F島的核電站谒主,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏赃阀。R本人自食惡果不足惜霎肯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,343評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧观游,春花似錦搂捧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至搪柑,卻和暖如春聋丝,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背拌屏。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工潮针, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人倚喂。 一個(gè)月前我還...
    沈念sama閱讀 48,191評(píng)論 3 370
  • 正文 我出身青樓每篷,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親端圈。 傳聞我的和親對(duì)象是個(gè)殘疾皇子焦读,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,955評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容