lihungyi的ensemble learning intro課

Ensemble的簡(jiǎn)易原理
Ensemble就是一種一次性結(jié)合多種機(jī)器學(xué)習(xí)模型，以提高機(jī)器學(xué)習(xí)結(jié)果的方法
Ensemble的過程

為了處理Ensemble中遇到的不同問題抡医，Ensemble有很多中不同的方法

<方法1>Ensemble的Bagging方法(Bagging := Bootstrap aggregation)用于多個(gè)復(fù)雜模型/容易o(hù)verfitting模型/low bias high variance模型的融合以及降低variance
(1)Bagging的動(dòng)機(jī)：我們知道丘逸，對(duì)于一個(gè)機(jī)器學(xué)習(xí)模型犁功，如果提高其模型的復(fù)雜性(比如：線性模型把input feature增加)囚霸，那么這個(gè)模型的bias是會(huì)不斷地降低的瞧省，可是此時(shí)variance同時(shí)又會(huì)開始不斷增加硼一，所以綜合起來累澡，復(fù)雜的模型是有可能overfitting的（overfitting的一個(gè)統(tǒng)計(jì)學(xué)體現(xiàn)就是：小的bias 和大的 variance）。但是般贼，學(xué)界給出了一個(gè)使用混合模型減小復(fù)雜模variance的方法愧哟，也就是bagging。

Bias,variance和整體預(yù)測(cè)水平間的關(guān)系圖

混合模型以減少?gòu)?fù)雜模型產(chǎn)生的variance的方法
Bagging的步驟：
假設(shè)訓(xùn)練數(shù)據(jù)集大小為N哼蛆。
1.為了使用bagging訓(xùn)練模型蕊梧，每次訓(xùn)練一個(gè)模型時(shí)，從數(shù)據(jù)集中有放回的抽取M個(gè)樣本(通常設(shè)M = N)人芽。
1. 然后我們就根據(jù)步驟1望几，訓(xùn)練T個(gè)機(jī)器學(xué)習(xí)模型(這里的機(jī)器學(xué)習(xí)模型可以是不一樣的，比如可以是linear regression, svm, decision tree等)萤厅。
3.訓(xùn)練好T個(gè)機(jī)器學(xué)習(xí)模型以后橄抹。當(dāng)每次要處理test集的時(shí)候靴迫，對(duì)于每個(gè)test集，都讓T個(gè)機(jī)器學(xué)習(xí)模型分別做一下結(jié)果楼誓，然后再把所有的結(jié)果進(jìn)行 avg(當(dāng)任務(wù)是預(yù)測(cè)時(shí))/ voting（當(dāng)任務(wù)是分類時(shí)）玉锌。
4.最后，根據(jù)avg/voting的結(jié)果疟羹，當(dāng)作test集的結(jié)果就行主守。

Decision Tree的intuition

Decision Tree是一個(gè)非線性分類器
Decision Tree會(huì)通過tree node把整個(gè)解空間分割成一小塊一小塊，然后每個(gè)小塊就代表著不同的結(jié)果榄融。

Random Forest (注意：因?yàn)锽agging是用來通過降多個(gè)high variance的復(fù)雜模型的方法参淫。所以，如果你手頭有幾個(gè)underfitting的模型愧杯，那么即使做了Bagging涎才，也不會(huì)提高fit的程度，只會(huì)導(dǎo)致最后的結(jié)果還是high bias & underfitting力九。所以耍铜，Random Forest在當(dāng)前你的Decision Tree還不能很好地fit數(shù)據(jù)集的時(shí)候，那是沒有提升作用的跌前！)

主要思想：Random Forest就是把很多Decision Tree模型做Bagging得到的棕兼。
Random Forest的難點(diǎn)（1）：就是對(duì)一組數(shù)據(jù)集做Bagging的Decision Tree時(shí)，那個(gè)數(shù)據(jù)集的隨機(jī)選取抵乓，和特征選取是關(guān)鍵伴挚，比較難。如果直接給每個(gè)Decision Tree分配不同的數(shù)據(jù)集臂寝，在剛好使用完數(shù)據(jù)集中的所有數(shù)據(jù)以后章鲤，事實(shí)上,我們這樣得到的多個(gè)Decision Tree的訓(xùn)練結(jié)果會(huì)趨同，這樣的話咆贬，即使在對(duì)這些Decision Tree做Bagging，那么結(jié)果也不會(huì)得到明顯地提高帚呼。
為了解決Decision Tree訓(xùn)練趨同這個(gè)Random Forest的難點(diǎn)：我們可以人為的在每個(gè)Decision Tree的訓(xùn)練過程中掏缎，隨機(jī)允許數(shù)據(jù)集的一部分特征參與Decision Tree的訓(xùn)練，而不是讓每個(gè)模型訓(xùn)練時(shí)都使用到數(shù)據(jù)集的所有特征煤杀。
Random Forest的難點(diǎn)（2）：因?yàn)榫祢冢瑀andom forest使用了Bagging技術(shù)，所以整個(gè)數(shù)據(jù)集被很多個(gè)模型同時(shí)用沈自，所以酌儒，如何合理地設(shè)計(jì)數(shù)據(jù)集的使用過程，以及利用數(shù)據(jù)集在訓(xùn)練完模型后還可以進(jìn)行交叉驗(yàn)證枯途。
解決Random Forest的Cross Validation的方法：我們使用一種Out-Of_Bag的cross validation技術(shù)忌怎。
1.為每個(gè)Decision Tree均勻地分配訓(xùn)練數(shù)據(jù)籍滴。
2.然后，根據(jù)不同組合(如這里的f2和f4),使用沒用分配給f2和f4的訓(xùn)練數(shù)據(jù)作為test數(shù)據(jù)榴啸，進(jìn)行cross validation孽惰。
3.最后，把所有的Out-Of-Bag的結(jié)果綜合起來鸥印，記作OOB error勋功。

Out-Of-Bag validation
<方法二>.Ensemble的Boosting方法(Boosting很好記，就是一種和Bagging相反的方法库说，當(dāng)我們使用Boosting的時(shí)候狂鞋，是應(yīng)該想要將對(duì)數(shù)據(jù)集fitting不是很好的模型變得更加的fit,也就是說Boosting是用作提升模型的fit程度，降低模型的Bias值的Ensemble方法)
Boosting的優(yōu)勢(shì)：Boosting承諾潜的，只要你當(dāng)前的模型的測(cè)試正確率比亂猜好一點(diǎn)(如:二分類要销，測(cè)試正確率比50%高一點(diǎn))，Boosting就有能力把正確率提升至百分之百夏块。
Boosting的主要步驟: (注意：在訓(xùn)練Boosting中的多個(gè)模型時(shí)疏咐，需要按順序訓(xùn)練，先訓(xùn)練模型1脐供，然后是模型2浑塞，然后是模型3...)

知道Boosting需要訓(xùn)練多個(gè)不同的模型(比如：多個(gè)不同的classifier),那么,如何分配訓(xùn)練集，才能做到政己，在同一個(gè)大的訓(xùn)練集下面訓(xùn)練出多個(gè)不同的模型酌壕？：

1.需要使用同一個(gè)大的訓(xùn)練集，訓(xùn)練出多個(gè)不同的模型的基本思路就是歇由，把訓(xùn)練數(shù)據(jù)集做一個(gè)分割卵牍，然后把子訓(xùn)練集喂給多個(gè)模型去訓(xùn)練，這樣就是叫做: Re-sampling沦泌。
2.Resampling的缺點(diǎn): Re-sampling作為讓一個(gè)數(shù)據(jù)集訓(xùn)練出多個(gè)不同模型的一種簡(jiǎn)單方法糊昙，是很直接有效的。但是谢谦，Re-sampling有分割數(shù)據(jù)集的粒度太粗的缺點(diǎn)释牺。也就是說，在re-sampling數(shù)據(jù)集的時(shí)候回挽，對(duì)于數(shù)據(jù)集中的一個(gè)數(shù)據(jù)没咙，只能完整地喂給某個(gè)模型，而不能說千劈，分0.5個(gè)數(shù)據(jù)集給模型1祭刚。。。
3.Re-Weighting解決細(xì)粒度分割數(shù)據(jù)集的問題：
此時(shí)涡驮，我們給數(shù)據(jù)集中的每一對(duì)數(shù)據(jù)都分配一個(gè)weight值ui暗甥，這樣一來，我們就可以從定義權(quán)重的角度遮怜，細(xì)粒度淋袖，連續(xù)地分割數(shù)據(jù)集給多個(gè)模型了。(值得注意的是锯梁，在進(jìn)行Re-weighting的時(shí)候即碗，其主要目的就是對(duì)模型的objective function(or called loss function)進(jìn)行一番修改，也就是在計(jì)算每單筆loss的時(shí)候陌凳，系數(shù)上面要帶上本條數(shù)據(jù)的weight值)

Boosting的一種算法：AdaBoost

計(jì)算d1的數(shù)學(xué)步驟：
更詳細(xì)的

最后編輯于：2017.12.08 23:05:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末剥懒，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子合敦，更是在濱河造成了極大的恐慌初橘，老刑警劉巖，帶你破解...
沈念sama閱讀 218,525評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件充岛，死亡現(xiàn)場(chǎng)離奇詭異保檐，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)崔梗，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,203評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門夜只，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人蒜魄，你說我怎么就攤上這事扔亥。” “怎么了谈为？”我有些...
開封第一講書人閱讀 164,862評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵旅挤，是天一觀的道長(zhǎng)。經(jīng)常有香客問我伞鲫，道長(zhǎng)粘茄，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,728評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任榔昔，我火速辦了婚禮驹闰，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘撒会。我一直安慰自己，他們只是感情好师妙，可當(dāng)我...
茶點(diǎn)故事閱讀 67,743評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布诵肛。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪怔檩。梳的紋絲不亂的頭發(fā)上褪秀，一...
開封第一講書人閱讀 51,590評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音薛训，去河邊找鬼媒吗。笑死，一個(gè)胖子當(dāng)著我的面吹牛乙埃，可吹牛的內(nèi)容都是我干的闸英。我是一名探鬼主播，決...
沈念sama閱讀 40,330評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼甫何，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了辙喂？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,244評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤巍耗，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后渐排，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,693評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡飞盆，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,885評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了孽水。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,001評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡女气，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出测柠，到底是詐尸還是另有隱情炼鞠，我是刑警寧澤，帶...
沈念sama閱讀 35,723評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布轰胁，位于F島的核電站谒主，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏赃阀。R本人自食惡果不足惜霎肯，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,343評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧观游，春花似錦搂捧、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,919評(píng)論 0贊 22
一樁弒父案允跑，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至搪柑，卻和暖如春聋丝，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背拌屏。一陣腳步聲響...
開封第一講書人閱讀 33,042評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工潮针，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人倚喂。一個(gè)月前我還...
沈念sama閱讀 48,191評(píng)論 3贊 370
代替公主和親
正文我出身青樓每篷，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親端圈。傳聞我的和親對(duì)象是個(gè)殘疾皇子焦读，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,955評(píng)論 2贊 355

lihungyi的ensemble learning intro課

為了處理Ensemble中遇到的不同問題抡医，Ensemble有很多中不同的方法

Decision Tree的intuition

知道Boosting需要訓(xùn)練多個(gè)不同的模型(比如：多個(gè)不同的classifier),那么,如何分配訓(xùn)練集，才能做到政己，在同一個(gè)大的訓(xùn)練集下面訓(xùn)練出多個(gè)不同的模型酌壕？：

Boosting的一種算法：AdaBoost

推薦閱讀更多精彩內(nèi)容