【機(jī)器學(xué)習(xí)基礎(chǔ)】混合和裝袋

融合模型(Aggregation Model)

如果我們已經(jīng)得到了一些特征或者假設(shè)，它們和我們做機(jī)器學(xué)習(xí)的目標(biāo)有若干的一致性的話框仔，我們可以將這些假設(shè)綜合起來，讓預(yù)測效果變得更好鲫惶，這樣的模型被稱為融合模型习瑰。
融合模型是通過混合(mix)和組合(combine)一些假設(shè)的方式，得到更好的預(yù)測結(jié)果抡笼。
下面列舉了四種不同的混合組合方式苏揣，并給出了數(shù)學(xué)表示形式：

當(dāng)有多個假設(shè)時，我們選擇檢驗誤差最小的假設(shè)作為我們最信任的目標(biāo)函數(shù)：

我們現(xiàn)在有多個假設(shè)推姻，我們可以給每個假設(shè)一個投票的權(quán)利平匈，綜合所有假設(shè)的投票結(jié)果：
現(xiàn)在有多個假設(shè)，我們可以根據(jù)對于不同假設(shè)的信任程度藏古，給予不同假設(shè)不同的票數(shù)增炭，這種情況綜合了前兩種情況：
如果可以給每個假設(shè)指定一個函數(shù)作為系數(shù)，這個函數(shù)說明了在不同的條件下拧晕，票數(shù)的情況：

舉例

如果現(xiàn)在有一些比較弱的假設(shè)（如下圖中隙姿，只能進(jìn)行橫軸和縱軸的分類平面），如果我們能將這些弱的分類器組合起來厂捞，就可以把數(shù)據(jù)有效的分隔開输玷，得到一個強(qiáng)的分類器（弱分類器的組合）。

融合模型使得模型的能力更加強(qiáng)大靡馁，通過組合弱分類器的形式欲鹏，類似之前介紹的特征轉(zhuǎn)換的能力；而通過組合和混合臭墨，得到了一個泛化能力更強(qiáng)的假設(shè)赔嚎，又類似之前介紹的正則化的作用。所以，融合模型將特征轉(zhuǎn)換和正則化結(jié)合起來尤误，一個合理的融合模型侠畔，從理論上是可以得到一個很好的假設(shè)的。

Blending

用于分類問題的Uniform Blending

這里像上面描述的那樣袄膏，通過每個假設(shè)投票的結(jié)果践图，得到對于每個數(shù)據(jù)的預(yù)測掺冠。這個投票的結(jié)果實際上反應(yīng)了少數(shù)服從多數(shù)的原則沉馆，通過多數(shù)意見修正少數(shù)的意見，少數(shù)的意見可能是有一些錯誤德崭。
最終斥黑，通過民主投票的機(jī)制得到一個更加復(fù)雜的分類邊界。

用于回歸問題的Uniform Blending

在回歸問題中眉厨，最終的假設(shè)其實是一系列假設(shè)的平均锌奴。
這里的大概意思是，對于同樣的待預(yù)測數(shù)據(jù)x憾股，有些假設(shè)低估了實際的目標(biāo)鹿蜀，gt(x) < f(x)；而有些假設(shè)高估了實際的目標(biāo),gt(x) > f(x)服球。這樣平均下來的結(jié)果茴恰，可能有低估有高估，就減少了誤差的結(jié)果斩熊，平均下來得到一個更穩(wěn)定往枣、更準(zhǔn)確的估計方式。

Uniform Blending的理論分析

我們這里分析一下任意一個gt(x)與目標(biāo)函數(shù)的均方差的平均和綜合之后的假設(shè)G與目標(biāo)函數(shù)的均方差的關(guān)系粉渠。

得到的這個式子告訴我們分冈，avg((gt-f)^2)和(G-f)2是有關(guān)系的，中間差了一個avg((gt-G)^2)霸株。

以此類推雕沉，對于測試數(shù)據(jù)集，我們分析一下預(yù)測誤差去件，得到下面的式子坡椒。說明Eout(gt)的平均要比Eout(G)大，這說明理論上Uniform Blending的誤差要比gt的平均預(yù)測誤差更小箫攀，預(yù)測效果也更好肠牲。

小結(jié)

現(xiàn)在假設(shè)每次從一組數(shù)據(jù)分布中抽取N筆數(shù)據(jù)構(gòu)造gt，平均T個gt靴跛，得到G缀雳。如果對這一動作取極限，得到期望值g hat梢睛。

我們下面用g hat代替上一小節(jié)中的G肥印，得到gt和g hat的關(guān)系识椰。

g_hat代表了一些gt的共同意見，共識深碱，consensus

avg(Eout(gt))代表了該算法作用于不同的數(shù)據(jù)集的平均表現(xiàn)腹鹉，是演算法表現(xiàn)的期望值

avg(ε(gt-g_hat)^2)代表了gt與共識差別多大，說明了不同gt的意見有多么不一樣敷硅，多么分散功咒，稱為variance

Eout(g_hat)代表了共識的表現(xiàn)如何，稱為bias

我們可以知道平均的目的就是想辦法消除variance的過程绞蹦，得到更穩(wěn)定的表現(xiàn)力奋。

Linear Blending

假設(shè)現(xiàn)在我們已經(jīng)得到一些假設(shè)gt，Linear Blending是分配給不同的gt不同的票數(shù)幽七，即給gt不同權(quán)重αt景殷。最終得到的是gt的線性組合。

(1)得到使得模型訓(xùn)練誤差最小的α
那么我們該如何得到最好的αt呢？一般的思路自然是要使得訓(xùn)練誤差最小的αt，即min Ein(α)乌奇。

上面的式子和之前介紹過的進(jìn)行特征轉(zhuǎn)換后的線性回歸模型很類似，這里要求αt>=0這個限制條件绩蜻。這樣我們可以將gt(·)當(dāng)做是特征轉(zhuǎn)換，然后利用線性回歸模型的方式求解α就可以了梁厉。

(2)忽略α的限制條件

在之前的線性回歸模型中辜羊，我們沒有用到系數(shù)的限制條件，這里我們該如何轉(zhuǎn)化αt>=0這個限制條件的問題呢词顾？

上面的式子告訴我們八秃，當(dāng)αt < 0的時候，我們可以將αt·gt(x)看做是一個正的系數(shù)|αt|乘上一個反向的gt肉盹。

我們可以設(shè)想二元分類的情況昔驱，如果有一個假設(shè)，其錯誤率是99%上忍，那么當(dāng)我們反過來用的時候骤肛，可以得到一個錯誤為1%的假設(shè)，即正確率為99%的假設(shè)窍蓝。從這個角度來看腋颠，我們可以不用在意αt的正負(fù)問題。

(3)gt的選擇
我們使用Blending算法吓笙，需要一些gt淑玫，那么gt通常是怎么得到呢？一般的，g從不同的模型絮蒿，通過求最好的Ein得到的尊搬。
但是通過最小化Ein的方式進(jìn)行選擇最好的gt，需要付出復(fù)雜度代價很大土涝，所以我們要使用最小化驗證誤差進(jìn)行g(shù)的選擇佛寿。所以，如果使用Ein來得到Linear Blending的gt就需要付出更大的復(fù)雜度代價了但壮，很容易出現(xiàn)過擬合的問題冀泻。
實際上，Blending算法通過選擇使得驗證誤差Eval最小的αt茵肃，而不是Ein腔长；同時袭祟，為了讓驗證誤差Eval和之前得到的gt相互獨立验残，故之前得到的gt是從訓(xùn)練集合Etrain中得到的gt-。

具體的流程是這樣的：

從比較小的Dtrain數(shù)據(jù)集中得到一堆g1-巾乳，g2-您没，...，gT-胆绊，然后將驗證集合Dval中的數(shù)據(jù)通過g-轉(zhuǎn)換成Z空間的數(shù)據(jù)

Linear Blending可以通過線性模型學(xué)習(xí)經(jīng)過轉(zhuǎn)換得到的(zn,yn)氨鹏，最后輸出的是通過g-得到的α,和使用所有現(xiàn)有數(shù)據(jù)訓(xùn)練得到的g而不再是g-

同樣的道理，我們也可以使用同樣的流程來運用非線性的模型求解這個問題压状，這樣就可以使得模型的能力更強(qiáng)仆抵，進(jìn)而延伸到有條件的Blending模型(conditional blending)上，其缺點是可能出現(xiàn)過擬合的問題

如果上面不太明白g和g-的區(qū)別种冬，請看一下【機(jī)器學(xué)習(xí)基礎(chǔ)】驗證小結(jié)的介紹镣丑。

Bagging(Bootstrap Aggregation)

之前我們假設(shè)事先已經(jīng)得到一對g，然后去做Blending的動作娱两，現(xiàn)在我們可不可以一邊學(xué)習(xí)g莺匠，一邊將這些g綜合起來？
如何得到不同的g
首先十兢，我們要考慮一下可以通過什么方式得到不同的g：

從不同的模型得到不同的g

同一個模型趣竣，不同的參數(shù)得到不同的g
如果是算法本來是有隨機(jī)的部分，可以得到不同的g
不一樣的數(shù)據(jù)集得到不同的g旱物，比如在進(jìn)行交叉驗證的時候遥缕，不一樣的數(shù)據(jù)集切割可以得到不一樣的g-

我們能不能通過一份數(shù)據(jù)得到不同的g呢？這就是我們接下來要做的工作宵呛。
再次回顧一下之前介紹的理論結(jié)果单匣，即演算法的表現(xiàn)可以分成Bias和Variance。

這個理論背后的意義是，大家的共識比單一的意見(g)要好封孙。
我們在之前的推導(dǎo)中要求有一組不同的數(shù)據(jù)迹冤，但是我們現(xiàn)在只有一筆數(shù)據(jù)可用，那么我們該如何做呢虎忌？
在上面的式子中的g的平均(g拔),是通過無限個數(shù)據(jù)集得到的g泡徙，然后進(jìn)行平均；為了近似g的平均膜蠢，我們使用有限個堪藐，但是很大的數(shù)量T代替；其次挑围，利用統(tǒng)計學(xué)中bootstrapping方法來根據(jù)現(xiàn)有數(shù)據(jù)模擬生成新的數(shù)據(jù)礁竞。

bootstrapping

bootstrap采樣的數(shù)據(jù)是通過在原有N個數(shù)據(jù)中隨機(jī)平均地取出，記錄下來之后再放回去重新抽取杉辙，這樣取N次之后模捂，得到的數(shù)據(jù)在統(tǒng)計學(xué)上稱為bootstrap sample。

Bagging

bootstrap aggregation(BAGging)的方法是通過bootstapping的機(jī)制生成一系列不同的gt蜘矢，然后這些gt用Uniform的方式投票狂男，綜合起來。

舉例

下面的例子是用Pocket演算法求出的分類邊界品腹，這里的步驟是用boostrap的方法得到不同的數(shù)據(jù)集岖食，然后對每一筆數(shù)據(jù)集運用Pocket算法，讓每個Pocket算法跑1000次舞吭，得到25個分類線(灰色線)泡垃，將這些分類線綜合起來得到最終的非線性的邊界(黑色線)。

轉(zhuǎn)載請注明作者Jason Ding及其出處
GitCafe博客主頁(http://jasonding1354.gitcafe.io/)
Github博客主頁(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.reibang.com/users/2bd9b48f6ea8/latest_articles)
百度搜索jasonding1354進(jìn)入我的博客主頁

最后編輯于：2017.11.27 02:50:38

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末羡鸥，一起剝皮案震驚了整個濱河市蔑穴，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌兄春，老刑警劉巖澎剥，帶你破解...
沈念sama閱讀 210,914評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異赶舆，居然都是意外死亡哑姚，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,935評論 2贊 383
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門芜茵，熙熙樓的掌柜王于貴愁眉苦臉地迎上來叙量，“玉大人，你說我怎么就攤上這事九串〗逝澹” “怎么了寺鸥？”我有些...
開封第一講書人閱讀 156,531評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長品山。經(jīng)常有香客問我胆建，道長，這世上最難降的妖魔是什么肘交？我笑而不...
開封第一講書人閱讀 56,309評論 1贊 282
?港島之戀（遺憾婚禮）
正文為了忘掉前任笆载，我火速辦了婚禮，結(jié)果婚禮上涯呻，老公的妹妹穿的比我還像新娘凉驻。我一直安慰自己，他們只是感情好复罐，可當(dāng)我...
茶點故事閱讀 65,381評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布涝登。她就那樣靜靜地躺著，像睡著了一般效诅。火紅的嫁衣襯著肌膚如雪胀滚。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,730評論 1贊 289
城市分裂傳說
那天填帽，我揣著相機(jī)與錄音蛛淋，去河邊找鬼。笑死篡腌，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的勾效。我是一名探鬼主播嘹悼，決...
沈念sama閱讀 38,882評論 3贊 404
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼层宫！你這毒婦竟也來了杨伙？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,643評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤萌腿，失蹤者是張志新（化名）和其女友劉穎限匣，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體毁菱，經(jīng)...
沈念sama閱讀 44,095評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡米死，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,448評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了贮庞。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片峦筒。...
茶點故事閱讀 38,566評論 1贊 339
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖窗慎，靈堂內(nèi)的尸體忽然破棺而出物喷，到底是詐尸還是另有隱情卤材，我是刑警寧澤，帶...
沈念sama閱讀 34,253評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布峦失，位于F島的核電站扇丛，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏尉辑。R本人自食惡果不足惜晕拆，卻給世界環(huán)境...
茶點故事閱讀 39,829評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望材蹬。院中可真熱鬧实幕，春花似錦、人聲如沸堤器。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,715評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽闸溃。三九已至整吆，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間辉川，已是汗流浹背表蝙。一陣腳步聲響...
開封第一講書人閱讀 31,945評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留乓旗，地道東北人府蛇。一個月前我還...
沈念sama閱讀 46,248評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像屿愚，于是被迫代替她去往敵國和親汇跨。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,440評論 2贊 348