《機器學(xué)習(xí)》筆記-集成學(xué)習(xí)（8）

寫在最前面

如今機器學(xué)習(xí)和深度學(xué)習(xí)如此火熱叮叹，相信很多像我一樣的普通程序猿或者還在大學(xué)校園中的同學(xué)，一定也想?yún)⑴c其中爆存。不管是出于好奇蛉顽，還是自身充電，跟上潮流先较，我覺得都值得試一試携冤。對于自己，經(jīng)歷了一段時間的系統(tǒng)學(xué)習(xí)（參考《機器學(xué)習(xí)/深度學(xué)習(xí)入門資料匯總》）闲勺，現(xiàn)在計劃重新閱讀《機器學(xué)習(xí)》[周志華]和《深度學(xué)習(xí)》[Goodfellow et al]這兩本書曾棕，并在閱讀的過程中進行記錄和總結(jié)。這兩本是機器學(xué)習(xí)和深度學(xué)習(xí)的入門經(jīng)典菜循。筆記中除了會對書中核心及重點內(nèi)容進行記錄翘地，同時，也會增加自己的理解，包括過程中的疑問衙耕，并盡量的和實際的工程應(yīng)用和現(xiàn)實場景進行結(jié)合昧穿，使得知識不只是停留在理論層面，而是能夠更好的指導(dǎo)實踐橙喘。記錄筆記时鸵，一方面，是對自己先前學(xué)習(xí)過程的總結(jié)和補充厅瞎。另一方面饰潜，相信這個系列學(xué)習(xí)過程的記錄，也能為像我一樣入門機器學(xué)習(xí)和深度學(xué)習(xí)同學(xué)作為學(xué)習(xí)參考磁奖。

章節(jié)目錄

個體與集成
Boosting
Bagging與隨機森林
集合策略
多樣性

（一）個體與集成

集成學(xué)習(xí)（ensemble learning）的一般結(jié)構(gòu)：先產(chǎn)生一組“個體學(xué)習(xí)器”（individual learner）囊拜，再用某種策略將他們結(jié)合起來，如下圖所示比搭，

圖8.1

個體學(xué)習(xí)器通常由一個現(xiàn)有的學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)產(chǎn)生：

只包含同種類型的個體學(xué)習(xí)器，這樣的集成是“同質(zhì)”的（homogeneous）南誊。同質(zhì)集成中的個體學(xué)習(xí)器亦稱為”基學(xué)習(xí)器“（base learning）身诺，相應(yīng)的學(xué)習(xí)算法稱為”基學(xué)習(xí)算法“（base learning algorithm）。
集成也可包含不同類型的個體學(xué)習(xí)器抄囚，這樣集成是”異質(zhì)“的（heterogeneous）霉赡。相應(yīng)的個體學(xué)習(xí)器，常稱為”組件學(xué)習(xí)器“（component learning）或直接稱為個體學(xué)習(xí)器幔托。
在一般的經(jīng)驗中穴亏，如果把好壞不等的東西摻到一起，那么通常結(jié)果會是比壞的好一些重挑，比好的要壞一些嗓化。集成學(xué)習(xí)把多個學(xué)習(xí)器結(jié)合起來，如何能獲得比最好的單一學(xué)習(xí)器更好的性能呢谬哀？
考慮一個簡單的例子：在二分類任務(wù)中刺覆，假定三個分類器在三個測試樣本的表現(xiàn)如下圖所示，

圖8.2

其中史煎，√表示分類正確谦屑，x表示分類錯誤，集成學(xué)習(xí)的結(jié)果通過投票法（voting）產(chǎn)生篇梭，即“少數(shù)服從多數(shù)”氢橙。這個簡單的例子顯示出：要獲得好的集成，個體學(xué)習(xí)器應(yīng)“好而不同”恬偷。個體學(xué)習(xí)器要有一定的“準(zhǔn)確性”悍手，即學(xué)習(xí)器不能太壞，而且要有“多樣性”（diversity），即學(xué)習(xí)器之間有差異谓苟。事實上官脓，如何產(chǎn)生并結(jié)合“好而不同”的個體學(xué)習(xí)器，恰是集成學(xué)習(xí)研究的核心涝焙。
根據(jù)個體學(xué)習(xí)器的生成方式卑笨，目前集成學(xué)習(xí)的方法大致可分為兩大類：
個體學(xué)習(xí)器間存在強依賴關(guān)系、必須串行生成的序列化方法仑撞，代表是Boosting赤兴；
個體學(xué)習(xí)器間不存在強依賴關(guān)系、可同時生成的并行化方法隧哮，代表是Baggig和“隨機森林”（Random Forest）桶良；

（二）Boosting

Boosting是一族可將弱學(xué)習(xí)器提升為強學(xué)習(xí)器的算法。這族算法的工作機制類似：先從初始訓(xùn)練集訓(xùn)練出一個基學(xué)習(xí)器沮翔，再根據(jù)基學(xué)習(xí)器的表現(xiàn)對訓(xùn)練樣本分布進行調(diào)整陨帆，使得先前基學(xué)習(xí)器做錯的訓(xùn)練樣本在后續(xù)收到更多的關(guān)注，然后基于調(diào)整后的樣本分布來訓(xùn)練下一個基學(xué)習(xí)器采蚀；如此重復(fù)進行疲牵，直到基學(xué)習(xí)器數(shù)目達到事先指定的值T，最終將這T個學(xué)習(xí)器進行加權(quán)結(jié)合榆鼠。
Boosting族算法最著名的代表是AdaBoost纲爸。AdaBoost有多種推導(dǎo)方式，比較容易理解的是基于“加性模型”（additive model）即基學(xué)習(xí)器線性組合妆够，

8.4

來最小化指數(shù)損失函數(shù)（exponential loss function）识啦，

8.5

（三）Bagging與隨機森林

欲得到泛化性能強的集成，集成中的個體學(xué)習(xí)器應(yīng)盡可能獨立神妹。雖然“獨立”在顯示任務(wù)中無法做到颓哮，但可以設(shè)法使基學(xué)習(xí)器盡可能具有較大差異。給定一個訓(xùn)練數(shù)據(jù)集灾螃，一種可能的做法是對訓(xùn)練樣本進行采樣题翻，產(chǎn)生若干個不同的子集，再從每個數(shù)據(jù)子集中訓(xùn)練出一個基學(xué)習(xí)器腰鬼。這樣嵌赠，由于訓(xùn)練數(shù)據(jù)不同，我們獲得的基學(xué)習(xí)器可望具有比較大的差異熄赡。然而姜挺，為獲得更好的集成，我們還同時希望個體學(xué)習(xí)器不能太差彼硫。如果采樣出的每個子集都完全不同炊豪，則每個基學(xué)習(xí)器只用到了一小部分訓(xùn)練數(shù)據(jù)凌箕，甚至不足進行有效學(xué)習(xí)，這顯然無法確保產(chǎn)生出比較好的基學(xué)習(xí)器词渤。為考慮這個問題牵舱，我們可考慮使用相互有交疊的采樣子集。

1. Bagging

Bagging是并行式集成學(xué)習(xí)方法最著名的代表缺虐，從名字即可看出芜壁，它直接基于前面介紹過的自助采樣法（bootstrap sampling）。從偏差-方差分解角度看高氮，Bagging主要關(guān)注降低方差慧妄。

2. 隨機森林

隨機森林（Random Forest，簡稱RF）是Bagging的一個擴展變體剪芍。RF在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上塞淹，進一步在決策樹的訓(xùn)練過程中引入了隨機屬性選擇。
隨機森林對Bagging只做了小改動罪裹，但是與Bagging中基學(xué)習(xí)器的“多樣性”僅通過樣本擾動（通過對初始訓(xùn)練集采樣）而來不同饱普，隨機森林中基學(xué)習(xí)器多樣性不僅來自樣本擾動，還來自屬性擾動状共，這就使得最終集成的泛化性能可通過個體學(xué)習(xí)器之間的差異度的增加而進一步提升费彼。

（四）組合策略

學(xué)期器結(jié)合可能從三個方面帶來好處：

從統(tǒng)計的方面看，由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大口芍，可能有多個假設(shè)在訓(xùn)練集上達到同等性能，此時若使用單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳雇卷，結(jié)合多個學(xué)習(xí)器減小這一風(fēng)險鬓椭；
從計算的方面來看，學(xué)習(xí)算法往往會陷入局部極小关划，有的局部極小點所對應(yīng)的泛化性能可能很糟小染，而通過多次運行之后進行結(jié)合，可降低陷入糟糕局部極小點的風(fēng)險贮折；
從表示的方面來看裤翩，某些但學(xué)習(xí)器則肯定無效，而通過結(jié)合多個學(xué)習(xí)器调榄，由于響應(yīng)的假設(shè)空間有所擴大踊赠，有可能學(xué)得更好的近似。
直觀的示意圖如下所示每庆，

圖8.8

集成學(xué)習(xí)常見策略有：
平均法
投票法
學(xué)習(xí)法

（五）多樣性

誤差-分歧分解

欲構(gòu)建泛化能力強的集成筐带，個體學(xué)習(xí)器應(yīng)“好而不同”，其中缤灵，“誤差-分歧分解”（error-ambiguity decomposition）是一個簡單的理論分析方法伦籍。但該推到過程只適用于回歸學(xué)習(xí)蓝晒，難以直接推廣到分類學(xué)習(xí)任務(wù)中。

多樣性度量

多樣性度量（diversity measure）是用于度量集成中個體分類器的多樣性帖鸦，即估算個體學(xué)習(xí)器的多樣化程度芝薇。常用的多樣性度量包括：

不合度量（disagreement measure）
相關(guān)系數(shù)（correlation coefficient）
Q-統(tǒng)計量（Q-statistics）
k-統(tǒng)計量（k-statistics）

多樣性增強

在集成學(xué)習(xí)中需有效地生成多樣性大的個體學(xué)習(xí)器。與簡單地直接用初始數(shù)據(jù)訓(xùn)練出個體學(xué)習(xí)器相比作儿，一般思路是在學(xué)習(xí)過程中引入隨機性洛二，常見的做法主要有，

數(shù)據(jù)樣本擾動
輸入屬性擾動
輸出表示擾動
算法參數(shù)擾動

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末立倍，一起剝皮案震驚了整個濱河市灭红，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌口注，老刑警劉巖变擒，帶你破解...
沈念sama閱讀 210,914評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異寝志，居然都是意外死亡娇斑，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,935評論 2贊 383
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門材部，熙熙樓的掌柜王于貴愁眉苦臉地迎上來毫缆，“玉大人，你說我怎么就攤上這事乐导】喽。” “怎么了？”我有些...
開封第一講書人閱讀 156,531評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵物臂，是天一觀的道長旺拉。經(jīng)常有香客問我，道長棵磷，這世上最難降的妖魔是什么蛾狗？我笑而不...
開封第一講書人閱讀 56,309評論 1贊 282
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮仪媒，結(jié)果婚禮上沉桌，老公的妹妹穿的比我還像新娘。我一直安慰自己算吩，他們只是感情好留凭，可當(dāng)我...
茶點故事閱讀 65,381評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著赌莺，像睡著了一般冰抢。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上艘狭，一...
開封第一講書人閱讀 49,730評論 1贊 289
城市分裂傳說
那天挎扰，我揣著相機與錄音翠订，去河邊找鬼。笑死遵倦，一個胖子當(dāng)著我的面吹牛尽超，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播梧躺，決...
沈念sama閱讀 38,882評論 3贊 404
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼似谁，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了掠哥？” 一聲冷哼從身側(cè)響起巩踏，我...
開封第一講書人閱讀 37,643評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎续搀，沒想到半個月后塞琼，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,095評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡禁舷，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,448評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年彪杉，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牵咙。...
茶點故事閱讀 38,566評論 1贊 339
活死人
序言：一個原本活蹦亂跳的男人離奇死亡派近，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出洁桌，到底是詐尸還是另有隱情渴丸，我是刑警寧澤，帶...
沈念sama閱讀 34,253評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布另凌，位于F島的核電站曙强，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏途茫。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,829評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一溪食、第九天我趴在偏房一處隱蔽的房頂上張望囊卜。院中可真熱鬧，春花似錦错沃、人聲如沸栅组。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,715評論 0贊 21
一樁弒父案枢析，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽玉掸。三九已至，卻和暖如春醒叁，著一層夾襖步出監(jiān)牢的瞬間司浪，已是汗流浹背泊业。一陣腳步聲響...
開封第一講書人閱讀 31,945評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留啊易，地道東北人吁伺。一個月前我還...
沈念sama閱讀 46,248評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像租谈，于是被迫代替她去往敵國和親篮奄。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,440評論 2贊 348