百面機器學(xué)習(xí)｜第十二章集成學(xué)習(xí)知識點(一)

前言

如果你能找到這里，真是我的幸運~這里是藍(lán)白絳的學(xué)習(xí)筆記缓淹，本集合主要針對《百面機器學(xué)習(xí)——算法工程師帶你去面試》這本書厌丑。主要記錄我認(rèn)為重要的知識點帮毁，希望對大家有幫助蒲障。

第十二章集成學(xué)習(xí)

1缸剪、集成學(xué)習(xí)的種類

集成學(xué)習(xí)是一大類模型融合策略和方法的統(tǒng)稱曹抬，其中包含多種集成學(xué)習(xí)的思想玛界。

Boosting：Boosting方法訓(xùn)練基分類器時采用串行的方式棵逊，各個基分類器之間有依賴伤疙。其基本思想是將基分類器層層疊加，每一層在訓(xùn)練的時候辆影，對前一層基分類器分錯的樣本徒像，給予更高的權(quán)重。測試時蛙讥，根據(jù)各層分類器的結(jié)果的加權(quán)得到最終結(jié)果锯蛀。
Bagging：Bagging方法在訓(xùn)練過程中，各基分類器之間無強依賴次慢，可以進(jìn)行并行訓(xùn)練旁涤。為了讓基分類器之間相互獨立，將訓(xùn)練集分為若干子集迫像。由于個體之間存在差異性劈愚，最終做出的判斷不會完全一致。在最終做決策時闻妓，每個個體單獨作出判斷菌羽，再通過投票的方式作出最后的集體決策。其中很著名的算法是基于決策樹基分類器的隨機森林由缆。

從消除基分類器的偏差和方差的角度來理解Boosting和Bagging方法的差異注祖。基分類器的錯誤率要大于集成分類器均唉，基分類器的錯誤是偏差和方差兩種錯誤之和是晨。

偏差主要是由于分類器的表達(dá)能力有限導(dǎo)致的系統(tǒng)性誤差，表現(xiàn)在訓(xùn)練誤差不收斂舔箭。Boosting方法通過逐步聚焦于基分類器分錯的樣本署鸡，減小集成分類器的偏差。
方差是由于分類器對于樣本分布過于敏感限嫌，導(dǎo)致在訓(xùn)練樣本數(shù)較少時，產(chǎn)生過擬合时捌。Bagging方法則是采取分而治之的策略怒医，通過對訓(xùn)練樣本多次采樣，訓(xùn)練多個不同模型進(jìn)行綜合奢讨，來減小集成分類器的方差稚叹。用簡單多數(shù)投票方法來集成結(jié)果，超過半數(shù)基分類器出錯的概率會隨著基分類器的數(shù)量增加而下降。

2扒袖、集成學(xué)習(xí)的步驟和例子

集成學(xué)習(xí)一般可以分為以下3個步驟：
(1) 找到誤差相互獨立的基分類器塞茅。
(2) 訓(xùn)練基分類器。
(3) 合并基分類器的結(jié)果季率。
第(3)步合并基分類器的方法有voting和stacking兩種野瘦。stacking是用串行的方式，把前一個基分類器的結(jié)果輸出到下一個分類器飒泻，將所有基分類器的輸出結(jié)果相加作為最終的輸出(或用更復(fù)雜的方法鞭光，將各基分類器的輸出作為特征，用邏輯回歸作為融合模型進(jìn)行最后的結(jié)果預(yù)測)泞遗。
Adaboost采取了Boosting的思想惰许，對分類正確的樣本降低了權(quán)重，對分類錯誤的樣本升高或者保持權(quán)重不變史辙。在最后進(jìn)行模型融合的過程中汹买，也根據(jù)錯誤率對基分類器進(jìn)行加權(quán)融合。
另一個非常流行的是梯度提升決策樹聊倔，思想是每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差晦毙，這個殘差是一個加預(yù)測值后能得真實值的累加量。比如預(yù)測年齡方库，真實年齡是25歲结序，第一棵樹預(yù)測22歲，則第二棵樹將年齡設(shè)為3歲去學(xué)習(xí)纵潦。使用殘差繼續(xù)學(xué)習(xí)徐鹤，就是GBDT中的Gradient Boosted所表達(dá)的意思。

3邀层、基分類器

最常用的基分類器是決策樹返敬，主要有以下3個方面的原因：
(1) 決策樹可以較為方便地將樣本的權(quán)重整合到訓(xùn)練過程中，而不需要使用過采樣的方法來調(diào)整樣本權(quán)重寥院。
(2) 決策樹的表達(dá)能力和泛化能力劲赠，可以通過調(diào)節(jié)樹的層數(shù)來做折中。
(3) 數(shù)據(jù)樣本的擾動對于決策樹的影響較大秸谢，因此不同子樣本集合生成的決策樹基分類器隨機性較大凛澎，這樣的“不穩(wěn)定學(xué)習(xí)器”更適合作為基分類器。此外估蹄，在決策樹節(jié)點分裂的時候塑煎，隨機地選擇一個特征子集，從中找出最優(yōu)分類屬性臭蚁，很好地引入了隨機性最铁。
除了決策樹讯赏，神經(jīng)網(wǎng)絡(luò)模型也適合作為基分類器，主要由于神經(jīng)網(wǎng)絡(luò)模型也比較“不穩(wěn)定”冷尉，而且還可以通過調(diào)整神經(jīng)元數(shù)量漱挎、連接方式、網(wǎng)絡(luò)層數(shù)雀哨、初始權(quán)值等方式引入隨機性磕谅。
Bagging的主要好處是集成后的分類器的方差，比基分類器的方差小震束，所采用的基分類器最好是本身對樣本分布較為敏感的(即所謂不穩(wěn)定的分類器)怜庸，這樣Bagging才能有用武之地。
線性分類器或者K近鄰都是較為穩(wěn)定的分類器垢村，本身方差就不大割疾，所以用他們做基分類器Bagging并不能在原有基分類器的基礎(chǔ)上獲得更好的表現(xiàn)，甚至可能因為Bagging的采樣嘉栓，導(dǎo)致它們在訓(xùn)練中更難收斂宏榕，從而增大了集成分類器的偏差。

4侵佃、偏差與方差

有監(jiān)督學(xué)習(xí)中麻昼，模型的泛化誤差來源于兩個方面：偏差和方差。

偏差：所有采樣得到的大小為 $m$ 的訓(xùn)練數(shù)據(jù)集訓(xùn)練出的所有模型的輸出的平均值和真實模型輸出的偏差馋辈。偏差通常是由于我們對學(xué)習(xí)算法作出了錯誤的假設(shè)所導(dǎo)致的抚芦，比如真實模型是某個二次函數(shù)，但我們假設(shè)模型是一次函數(shù)迈螟。由偏差帶來的誤差通常在訓(xùn)練誤差上就能體現(xiàn)出來叉抡。
方差：所有采樣得到的大小為 $m$ 的訓(xùn)練數(shù)據(jù)集訓(xùn)練出的所有模型的輸出的方差。方差通常是由于模型的復(fù)雜度相對于訓(xùn)練樣本 $m$ 過高導(dǎo)致的答毫，比如一共有100個訓(xùn)練樣本褥民，而我們假設(shè)模型是階數(shù)不大于200的多項式函數(shù)。由方差帶來的誤差通常體現(xiàn)在測試誤差相對于訓(xùn)練誤差的增量上洗搂。

12-4 偏差與方差示意圖

從減小方差和偏差的角度解釋Boosting和Bagging的原理：

Bagging能夠提高弱分類器性能的原因是降低了方差消返。
Boosting能夠提高弱分類器性能的原因是降低了偏差。
Bagging：Bagging是Bootstrap Aggregating的簡稱耘拇，意思就是再抽樣撵颊，然后在每個樣本上訓(xùn)練出來的模型取平均。假設(shè)有 $n$ 個隨機變量惫叛，方差為 $\sigma^2$ 秦驯，兩兩變量之間的相關(guān)性為 $\rho$ ，則 $n$ 個隨機變量的均值 $\frac{\sum X_i}{n}$ 的方差為 $\rho*\sigma^2+(1-\rho)*\sigma^2/n$ 挣棕。在隨機變量完全獨立的情況下( $\rho=0$ )译隘， $n$ 個隨機變量的方差為 $\sigma^2/n$ ，也就是說方差減小到了原來的 $1/n$ 洛心。當(dāng)然模型之間不可能完全獨立固耘。為了追求模型的獨立性，諸多Bagging的方法做了不同的改進(jìn)词身。比如在隨機森林算法中厅目，每次選取節(jié)點分裂屬性時，會隨機抽取一個屬性子集法严，而不是從所有屬性中選取最優(yōu)屬性损敷，就是為了避免弱分類器之間過強的相關(guān)性。
Boosting：Boosting訓(xùn)練好弱分類器后深啤，我們計算弱分類器的錯誤或殘差拗馒，作為下一個分類器的輸入。這個過程就是在不斷減小損失函數(shù)溯街，使模型不斷逼近“靶心”诱桂，即使模型偏差不斷降低。(Boosting不會顯著降低方差呈昔，因為Boosting的各弱分類器之間是強相關(guān)的挥等，缺乏獨立性，所以不會對降低方差有作用)

泛化誤差堤尾、偏差肝劲、方差和模型復(fù)雜度的關(guān)系：
如下圖所示。對于給定的學(xué)習(xí)任務(wù)和訓(xùn)練數(shù)據(jù)集郭宝，我們需要對模型的復(fù)雜度做合理的假設(shè)辞槐。如果模型復(fù)雜度過低，雖然方差很小剩蟀，但偏差會很高催蝗；如果模型復(fù)雜度過高，雖然偏差低育特，但方差會很高丙号。

12-4 泛化誤差、偏差缰冤、方差和模型復(fù)雜度

小結(jié)

這是本章的第一部分犬缨，主要講了Bagging、Boosting的訓(xùn)練方法棉浸，典型的用到Bagging的方法有隨機森林怀薛，典型的用到Boosting的方法有Adaboost、梯度提升決策樹迷郑。第一部分還從偏差和方差的角度解釋了Bagging和Boosting的原理枝恋。之前雖然知道Bagging和Boosting创倔，但是并沒有想過模型的偏差和方差，這一點非常有啟發(fā)焚碌。

結(jié)尾

如果您發(fā)現(xiàn)我的文章有任何錯誤畦攘，或?qū)ξ业奈恼掠惺裁春玫慕ㄗh，請聯(lián)系我十电！如果您喜歡我的文章知押，請點喜歡~*我是藍(lán)白絳，感謝你的閱讀鹃骂！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末台盯，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子畏线，更是在濱河造成了極大的恐慌静盅，老刑警劉巖，帶你破解...
沈念sama閱讀 218,122評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件象踊，死亡現(xiàn)場離奇詭異温亲，居然都是意外死亡，警方通過查閱死者的電腦和手機杯矩，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門栈虚，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人史隆，你說我怎么就攤上這事魂务。” “怎么了泌射？”我有些...
開封第一講書人閱讀 164,491評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵粘姜，是天一觀的道長。經(jīng)常有香客問我熔酷，道長孤紧，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,636評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任拒秘，我火速辦了婚禮号显，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘躺酒。我一直安慰自己押蚤，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,676評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布羹应。她就那樣靜靜地躺著揽碘，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上雳刺，一...
開封第一講書人閱讀 51,541評論 1贊 305
城市分裂傳說
那天劫灶，我揣著相機與錄音，去河邊找鬼掖桦。笑死浑此，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的滞详。我是一名探鬼主播，決...
沈念sama閱讀 40,292評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼紊馏，長吁一口氣：“原來是場噩夢啊……” “哼料饥！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起朱监，我...
開封第一講書人閱讀 39,211評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤岸啡，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后赫编，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體巡蘸，經(jīng)...
沈念sama閱讀 45,655評論 1贊 314
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,846評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年擂送，在試婚紗的時候發(fā)現(xiàn)自己被綠了悦荒。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,965評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡嘹吨，死狀恐怖搬味，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蟀拷，我是刑警寧澤碰纬，帶...
沈念sama閱讀 35,684評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站问芬，受9級特大地震影響悦析，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜此衅，卻給世界環(huán)境...
茶點故事閱讀 41,295評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一强戴、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧炕柔，春花似錦酌泰、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評論 0贊 22
一樁弒父案陵刹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至欢嘿，卻和暖如春衰琐，著一層夾襖步出監(jiān)牢的瞬間也糊，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,012評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工羡宙，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留狸剃，地道東北人。一個月前我還...
沈念sama閱讀 48,126評論 3贊 370
代替公主和親
正文我出身青樓狗热，卻偏偏與公主長得像钞馁，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子匿刮，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,914評論 2贊 355